{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999443609859233,
  "eval_steps": 500,
  "global_step": 4493,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 69.80455204002692,
      "learning_rate": 7.407407407407409e-08,
      "loss": 1.9388,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 139.58553326968735,
      "learning_rate": 1.4814814814814817e-07,
      "loss": 2.6553,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 53.796353656950565,
      "learning_rate": 2.2222222222222224e-07,
      "loss": 1.9117,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 72.0230861852831,
      "learning_rate": 2.9629629629629634e-07,
      "loss": 2.0854,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 148.27060854011236,
      "learning_rate": 3.7037037037037036e-07,
      "loss": 3.3816,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 57.45950599017744,
      "learning_rate": 4.444444444444445e-07,
      "loss": 1.899,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 125.0912273624585,
      "learning_rate": 5.185185185185186e-07,
      "loss": 3.0825,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 50.76139079212848,
      "learning_rate": 5.925925925925927e-07,
      "loss": 1.912,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 91.51602720202553,
      "learning_rate": 6.666666666666667e-07,
      "loss": 2.6215,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 80.69594651144065,
      "learning_rate": 7.407407407407407e-07,
      "loss": 2.5731,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 83.52354528750357,
      "learning_rate": 8.14814814814815e-07,
      "loss": 2.3507,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 72.29290169409401,
      "learning_rate": 8.88888888888889e-07,
      "loss": 2.2766,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 74.40941933359545,
      "learning_rate": 9.62962962962963e-07,
      "loss": 1.8896,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 45.214249249376834,
      "learning_rate": 1.0370370370370371e-06,
      "loss": 1.6645,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 95.7057126421257,
      "learning_rate": 1.111111111111111e-06,
      "loss": 1.9842,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 64.66513434700575,
      "learning_rate": 1.1851851851851854e-06,
      "loss": 1.4358,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 56.35945732817439,
      "learning_rate": 1.2592592592592593e-06,
      "loss": 1.1863,
      "step": 17
    },
    {
      "epoch": 0.0,
      "grad_norm": 94.17964692802722,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 0.9834,
      "step": 18
    },
    {
      "epoch": 0.0,
      "grad_norm": 33.629869008008825,
      "learning_rate": 1.4074074074074075e-06,
      "loss": 1.1733,
      "step": 19
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.503644323409592,
      "learning_rate": 1.4814814814814815e-06,
      "loss": 1.1691,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.661682481711072,
      "learning_rate": 1.5555555555555558e-06,
      "loss": 0.9795,
      "step": 21
    },
    {
      "epoch": 0.0,
      "grad_norm": 13.948988596389214,
      "learning_rate": 1.62962962962963e-06,
      "loss": 0.8675,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.792204608475956,
      "learning_rate": 1.7037037037037038e-06,
      "loss": 0.8201,
      "step": 23
    },
    {
      "epoch": 0.01,
      "grad_norm": 19.66230929178398,
      "learning_rate": 1.777777777777778e-06,
      "loss": 1.0608,
      "step": 24
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.854246313619726,
      "learning_rate": 1.8518518518518519e-06,
      "loss": 0.8628,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.291577040245874,
      "learning_rate": 1.925925925925926e-06,
      "loss": 0.5065,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 14.382932678970157,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.8473,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.873583440754377,
      "learning_rate": 2.0740740740740742e-06,
      "loss": 0.7369,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.39623140400858,
      "learning_rate": 2.148148148148148e-06,
      "loss": 0.7778,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.918941565810712,
      "learning_rate": 2.222222222222222e-06,
      "loss": 0.7769,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.820696004568862,
      "learning_rate": 2.2962962962962964e-06,
      "loss": 0.9665,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.277974454844703,
      "learning_rate": 2.3703703703703707e-06,
      "loss": 0.7395,
      "step": 32
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.2097250686363,
      "learning_rate": 2.4444444444444447e-06,
      "loss": 0.7394,
      "step": 33
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.240103216800843,
      "learning_rate": 2.5185185185185186e-06,
      "loss": 0.6518,
      "step": 34
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.360505413297318,
      "learning_rate": 2.5925925925925925e-06,
      "loss": 0.9882,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": 26.674009355475096,
      "learning_rate": 2.666666666666667e-06,
      "loss": 0.72,
      "step": 36
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.771543920871054,
      "learning_rate": 2.740740740740741e-06,
      "loss": 0.8123,
      "step": 37
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.177194271214146,
      "learning_rate": 2.814814814814815e-06,
      "loss": 0.5923,
      "step": 38
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.047565520100862,
      "learning_rate": 2.888888888888889e-06,
      "loss": 0.7236,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.568587746839686,
      "learning_rate": 2.962962962962963e-06,
      "loss": 0.8523,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.646054022487158,
      "learning_rate": 3.0370370370370372e-06,
      "loss": 0.7349,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.1539095339457175,
      "learning_rate": 3.1111111111111116e-06,
      "loss": 0.7388,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 13.394634470930097,
      "learning_rate": 3.1851851851851855e-06,
      "loss": 0.6662,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.027620073844371,
      "learning_rate": 3.25925925925926e-06,
      "loss": 0.5356,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.12576235482084,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.7162,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.903614980310817,
      "learning_rate": 3.4074074074074077e-06,
      "loss": 0.7054,
      "step": 46
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.701939798807434,
      "learning_rate": 3.481481481481482e-06,
      "loss": 0.6356,
      "step": 47
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.567035448298863,
      "learning_rate": 3.555555555555556e-06,
      "loss": 0.978,
      "step": 48
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.138521513868161,
      "learning_rate": 3.6296296296296302e-06,
      "loss": 0.7963,
      "step": 49
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.20986215156478,
      "learning_rate": 3.7037037037037037e-06,
      "loss": 0.8852,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.357416116611989,
      "learning_rate": 3.777777777777778e-06,
      "loss": 0.7235,
      "step": 51
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.312808846918215,
      "learning_rate": 3.851851851851852e-06,
      "loss": 0.7426,
      "step": 52
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.220542489900675,
      "learning_rate": 3.925925925925926e-06,
      "loss": 0.528,
      "step": 53
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.060481639648873,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.7779,
      "step": 54
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.780303081868721,
      "learning_rate": 4.074074074074074e-06,
      "loss": 0.6795,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.178756117048181,
      "learning_rate": 4.1481481481481485e-06,
      "loss": 0.8023,
      "step": 56
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.824720844204785,
      "learning_rate": 4.222222222222223e-06,
      "loss": 0.6837,
      "step": 57
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.943151629045806,
      "learning_rate": 4.296296296296296e-06,
      "loss": 0.947,
      "step": 58
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.757358997487067,
      "learning_rate": 4.370370370370371e-06,
      "loss": 0.7828,
      "step": 59
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.495451970505689,
      "learning_rate": 4.444444444444444e-06,
      "loss": 0.5225,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.531498277076819,
      "learning_rate": 4.5185185185185185e-06,
      "loss": 0.8122,
      "step": 61
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.2674214477030885,
      "learning_rate": 4.592592592592593e-06,
      "loss": 0.6018,
      "step": 62
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.030528396786914,
      "learning_rate": 4.666666666666667e-06,
      "loss": 0.8229,
      "step": 63
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.997862628517321,
      "learning_rate": 4.7407407407407415e-06,
      "loss": 0.7278,
      "step": 64
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.344039693813444,
      "learning_rate": 4.814814814814815e-06,
      "loss": 0.8506,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.06209762928621,
      "learning_rate": 4.888888888888889e-06,
      "loss": 0.7985,
      "step": 66
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.740509611973074,
      "learning_rate": 4.962962962962964e-06,
      "loss": 0.7947,
      "step": 67
    },
    {
      "epoch": 0.02,
      "grad_norm": 9.990763963730087,
      "learning_rate": 5.037037037037037e-06,
      "loss": 0.9332,
      "step": 68
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.554772803075148,
      "learning_rate": 5.1111111111111115e-06,
      "loss": 0.6998,
      "step": 69
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.488939860758001,
      "learning_rate": 5.185185185185185e-06,
      "loss": 0.6567,
      "step": 70
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.716097732646024,
      "learning_rate": 5.259259259259259e-06,
      "loss": 0.4809,
      "step": 71
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.79859159818258,
      "learning_rate": 5.333333333333334e-06,
      "loss": 0.7473,
      "step": 72
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.068219448008007,
      "learning_rate": 5.407407407407408e-06,
      "loss": 0.5991,
      "step": 73
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.719442094974581,
      "learning_rate": 5.481481481481482e-06,
      "loss": 0.6694,
      "step": 74
    },
    {
      "epoch": 0.02,
      "grad_norm": 10.949347408844801,
      "learning_rate": 5.555555555555557e-06,
      "loss": 0.8968,
      "step": 75
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.429435771556077,
      "learning_rate": 5.62962962962963e-06,
      "loss": 0.6825,
      "step": 76
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.0129733553234,
      "learning_rate": 5.7037037037037045e-06,
      "loss": 0.6499,
      "step": 77
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.023682431917695,
      "learning_rate": 5.777777777777778e-06,
      "loss": 0.717,
      "step": 78
    },
    {
      "epoch": 0.02,
      "grad_norm": 10.496175591993612,
      "learning_rate": 5.8518518518518515e-06,
      "loss": 0.5711,
      "step": 79
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.208102028743526,
      "learning_rate": 5.925925925925926e-06,
      "loss": 0.6339,
      "step": 80
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.214439084134843,
      "learning_rate": 6e-06,
      "loss": 0.7278,
      "step": 81
    },
    {
      "epoch": 0.02,
      "grad_norm": 14.292926920816782,
      "learning_rate": 6.0740740740740745e-06,
      "loss": 0.7677,
      "step": 82
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.647026440165446,
      "learning_rate": 6.148148148148149e-06,
      "loss": 0.6273,
      "step": 83
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.984047933940835,
      "learning_rate": 6.222222222222223e-06,
      "loss": 0.3079,
      "step": 84
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.2953676642542815,
      "learning_rate": 6.296296296296297e-06,
      "loss": 0.6011,
      "step": 85
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.694377688946535,
      "learning_rate": 6.370370370370371e-06,
      "loss": 0.7148,
      "step": 86
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.153506438965694,
      "learning_rate": 6.444444444444445e-06,
      "loss": 0.6726,
      "step": 87
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.10490042109349,
      "learning_rate": 6.51851851851852e-06,
      "loss": 0.7772,
      "step": 88
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.425266374245493,
      "learning_rate": 6.592592592592592e-06,
      "loss": 0.7915,
      "step": 89
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.899173097199294,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.0194,
      "step": 90
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.36879781132432,
      "learning_rate": 6.740740740740741e-06,
      "loss": 0.6598,
      "step": 91
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.173501447777475,
      "learning_rate": 6.814814814814815e-06,
      "loss": 0.4647,
      "step": 92
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.911626890230563,
      "learning_rate": 6.88888888888889e-06,
      "loss": 0.7012,
      "step": 93
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.849449165904708,
      "learning_rate": 6.962962962962964e-06,
      "loss": 0.6216,
      "step": 94
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.205678892418975,
      "learning_rate": 7.0370370370370375e-06,
      "loss": 0.7651,
      "step": 95
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.431342590114419,
      "learning_rate": 7.111111111111112e-06,
      "loss": 0.7387,
      "step": 96
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.450416548327278,
      "learning_rate": 7.185185185185186e-06,
      "loss": 0.5858,
      "step": 97
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.009144192649046,
      "learning_rate": 7.2592592592592605e-06,
      "loss": 0.8747,
      "step": 98
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.439503471731995,
      "learning_rate": 7.333333333333333e-06,
      "loss": 0.6205,
      "step": 99
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.716921666168824,
      "learning_rate": 7.4074074074074075e-06,
      "loss": 0.942,
      "step": 100
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.298818909350489,
      "learning_rate": 7.481481481481482e-06,
      "loss": 0.7521,
      "step": 101
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.069114848083943,
      "learning_rate": 7.555555555555556e-06,
      "loss": 0.9937,
      "step": 102
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.583772679023218,
      "learning_rate": 7.62962962962963e-06,
      "loss": 0.5061,
      "step": 103
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.708633690794619,
      "learning_rate": 7.703703703703704e-06,
      "loss": 0.7204,
      "step": 104
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.279815291660512,
      "learning_rate": 7.77777777777778e-06,
      "loss": 0.6673,
      "step": 105
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.204295922335826,
      "learning_rate": 7.851851851851853e-06,
      "loss": 0.7735,
      "step": 106
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.062036754740469,
      "learning_rate": 7.925925925925926e-06,
      "loss": 0.8618,
      "step": 107
    },
    {
      "epoch": 0.02,
      "grad_norm": 10.245522513729856,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.5065,
      "step": 108
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.652947464496458,
      "learning_rate": 8.074074074074075e-06,
      "loss": 0.736,
      "step": 109
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.539953956565617,
      "learning_rate": 8.148148148148148e-06,
      "loss": 0.9299,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.756537491461613,
      "learning_rate": 8.222222222222222e-06,
      "loss": 0.656,
      "step": 111
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.618733562287671,
      "learning_rate": 8.296296296296297e-06,
      "loss": 0.6148,
      "step": 112
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.002098668521807,
      "learning_rate": 8.37037037037037e-06,
      "loss": 0.7523,
      "step": 113
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.948607965382206,
      "learning_rate": 8.444444444444446e-06,
      "loss": 0.6242,
      "step": 114
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.828190764819864,
      "learning_rate": 8.518518518518519e-06,
      "loss": 0.8237,
      "step": 115
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.100925902824263,
      "learning_rate": 8.592592592592593e-06,
      "loss": 0.7372,
      "step": 116
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.782381595125656,
      "learning_rate": 8.666666666666668e-06,
      "loss": 0.621,
      "step": 117
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.460047443123453,
      "learning_rate": 8.740740740740741e-06,
      "loss": 0.6342,
      "step": 118
    },
    {
      "epoch": 0.03,
      "grad_norm": 8.43058457332102,
      "learning_rate": 8.814814814814817e-06,
      "loss": 0.8111,
      "step": 119
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.099569809030972,
      "learning_rate": 8.888888888888888e-06,
      "loss": 0.5596,
      "step": 120
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.350939445490965,
      "learning_rate": 8.962962962962963e-06,
      "loss": 0.8036,
      "step": 121
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.440735903538742,
      "learning_rate": 9.037037037037037e-06,
      "loss": 0.7237,
      "step": 122
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.843153407439106,
      "learning_rate": 9.111111111111112e-06,
      "loss": 0.5134,
      "step": 123
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.8025102246783704,
      "learning_rate": 9.185185185185186e-06,
      "loss": 0.6593,
      "step": 124
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.948672251511532,
      "learning_rate": 9.25925925925926e-06,
      "loss": 0.7476,
      "step": 125
    },
    {
      "epoch": 0.03,
      "grad_norm": 9.425365370325796,
      "learning_rate": 9.333333333333334e-06,
      "loss": 0.5375,
      "step": 126
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.679140230837291,
      "learning_rate": 9.407407407407408e-06,
      "loss": 0.4453,
      "step": 127
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.68015623277015,
      "learning_rate": 9.481481481481483e-06,
      "loss": 0.623,
      "step": 128
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.712511224878734,
      "learning_rate": 9.555555555555556e-06,
      "loss": 0.6801,
      "step": 129
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.227114205631159,
      "learning_rate": 9.62962962962963e-06,
      "loss": 0.792,
      "step": 130
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.45136408959602,
      "learning_rate": 9.703703703703703e-06,
      "loss": 0.593,
      "step": 131
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.105019604741996,
      "learning_rate": 9.777777777777779e-06,
      "loss": 0.942,
      "step": 132
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.0937242133348075,
      "learning_rate": 9.851851851851852e-06,
      "loss": 0.5188,
      "step": 133
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.7146625334962495,
      "learning_rate": 9.925925925925927e-06,
      "loss": 0.8371,
      "step": 134
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.8201211427173085,
      "learning_rate": 1e-05,
      "loss": 0.706,
      "step": 135
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.232064558525497,
      "learning_rate": 9.999998700832095e-06,
      "loss": 0.4381,
      "step": 136
    },
    {
      "epoch": 0.03,
      "grad_norm": 9.114137528158267,
      "learning_rate": 9.999994803329052e-06,
      "loss": 0.7091,
      "step": 137
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.153974148208297,
      "learning_rate": 9.999988307492899e-06,
      "loss": 0.7322,
      "step": 138
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.147623506404601,
      "learning_rate": 9.999979213327006e-06,
      "loss": 0.7138,
      "step": 139
    },
    {
      "epoch": 0.03,
      "grad_norm": 8.11969544355859,
      "learning_rate": 9.999967520836106e-06,
      "loss": 0.8588,
      "step": 140
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.75275434867508,
      "learning_rate": 9.999953230026273e-06,
      "loss": 0.7185,
      "step": 141
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.008668955623455,
      "learning_rate": 9.999936340904933e-06,
      "loss": 0.607,
      "step": 142
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.535369831437349,
      "learning_rate": 9.999916853480863e-06,
      "loss": 0.6895,
      "step": 143
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.632425670158508,
      "learning_rate": 9.999894767764188e-06,
      "loss": 0.6292,
      "step": 144
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.7444478071824285,
      "learning_rate": 9.999870083766387e-06,
      "loss": 0.8135,
      "step": 145
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.584610928025766,
      "learning_rate": 9.999842801500287e-06,
      "loss": 0.5417,
      "step": 146
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.236395200830119,
      "learning_rate": 9.999812920980065e-06,
      "loss": 0.917,
      "step": 147
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.278526214164186,
      "learning_rate": 9.999780442221252e-06,
      "loss": 0.6269,
      "step": 148
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.9226530068150387,
      "learning_rate": 9.999745365240722e-06,
      "loss": 0.6298,
      "step": 149
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.077125281519947,
      "learning_rate": 9.999707690056708e-06,
      "loss": 0.5002,
      "step": 150
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.93195616492051,
      "learning_rate": 9.999667416688783e-06,
      "loss": 0.7131,
      "step": 151
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.304432709048609,
      "learning_rate": 9.99962454515788e-06,
      "loss": 0.3371,
      "step": 152
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.13242272095312,
      "learning_rate": 9.999579075486276e-06,
      "loss": 0.5972,
      "step": 153
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.637490818590583,
      "learning_rate": 9.999531007697603e-06,
      "loss": 0.9773,
      "step": 154
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.103498392690298,
      "learning_rate": 9.999480341816836e-06,
      "loss": 0.436,
      "step": 155
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.4452029669173125,
      "learning_rate": 9.999427077870305e-06,
      "loss": 1.1581,
      "step": 156
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.974758540554287,
      "learning_rate": 9.999371215885693e-06,
      "loss": 0.6734,
      "step": 157
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.078785382791604,
      "learning_rate": 9.999312755892025e-06,
      "loss": 0.7065,
      "step": 158
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.214971236160719,
      "learning_rate": 9.999251697919687e-06,
      "loss": 0.7071,
      "step": 159
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.48127390670585,
      "learning_rate": 9.999188042000401e-06,
      "loss": 0.5687,
      "step": 160
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.277458638892934,
      "learning_rate": 9.999121788167254e-06,
      "loss": 0.5634,
      "step": 161
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.8798752943393975,
      "learning_rate": 9.999052936454672e-06,
      "loss": 0.7239,
      "step": 162
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.839947810762268,
      "learning_rate": 9.998981486898435e-06,
      "loss": 0.8018,
      "step": 163
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.860586300987038,
      "learning_rate": 9.998907439535675e-06,
      "loss": 0.6201,
      "step": 164
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.7667660076477953,
      "learning_rate": 9.99883079440487e-06,
      "loss": 0.4935,
      "step": 165
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.652804097934244,
      "learning_rate": 9.99875155154585e-06,
      "loss": 0.7069,
      "step": 166
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.055962561505561,
      "learning_rate": 9.998669710999796e-06,
      "loss": 0.6295,
      "step": 167
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.327199015520804,
      "learning_rate": 9.998585272809238e-06,
      "loss": 0.6763,
      "step": 168
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.018067546533515,
      "learning_rate": 9.998498237018056e-06,
      "loss": 0.734,
      "step": 169
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.90451343022229,
      "learning_rate": 9.998408603671478e-06,
      "loss": 0.5984,
      "step": 170
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.240938638799638,
      "learning_rate": 9.998316372816084e-06,
      "loss": 0.7894,
      "step": 171
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.611168580314591,
      "learning_rate": 9.998221544499805e-06,
      "loss": 0.689,
      "step": 172
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.943581858311349,
      "learning_rate": 9.99812411877192e-06,
      "loss": 0.5632,
      "step": 173
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.187932695614259,
      "learning_rate": 9.998024095683055e-06,
      "loss": 0.6445,
      "step": 174
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.2565407684738465,
      "learning_rate": 9.99792147528519e-06,
      "loss": 0.5174,
      "step": 175
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.656360356505174,
      "learning_rate": 9.997816257631654e-06,
      "loss": 0.5971,
      "step": 176
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.7230270514616235,
      "learning_rate": 9.997708442777126e-06,
      "loss": 0.472,
      "step": 177
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.4835864073143235,
      "learning_rate": 9.997598030777633e-06,
      "loss": 0.5833,
      "step": 178
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.318031418622502,
      "learning_rate": 9.997485021690553e-06,
      "loss": 0.7907,
      "step": 179
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.563661807157976,
      "learning_rate": 9.997369415574612e-06,
      "loss": 0.8914,
      "step": 180
    },
    {
      "epoch": 0.04,
      "grad_norm": 10.643887058768255,
      "learning_rate": 9.997251212489888e-06,
      "loss": 0.4274,
      "step": 181
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.919112982613496,
      "learning_rate": 9.997130412497807e-06,
      "loss": 0.6482,
      "step": 182
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.949120960655359,
      "learning_rate": 9.997007015661143e-06,
      "loss": 0.8359,
      "step": 183
    },
    {
      "epoch": 0.04,
      "grad_norm": 8.951336952796854,
      "learning_rate": 9.996881022044024e-06,
      "loss": 0.7251,
      "step": 184
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.093755255029378,
      "learning_rate": 9.996752431711923e-06,
      "loss": 0.648,
      "step": 185
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.710514737690265,
      "learning_rate": 9.996621244731663e-06,
      "loss": 0.5551,
      "step": 186
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.897539917352151,
      "learning_rate": 9.996487461171421e-06,
      "loss": 0.9166,
      "step": 187
    },
    {
      "epoch": 0.04,
      "grad_norm": 9.723848520730492,
      "learning_rate": 9.996351081100719e-06,
      "loss": 0.8747,
      "step": 188
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.228364986270458,
      "learning_rate": 9.996212104590426e-06,
      "loss": 0.6918,
      "step": 189
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.7728026288816574,
      "learning_rate": 9.996070531712768e-06,
      "loss": 0.6325,
      "step": 190
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.178758134762893,
      "learning_rate": 9.995926362541312e-06,
      "loss": 0.7145,
      "step": 191
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.771551659708246,
      "learning_rate": 9.99577959715098e-06,
      "loss": 0.7178,
      "step": 192
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.301321359264612,
      "learning_rate": 9.995630235618042e-06,
      "loss": 0.7022,
      "step": 193
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.018797708670648,
      "learning_rate": 9.995478278020112e-06,
      "loss": 0.5331,
      "step": 194
    },
    {
      "epoch": 0.04,
      "grad_norm": 10.16799553005013,
      "learning_rate": 9.995323724436163e-06,
      "loss": 0.5708,
      "step": 195
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.0531617938023405,
      "learning_rate": 9.995166574946509e-06,
      "loss": 0.9108,
      "step": 196
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.693199813339661,
      "learning_rate": 9.995006829632813e-06,
      "loss": 0.8284,
      "step": 197
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.012096959771094,
      "learning_rate": 9.994844488578094e-06,
      "loss": 0.5657,
      "step": 198
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.749892935300668,
      "learning_rate": 9.994679551866712e-06,
      "loss": 0.6693,
      "step": 199
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.300318313780998,
      "learning_rate": 9.994512019584381e-06,
      "loss": 0.3095,
      "step": 200
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.68213266286482,
      "learning_rate": 9.994341891818162e-06,
      "loss": 0.9223,
      "step": 201
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.399375386168044,
      "learning_rate": 9.994169168656462e-06,
      "loss": 0.7363,
      "step": 202
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.3944022535919425,
      "learning_rate": 9.993993850189042e-06,
      "loss": 0.8315,
      "step": 203
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.962080020162556,
      "learning_rate": 9.99381593650701e-06,
      "loss": 0.5761,
      "step": 204
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.265450780912197,
      "learning_rate": 9.99363542770282e-06,
      "loss": 0.6458,
      "step": 205
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.898602068157695,
      "learning_rate": 9.993452323870276e-06,
      "loss": 0.5076,
      "step": 206
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.788563575122681,
      "learning_rate": 9.993266625104533e-06,
      "loss": 0.8575,
      "step": 207
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.308899223350352,
      "learning_rate": 9.993078331502093e-06,
      "loss": 0.8069,
      "step": 208
    },
    {
      "epoch": 0.05,
      "grad_norm": 8.802227391933432,
      "learning_rate": 9.992887443160804e-06,
      "loss": 0.9669,
      "step": 209
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.84196758581499,
      "learning_rate": 9.992693960179865e-06,
      "loss": 0.9695,
      "step": 210
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.524689974500397,
      "learning_rate": 9.992497882659824e-06,
      "loss": 0.5666,
      "step": 211
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.466814120198451,
      "learning_rate": 9.992299210702574e-06,
      "loss": 0.6634,
      "step": 212
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.074239599333926,
      "learning_rate": 9.99209794441136e-06,
      "loss": 0.5754,
      "step": 213
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.353544899215539,
      "learning_rate": 9.991894083890772e-06,
      "loss": 0.6821,
      "step": 214
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.491155366453272,
      "learning_rate": 9.991687629246752e-06,
      "loss": 0.8318,
      "step": 215
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.613975007712783,
      "learning_rate": 9.991478580586584e-06,
      "loss": 0.7965,
      "step": 216
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.266684259983268,
      "learning_rate": 9.991266938018906e-06,
      "loss": 0.7614,
      "step": 217
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.200953990960742,
      "learning_rate": 9.991052701653705e-06,
      "loss": 1.0201,
      "step": 218
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.299919805830988,
      "learning_rate": 9.990835871602305e-06,
      "loss": 0.7709,
      "step": 219
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.73926611795743,
      "learning_rate": 9.990616447977392e-06,
      "loss": 0.716,
      "step": 220
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.762072431644175,
      "learning_rate": 9.990394430892989e-06,
      "loss": 0.5184,
      "step": 221
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.0150011311965415,
      "learning_rate": 9.990169820464475e-06,
      "loss": 0.6886,
      "step": 222
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.995737472902713,
      "learning_rate": 9.98994261680857e-06,
      "loss": 0.7131,
      "step": 223
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.2960368138546094,
      "learning_rate": 9.989712820043343e-06,
      "loss": 0.5395,
      "step": 224
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.1902835820067565,
      "learning_rate": 9.989480430288216e-06,
      "loss": 0.4604,
      "step": 225
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.1066370131541,
      "learning_rate": 9.98924544766395e-06,
      "loss": 0.8248,
      "step": 226
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.681732933941748,
      "learning_rate": 9.98900787229266e-06,
      "loss": 0.4248,
      "step": 227
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.636884744534981,
      "learning_rate": 9.988767704297807e-06,
      "loss": 0.9215,
      "step": 228
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.640754126642539,
      "learning_rate": 9.988524943804196e-06,
      "loss": 0.8465,
      "step": 229
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.883263445575435,
      "learning_rate": 9.988279590937984e-06,
      "loss": 0.681,
      "step": 230
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.531817831247017,
      "learning_rate": 9.98803164582667e-06,
      "loss": 0.4738,
      "step": 231
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.720430583389695,
      "learning_rate": 9.987781108599106e-06,
      "loss": 0.5189,
      "step": 232
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.449836878244172,
      "learning_rate": 9.987527979385487e-06,
      "loss": 0.9933,
      "step": 233
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.5497776473504565,
      "learning_rate": 9.987272258317356e-06,
      "loss": 0.6688,
      "step": 234
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.931764182472964,
      "learning_rate": 9.987013945527602e-06,
      "loss": 0.7196,
      "step": 235
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.113796701009606,
      "learning_rate": 9.98675304115046e-06,
      "loss": 0.7673,
      "step": 236
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.184880454867586,
      "learning_rate": 9.986489545321519e-06,
      "loss": 0.6032,
      "step": 237
    },
    {
      "epoch": 0.05,
      "grad_norm": 6.81185104662514,
      "learning_rate": 9.986223458177703e-06,
      "loss": 0.9538,
      "step": 238
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.281455678727444,
      "learning_rate": 9.985954779857292e-06,
      "loss": 0.9955,
      "step": 239
    },
    {
      "epoch": 0.05,
      "grad_norm": 12.758863556269127,
      "learning_rate": 9.985683510499908e-06,
      "loss": 0.8308,
      "step": 240
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.358441515880947,
      "learning_rate": 9.985409650246523e-06,
      "loss": 0.8621,
      "step": 241
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.4808541025414765,
      "learning_rate": 9.985133199239451e-06,
      "loss": 0.8474,
      "step": 242
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.010540478525418,
      "learning_rate": 9.984854157622356e-06,
      "loss": 0.5881,
      "step": 243
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.219476934191562,
      "learning_rate": 9.984572525540245e-06,
      "loss": 0.452,
      "step": 244
    },
    {
      "epoch": 0.05,
      "grad_norm": 5.709665372656483,
      "learning_rate": 9.984288303139474e-06,
      "loss": 0.8634,
      "step": 245
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.634454760202997,
      "learning_rate": 9.984001490567745e-06,
      "loss": 0.7955,
      "step": 246
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.271584793108578,
      "learning_rate": 9.983712087974102e-06,
      "loss": 0.6847,
      "step": 247
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.852782163627753,
      "learning_rate": 9.983420095508941e-06,
      "loss": 0.6865,
      "step": 248
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.293086746729855,
      "learning_rate": 9.983125513324e-06,
      "loss": 0.6043,
      "step": 249
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.197911797190529,
      "learning_rate": 9.982828341572364e-06,
      "loss": 0.4914,
      "step": 250
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.436474399291035,
      "learning_rate": 9.982528580408461e-06,
      "loss": 0.6855,
      "step": 251
    },
    {
      "epoch": 0.06,
      "grad_norm": 7.27431938438017,
      "learning_rate": 9.982226229988072e-06,
      "loss": 0.5256,
      "step": 252
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.31621160015309,
      "learning_rate": 9.981921290468314e-06,
      "loss": 0.9606,
      "step": 253
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.8801313460941715,
      "learning_rate": 9.981613762007656e-06,
      "loss": 0.6936,
      "step": 254
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.8872019818606476,
      "learning_rate": 9.98130364476591e-06,
      "loss": 0.5983,
      "step": 255
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.073878327140448,
      "learning_rate": 9.980990938904234e-06,
      "loss": 0.6832,
      "step": 256
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.95850079620126,
      "learning_rate": 9.980675644585131e-06,
      "loss": 0.8213,
      "step": 257
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.502920667939306,
      "learning_rate": 9.980357761972448e-06,
      "loss": 0.6582,
      "step": 258
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.979099383907529,
      "learning_rate": 9.98003729123138e-06,
      "loss": 0.6213,
      "step": 259
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.077380042368959,
      "learning_rate": 9.979714232528464e-06,
      "loss": 0.6294,
      "step": 260
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.307161370916658,
      "learning_rate": 9.979388586031585e-06,
      "loss": 0.7142,
      "step": 261
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.0433683961176685,
      "learning_rate": 9.979060351909966e-06,
      "loss": 0.5621,
      "step": 262
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.148212967294911,
      "learning_rate": 9.978729530334183e-06,
      "loss": 0.5553,
      "step": 263
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.031060487726193,
      "learning_rate": 9.978396121476154e-06,
      "loss": 0.668,
      "step": 264
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.34612627063887,
      "learning_rate": 9.97806012550914e-06,
      "loss": 0.8834,
      "step": 265
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.259157794444733,
      "learning_rate": 9.977721542607744e-06,
      "loss": 0.7914,
      "step": 266
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.496327256620619,
      "learning_rate": 9.97738037294792e-06,
      "loss": 0.6926,
      "step": 267
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.449992347886058,
      "learning_rate": 9.97703661670696e-06,
      "loss": 0.6454,
      "step": 268
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.274106783913716,
      "learning_rate": 9.976690274063507e-06,
      "loss": 0.6846,
      "step": 269
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.579030350686983,
      "learning_rate": 9.976341345197539e-06,
      "loss": 0.7731,
      "step": 270
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.456475365878334,
      "learning_rate": 9.975989830290386e-06,
      "loss": 0.6844,
      "step": 271
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.985231115367361,
      "learning_rate": 9.975635729524718e-06,
      "loss": 0.6058,
      "step": 272
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.983527449008318,
      "learning_rate": 9.97527904308455e-06,
      "loss": 0.7194,
      "step": 273
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.274182496266038,
      "learning_rate": 9.974919771155236e-06,
      "loss": 0.6771,
      "step": 274
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.310811985195342,
      "learning_rate": 9.974557913923483e-06,
      "loss": 0.9154,
      "step": 275
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.451188747054484,
      "learning_rate": 9.974193471577338e-06,
      "loss": 0.755,
      "step": 276
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.542679412877534,
      "learning_rate": 9.973826444306183e-06,
      "loss": 0.7889,
      "step": 277
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.201577048466196,
      "learning_rate": 9.973456832300754e-06,
      "loss": 0.8263,
      "step": 278
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.923859000793686,
      "learning_rate": 9.973084635753125e-06,
      "loss": 0.7806,
      "step": 279
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.093871201558128,
      "learning_rate": 9.972709854856718e-06,
      "loss": 0.5688,
      "step": 280
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.149022379835513,
      "learning_rate": 9.972332489806287e-06,
      "loss": 0.5203,
      "step": 281
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.305415433572478,
      "learning_rate": 9.971952540797942e-06,
      "loss": 0.6553,
      "step": 282
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.8320747364862173,
      "learning_rate": 9.97157000802913e-06,
      "loss": 0.5785,
      "step": 283
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.796100272765812,
      "learning_rate": 9.97118489169864e-06,
      "loss": 0.8461,
      "step": 284
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.4960820531485925,
      "learning_rate": 9.9707971920066e-06,
      "loss": 0.7581,
      "step": 285
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.401533282859463,
      "learning_rate": 9.970406909154491e-06,
      "loss": 0.9008,
      "step": 286
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.286495908178551,
      "learning_rate": 9.970014043345127e-06,
      "loss": 0.7109,
      "step": 287
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.454757803082604,
      "learning_rate": 9.96961859478267e-06,
      "loss": 0.6905,
      "step": 288
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.998676999884705,
      "learning_rate": 9.969220563672614e-06,
      "loss": 0.4317,
      "step": 289
    },
    {
      "epoch": 0.06,
      "grad_norm": 7.673939514135497,
      "learning_rate": 9.968819950221813e-06,
      "loss": 0.945,
      "step": 290
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.422211265134907,
      "learning_rate": 9.968416754638447e-06,
      "loss": 0.5796,
      "step": 291
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.0011564772285135,
      "learning_rate": 9.968010977132044e-06,
      "loss": 0.5837,
      "step": 292
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.502586129034759,
      "learning_rate": 9.967602617913474e-06,
      "loss": 1.0083,
      "step": 293
    },
    {
      "epoch": 0.07,
      "grad_norm": 7.985081115796632,
      "learning_rate": 9.967191677194949e-06,
      "loss": 0.7032,
      "step": 294
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.1531096621593475,
      "learning_rate": 9.966778155190018e-06,
      "loss": 0.3505,
      "step": 295
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.691619046536276,
      "learning_rate": 9.966362052113578e-06,
      "loss": 0.7769,
      "step": 296
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.221994377590409,
      "learning_rate": 9.965943368181863e-06,
      "loss": 0.7106,
      "step": 297
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.700102799696076,
      "learning_rate": 9.965522103612448e-06,
      "loss": 0.4679,
      "step": 298
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.87091846449399,
      "learning_rate": 9.965098258624253e-06,
      "loss": 0.607,
      "step": 299
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.020052272193392,
      "learning_rate": 9.964671833437533e-06,
      "loss": 0.611,
      "step": 300
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.946079553674436,
      "learning_rate": 9.964242828273892e-06,
      "loss": 0.7049,
      "step": 301
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.960221190491393,
      "learning_rate": 9.963811243356265e-06,
      "loss": 0.5826,
      "step": 302
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.012409779314551,
      "learning_rate": 9.963377078908936e-06,
      "loss": 0.9049,
      "step": 303
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.423440838391119,
      "learning_rate": 9.962940335157522e-06,
      "loss": 0.5111,
      "step": 304
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.245619296230764,
      "learning_rate": 9.962501012328989e-06,
      "loss": 0.7413,
      "step": 305
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.6638310075750145,
      "learning_rate": 9.962059110651634e-06,
      "loss": 0.7998,
      "step": 306
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.037794701539988,
      "learning_rate": 9.961614630355104e-06,
      "loss": 0.7766,
      "step": 307
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.582351769743112,
      "learning_rate": 9.961167571670378e-06,
      "loss": 0.6872,
      "step": 308
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.810594705859062,
      "learning_rate": 9.960717934829777e-06,
      "loss": 0.5782,
      "step": 309
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.514602270921285,
      "learning_rate": 9.960265720066963e-06,
      "loss": 0.5145,
      "step": 310
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.4207319302750663,
      "learning_rate": 9.959810927616938e-06,
      "loss": 0.5415,
      "step": 311
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.013875378133591,
      "learning_rate": 9.959353557716043e-06,
      "loss": 0.5468,
      "step": 312
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.81112075936058,
      "learning_rate": 9.958893610601957e-06,
      "loss": 0.6319,
      "step": 313
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.597895071981128,
      "learning_rate": 9.958431086513698e-06,
      "loss": 0.4806,
      "step": 314
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.171425362529237,
      "learning_rate": 9.957965985691627e-06,
      "loss": 0.6419,
      "step": 315
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.155771168106802,
      "learning_rate": 9.957498308377442e-06,
      "loss": 0.6241,
      "step": 316
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.584607344739728,
      "learning_rate": 9.957028054814177e-06,
      "loss": 0.6693,
      "step": 317
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.744878411542035,
      "learning_rate": 9.95655522524621e-06,
      "loss": 0.54,
      "step": 318
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.9187716210344705,
      "learning_rate": 9.956079819919254e-06,
      "loss": 0.7012,
      "step": 319
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.48184569239977,
      "learning_rate": 9.955601839080361e-06,
      "loss": 0.5675,
      "step": 320
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.4082839700514755,
      "learning_rate": 9.955121282977922e-06,
      "loss": 0.6514,
      "step": 321
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.081979289492116,
      "learning_rate": 9.954638151861668e-06,
      "loss": 0.7495,
      "step": 322
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.661310239479012,
      "learning_rate": 9.954152445982663e-06,
      "loss": 0.8429,
      "step": 323
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.5890146702802355,
      "learning_rate": 9.953664165593316e-06,
      "loss": 0.6463,
      "step": 324
    },
    {
      "epoch": 0.07,
      "grad_norm": 8.9877825557087,
      "learning_rate": 9.953173310947366e-06,
      "loss": 0.7973,
      "step": 325
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.304774134036967,
      "learning_rate": 9.952679882299899e-06,
      "loss": 0.9963,
      "step": 326
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.702040165386668,
      "learning_rate": 9.95218387990733e-06,
      "loss": 0.8841,
      "step": 327
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.726818298804699,
      "learning_rate": 9.951685304027417e-06,
      "loss": 0.6518,
      "step": 328
    },
    {
      "epoch": 0.07,
      "grad_norm": 6.196262974537589,
      "learning_rate": 9.951184154919253e-06,
      "loss": 0.7925,
      "step": 329
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.8966541143948836,
      "learning_rate": 9.95068043284327e-06,
      "loss": 0.7085,
      "step": 330
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.9366495818127865,
      "learning_rate": 9.950174138061233e-06,
      "loss": 0.5303,
      "step": 331
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.543445522429846,
      "learning_rate": 9.949665270836249e-06,
      "loss": 0.6628,
      "step": 332
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.6939014351879687,
      "learning_rate": 9.949153831432758e-06,
      "loss": 0.3801,
      "step": 333
    },
    {
      "epoch": 0.07,
      "grad_norm": 7.595305841691412,
      "learning_rate": 9.948639820116539e-06,
      "loss": 0.9984,
      "step": 334
    },
    {
      "epoch": 0.07,
      "grad_norm": 10.159922020094546,
      "learning_rate": 9.948123237154707e-06,
      "loss": 0.7729,
      "step": 335
    },
    {
      "epoch": 0.07,
      "grad_norm": 5.2650539547835065,
      "learning_rate": 9.947604082815714e-06,
      "loss": 0.7231,
      "step": 336
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.206691113960195,
      "learning_rate": 9.947082357369347e-06,
      "loss": 0.7767,
      "step": 337
    },
    {
      "epoch": 0.08,
      "grad_norm": 7.430017076397823,
      "learning_rate": 9.946558061086728e-06,
      "loss": 0.9158,
      "step": 338
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.816519435615995,
      "learning_rate": 9.946031194240317e-06,
      "loss": 0.4576,
      "step": 339
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.829712962590303,
      "learning_rate": 9.945501757103913e-06,
      "loss": 0.6493,
      "step": 340
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.343058727750954,
      "learning_rate": 9.944969749952642e-06,
      "loss": 0.5376,
      "step": 341
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.89350686614997,
      "learning_rate": 9.944435173062975e-06,
      "loss": 0.5705,
      "step": 342
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.157216681022175,
      "learning_rate": 9.94389802671271e-06,
      "loss": 0.5902,
      "step": 343
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.191178283540221,
      "learning_rate": 9.943358311180986e-06,
      "loss": 0.719,
      "step": 344
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.8754669056477855,
      "learning_rate": 9.942816026748277e-06,
      "loss": 0.5135,
      "step": 345
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.556958590005375,
      "learning_rate": 9.942271173696388e-06,
      "loss": 0.6701,
      "step": 346
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.744736671892341,
      "learning_rate": 9.941723752308463e-06,
      "loss": 0.6512,
      "step": 347
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.240160329464019,
      "learning_rate": 9.941173762868979e-06,
      "loss": 0.666,
      "step": 348
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.312592682933396,
      "learning_rate": 9.940621205663745e-06,
      "loss": 0.597,
      "step": 349
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.81553606448329,
      "learning_rate": 9.94006608097991e-06,
      "loss": 0.2861,
      "step": 350
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.018860525532414,
      "learning_rate": 9.939508389105952e-06,
      "loss": 0.7684,
      "step": 351
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.89853080713388,
      "learning_rate": 9.938948130331686e-06,
      "loss": 0.8427,
      "step": 352
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.308842520826178,
      "learning_rate": 9.93838530494826e-06,
      "loss": 0.6472,
      "step": 353
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.614139943700001,
      "learning_rate": 9.937819913248156e-06,
      "loss": 1.0198,
      "step": 354
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.997926772488666,
      "learning_rate": 9.93725195552519e-06,
      "loss": 0.7832,
      "step": 355
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.318600562326163,
      "learning_rate": 9.936681432074507e-06,
      "loss": 0.7263,
      "step": 356
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.1336390582589475,
      "learning_rate": 9.936108343192595e-06,
      "loss": 0.611,
      "step": 357
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.814504657063708,
      "learning_rate": 9.935532689177267e-06,
      "loss": 0.6564,
      "step": 358
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.847595202824123,
      "learning_rate": 9.934954470327671e-06,
      "loss": 0.5767,
      "step": 359
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.090973637592803,
      "learning_rate": 9.934373686944288e-06,
      "loss": 0.8116,
      "step": 360
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.891472610498595,
      "learning_rate": 9.933790339328935e-06,
      "loss": 0.6425,
      "step": 361
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.096550678898624,
      "learning_rate": 9.933204427784755e-06,
      "loss": 0.6338,
      "step": 362
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.443239024459792,
      "learning_rate": 9.932615952616229e-06,
      "loss": 0.7479,
      "step": 363
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.66432513915761,
      "learning_rate": 9.932024914129168e-06,
      "loss": 0.714,
      "step": 364
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.9475853836628616,
      "learning_rate": 9.931431312630714e-06,
      "loss": 0.561,
      "step": 365
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.862892854187195,
      "learning_rate": 9.930835148429343e-06,
      "loss": 0.3787,
      "step": 366
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.558629767709626,
      "learning_rate": 9.930236421834863e-06,
      "loss": 0.8211,
      "step": 367
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.741544188243043,
      "learning_rate": 9.929635133158412e-06,
      "loss": 0.658,
      "step": 368
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.892370463878398,
      "learning_rate": 9.92903128271246e-06,
      "loss": 0.9297,
      "step": 369
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.045985992821693,
      "learning_rate": 9.928424870810807e-06,
      "loss": 0.4891,
      "step": 370
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.146139755049232,
      "learning_rate": 9.927815897768585e-06,
      "loss": 0.8214,
      "step": 371
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.288309224058415,
      "learning_rate": 9.92720436390226e-06,
      "loss": 0.7604,
      "step": 372
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.112430189276098,
      "learning_rate": 9.926590269529626e-06,
      "loss": 0.5777,
      "step": 373
    },
    {
      "epoch": 0.08,
      "grad_norm": 6.483122016855619,
      "learning_rate": 9.925973614969805e-06,
      "loss": 0.8232,
      "step": 374
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.623617212080324,
      "learning_rate": 9.925354400543254e-06,
      "loss": 0.7538,
      "step": 375
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.737638225147129,
      "learning_rate": 9.924732626571756e-06,
      "loss": 0.4493,
      "step": 376
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.308824324483172,
      "learning_rate": 9.92410829337843e-06,
      "loss": 0.7775,
      "step": 377
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.7693123292072905,
      "learning_rate": 9.92348140128772e-06,
      "loss": 0.6384,
      "step": 378
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.191460204037131,
      "learning_rate": 9.9228519506254e-06,
      "loss": 0.5706,
      "step": 379
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.603040645890298,
      "learning_rate": 9.922219941718578e-06,
      "loss": 0.8533,
      "step": 380
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.4609911427114355,
      "learning_rate": 9.921585374895685e-06,
      "loss": 0.6238,
      "step": 381
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.7266609790267986,
      "learning_rate": 9.920948250486485e-06,
      "loss": 0.5649,
      "step": 382
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.133736545141677,
      "learning_rate": 9.920308568822073e-06,
      "loss": 0.5593,
      "step": 383
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.415437986168715,
      "learning_rate": 9.919666330234868e-06,
      "loss": 0.6035,
      "step": 384
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.608607587361971,
      "learning_rate": 9.919021535058619e-06,
      "loss": 0.3274,
      "step": 385
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.599978948705604,
      "learning_rate": 9.91837418362841e-06,
      "loss": 0.7091,
      "step": 386
    },
    {
      "epoch": 0.09,
      "grad_norm": 6.198108489619263,
      "learning_rate": 9.917724276280645e-06,
      "loss": 0.8778,
      "step": 387
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.959482223850548,
      "learning_rate": 9.917071813353058e-06,
      "loss": 0.6642,
      "step": 388
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.134803529679911,
      "learning_rate": 9.916416795184716e-06,
      "loss": 0.7344,
      "step": 389
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.7594109536391334,
      "learning_rate": 9.915759222116008e-06,
      "loss": 0.6709,
      "step": 390
    },
    {
      "epoch": 0.09,
      "grad_norm": 6.162311701624633,
      "learning_rate": 9.915099094488656e-06,
      "loss": 0.7586,
      "step": 391
    },
    {
      "epoch": 0.09,
      "grad_norm": 6.004838317550296,
      "learning_rate": 9.914436412645703e-06,
      "loss": 0.6207,
      "step": 392
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.891055656036642,
      "learning_rate": 9.913771176931526e-06,
      "loss": 0.4406,
      "step": 393
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.5857517113631365,
      "learning_rate": 9.913103387691823e-06,
      "loss": 0.5297,
      "step": 394
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.188403439008162,
      "learning_rate": 9.912433045273627e-06,
      "loss": 0.728,
      "step": 395
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.119970101627666,
      "learning_rate": 9.911760150025288e-06,
      "loss": 0.7657,
      "step": 396
    },
    {
      "epoch": 0.09,
      "grad_norm": 7.597476201480564,
      "learning_rate": 9.911084702296487e-06,
      "loss": 1.1228,
      "step": 397
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.981153712999459,
      "learning_rate": 9.910406702438237e-06,
      "loss": 0.5389,
      "step": 398
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.583189890266652,
      "learning_rate": 9.90972615080287e-06,
      "loss": 0.5942,
      "step": 399
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.025308209576142,
      "learning_rate": 9.909043047744044e-06,
      "loss": 0.8185,
      "step": 400
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.44455878507052,
      "learning_rate": 9.90835739361675e-06,
      "loss": 0.5266,
      "step": 401
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.544582801379627,
      "learning_rate": 9.907669188777296e-06,
      "loss": 0.9562,
      "step": 402
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.1887399010184287,
      "learning_rate": 9.906978433583321e-06,
      "loss": 0.5034,
      "step": 403
    },
    {
      "epoch": 0.09,
      "grad_norm": 7.309436033532978,
      "learning_rate": 9.906285128393787e-06,
      "loss": 0.6142,
      "step": 404
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.716298636357707,
      "learning_rate": 9.905589273568981e-06,
      "loss": 0.5454,
      "step": 405
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.465184232497578,
      "learning_rate": 9.90489086947052e-06,
      "loss": 0.6795,
      "step": 406
    },
    {
      "epoch": 0.09,
      "grad_norm": 6.592937668143173,
      "learning_rate": 9.904189916461337e-06,
      "loss": 0.5229,
      "step": 407
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.028011824713273,
      "learning_rate": 9.903486414905697e-06,
      "loss": 0.5613,
      "step": 408
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.917840112632817,
      "learning_rate": 9.902780365169186e-06,
      "loss": 0.5172,
      "step": 409
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.842503026526981,
      "learning_rate": 9.902071767618715e-06,
      "loss": 0.6185,
      "step": 410
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.203354357390495,
      "learning_rate": 9.901360622622519e-06,
      "loss": 0.7841,
      "step": 411
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.733008581817785,
      "learning_rate": 9.900646930550156e-06,
      "loss": 0.4667,
      "step": 412
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.356109768847406,
      "learning_rate": 9.899930691772508e-06,
      "loss": 0.4499,
      "step": 413
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.255334805928814,
      "learning_rate": 9.899211906661782e-06,
      "loss": 0.5594,
      "step": 414
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.340363406906088,
      "learning_rate": 9.898490575591506e-06,
      "loss": 0.4673,
      "step": 415
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.284515699288055,
      "learning_rate": 9.897766698936533e-06,
      "loss": 1.0142,
      "step": 416
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.472350518479563,
      "learning_rate": 9.897040277073037e-06,
      "loss": 0.7946,
      "step": 417
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.9961598707788104,
      "learning_rate": 9.896311310378517e-06,
      "loss": 0.4698,
      "step": 418
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.5104351320966827,
      "learning_rate": 9.895579799231791e-06,
      "loss": 0.57,
      "step": 419
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.355712753964195,
      "learning_rate": 9.894845744013002e-06,
      "loss": 0.5981,
      "step": 420
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.3476492952138175,
      "learning_rate": 9.894109145103617e-06,
      "loss": 0.4737,
      "step": 421
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.18298434061187,
      "learning_rate": 9.89337000288642e-06,
      "loss": 0.8056,
      "step": 422
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.4475124047364085,
      "learning_rate": 9.892628317745517e-06,
      "loss": 0.6292,
      "step": 423
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.30905113058401,
      "learning_rate": 9.891884090066339e-06,
      "loss": 0.6353,
      "step": 424
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.46806929103966,
      "learning_rate": 9.89113732023564e-06,
      "loss": 0.7692,
      "step": 425
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.6327166823405297,
      "learning_rate": 9.890388008641488e-06,
      "loss": 0.5434,
      "step": 426
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.280412275819447,
      "learning_rate": 9.889636155673274e-06,
      "loss": 0.8578,
      "step": 427
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.627042620806354,
      "learning_rate": 9.888881761721716e-06,
      "loss": 0.4917,
      "step": 428
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.807583320244333,
      "learning_rate": 9.888124827178847e-06,
      "loss": 0.4205,
      "step": 429
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.404964848848183,
      "learning_rate": 9.887365352438016e-06,
      "loss": 0.4439,
      "step": 430
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.976431720276485,
      "learning_rate": 9.886603337893904e-06,
      "loss": 0.9741,
      "step": 431
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.176828657322155,
      "learning_rate": 9.885838783942501e-06,
      "loss": 0.6924,
      "step": 432
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.511483536031979,
      "learning_rate": 9.88507169098112e-06,
      "loss": 0.7809,
      "step": 433
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.2571343536324235,
      "learning_rate": 9.884302059408396e-06,
      "loss": 0.6752,
      "step": 434
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.039836426055912,
      "learning_rate": 9.88352988962428e-06,
      "loss": 0.7151,
      "step": 435
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.9778960162339403,
      "learning_rate": 9.882755182030043e-06,
      "loss": 0.5543,
      "step": 436
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.093679736621533,
      "learning_rate": 9.881977937028277e-06,
      "loss": 0.5374,
      "step": 437
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.363393898561838,
      "learning_rate": 9.88119815502289e-06,
      "loss": 0.5986,
      "step": 438
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.759230594833637,
      "learning_rate": 9.880415836419108e-06,
      "loss": 0.7427,
      "step": 439
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.6380031972407565,
      "learning_rate": 9.879630981623477e-06,
      "loss": 0.5799,
      "step": 440
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.126765287028492,
      "learning_rate": 9.878843591043862e-06,
      "loss": 0.859,
      "step": 441
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.8344501627291696,
      "learning_rate": 9.87805366508944e-06,
      "loss": 0.4927,
      "step": 442
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.972119672131758,
      "learning_rate": 9.877261204170712e-06,
      "loss": 0.7101,
      "step": 443
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.824965306291264,
      "learning_rate": 9.876466208699494e-06,
      "loss": 0.7246,
      "step": 444
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.3889022026934743,
      "learning_rate": 9.87566867908892e-06,
      "loss": 0.6382,
      "step": 445
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.709472824922304,
      "learning_rate": 9.874868615753437e-06,
      "loss": 0.8502,
      "step": 446
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.573408749034962,
      "learning_rate": 9.874066019108814e-06,
      "loss": 0.6811,
      "step": 447
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.347838206103145,
      "learning_rate": 9.873260889572134e-06,
      "loss": 0.6104,
      "step": 448
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.285182680308239,
      "learning_rate": 9.872453227561795e-06,
      "loss": 0.5831,
      "step": 449
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.704107103401898,
      "learning_rate": 9.871643033497513e-06,
      "loss": 0.5016,
      "step": 450
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.673315903630066,
      "learning_rate": 9.87083030780032e-06,
      "loss": 0.5671,
      "step": 451
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.039615301139016,
      "learning_rate": 9.870015050892563e-06,
      "loss": 0.6595,
      "step": 452
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.565383476783244,
      "learning_rate": 9.869197263197904e-06,
      "loss": 0.5253,
      "step": 453
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.808278424350265,
      "learning_rate": 9.86837694514132e-06,
      "loss": 0.8199,
      "step": 454
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.342278623875301,
      "learning_rate": 9.867554097149103e-06,
      "loss": 0.6143,
      "step": 455
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.1884278257286045,
      "learning_rate": 9.86672871964886e-06,
      "loss": 0.8383,
      "step": 456
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.084148295493881,
      "learning_rate": 9.865900813069513e-06,
      "loss": 0.8929,
      "step": 457
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.953663895005233,
      "learning_rate": 9.865070377841299e-06,
      "loss": 0.9186,
      "step": 458
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.798473552972631,
      "learning_rate": 9.864237414395768e-06,
      "loss": 0.7573,
      "step": 459
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.808146915334937,
      "learning_rate": 9.86340192316578e-06,
      "loss": 0.6947,
      "step": 460
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.130616314275527,
      "learning_rate": 9.862563904585516e-06,
      "loss": 0.7907,
      "step": 461
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.1436986881641555,
      "learning_rate": 9.861723359090465e-06,
      "loss": 0.7065,
      "step": 462
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.9801738324544,
      "learning_rate": 9.860880287117434e-06,
      "loss": 0.5475,
      "step": 463
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.885115755909407,
      "learning_rate": 9.860034689104535e-06,
      "loss": 0.7527,
      "step": 464
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.123751505918842,
      "learning_rate": 9.859186565491202e-06,
      "loss": 0.7054,
      "step": 465
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.8885998830416284,
      "learning_rate": 9.858335916718173e-06,
      "loss": 0.4855,
      "step": 466
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.3200904702110643,
      "learning_rate": 9.857482743227505e-06,
      "loss": 0.4963,
      "step": 467
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.653656020861205,
      "learning_rate": 9.856627045462564e-06,
      "loss": 0.5036,
      "step": 468
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.600903496713925,
      "learning_rate": 9.855768823868026e-06,
      "loss": 0.7254,
      "step": 469
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.041196649735688,
      "learning_rate": 9.854908078889882e-06,
      "loss": 0.8224,
      "step": 470
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.14997944951614,
      "learning_rate": 9.854044810975434e-06,
      "loss": 0.8028,
      "step": 471
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.331493463247206,
      "learning_rate": 9.853179020573294e-06,
      "loss": 0.564,
      "step": 472
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.51931483779563,
      "learning_rate": 9.85231070813338e-06,
      "loss": 0.3957,
      "step": 473
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.839962304050127,
      "learning_rate": 9.851439874106934e-06,
      "loss": 0.767,
      "step": 474
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.071669365033873,
      "learning_rate": 9.850566518946492e-06,
      "loss": 0.8309,
      "step": 475
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.414173626414711,
      "learning_rate": 9.849690643105912e-06,
      "loss": 0.7391,
      "step": 476
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.79977236498804,
      "learning_rate": 9.848812247040357e-06,
      "loss": 0.4762,
      "step": 477
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.1652231042402725,
      "learning_rate": 9.8479313312063e-06,
      "loss": 0.617,
      "step": 478
    },
    {
      "epoch": 0.11,
      "grad_norm": 5.293100076936214,
      "learning_rate": 9.847047896061526e-06,
      "loss": 0.5907,
      "step": 479
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.366174042086841,
      "learning_rate": 9.846161942065125e-06,
      "loss": 0.7629,
      "step": 480
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.277399208378473,
      "learning_rate": 9.845273469677499e-06,
      "loss": 0.5082,
      "step": 481
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.809036777848143,
      "learning_rate": 9.844382479360357e-06,
      "loss": 0.7154,
      "step": 482
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.0408155831147807,
      "learning_rate": 9.843488971576718e-06,
      "loss": 0.5282,
      "step": 483
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.16239409151035,
      "learning_rate": 9.842592946790912e-06,
      "loss": 0.6966,
      "step": 484
    },
    {
      "epoch": 0.11,
      "grad_norm": 7.26059095054167,
      "learning_rate": 9.84169440546857e-06,
      "loss": 0.8151,
      "step": 485
    },
    {
      "epoch": 0.11,
      "grad_norm": 5.185159474176771,
      "learning_rate": 9.840793348076633e-06,
      "loss": 0.6183,
      "step": 486
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.378986444063155,
      "learning_rate": 9.839889775083353e-06,
      "loss": 0.6218,
      "step": 487
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.522273243500798,
      "learning_rate": 9.83898368695829e-06,
      "loss": 0.6148,
      "step": 488
    },
    {
      "epoch": 0.11,
      "grad_norm": 7.5306811633076585,
      "learning_rate": 9.838075084172303e-06,
      "loss": 0.7767,
      "step": 489
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.7912046392362604,
      "learning_rate": 9.837163967197568e-06,
      "loss": 0.6336,
      "step": 490
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.340257267337977,
      "learning_rate": 9.836250336507558e-06,
      "loss": 0.6665,
      "step": 491
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.396984361989485,
      "learning_rate": 9.835334192577059e-06,
      "loss": 0.6172,
      "step": 492
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.9634287033525175,
      "learning_rate": 9.834415535882161e-06,
      "loss": 0.4765,
      "step": 493
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.2990762843157446,
      "learning_rate": 9.83349436690026e-06,
      "loss": 0.5686,
      "step": 494
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.6927141556936096,
      "learning_rate": 9.832570686110056e-06,
      "loss": 0.691,
      "step": 495
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.7928061798795425,
      "learning_rate": 9.83164449399156e-06,
      "loss": 0.6631,
      "step": 496
    },
    {
      "epoch": 0.11,
      "grad_norm": 6.629421369695935,
      "learning_rate": 9.830715791026077e-06,
      "loss": 0.7294,
      "step": 497
    },
    {
      "epoch": 0.11,
      "grad_norm": 5.553050513640462,
      "learning_rate": 9.829784577696226e-06,
      "loss": 0.67,
      "step": 498
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.698115582944404,
      "learning_rate": 9.828850854485929e-06,
      "loss": 0.6931,
      "step": 499
    },
    {
      "epoch": 0.11,
      "grad_norm": 6.660133410752129,
      "learning_rate": 9.827914621880412e-06,
      "loss": 1.004,
      "step": 500
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.768501187347724,
      "learning_rate": 9.826975880366204e-06,
      "loss": 0.555,
      "step": 501
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.9240834273443745,
      "learning_rate": 9.826034630431134e-06,
      "loss": 0.6426,
      "step": 502
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.354649608374784,
      "learning_rate": 9.825090872564344e-06,
      "loss": 0.6392,
      "step": 503
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.617915430342337,
      "learning_rate": 9.824144607256272e-06,
      "loss": 0.5735,
      "step": 504
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.664355436509258,
      "learning_rate": 9.82319583499866e-06,
      "loss": 0.3662,
      "step": 505
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.6195489503758562,
      "learning_rate": 9.822244556284556e-06,
      "loss": 0.3933,
      "step": 506
    },
    {
      "epoch": 0.11,
      "grad_norm": 7.556622910185407,
      "learning_rate": 9.821290771608307e-06,
      "loss": 0.6908,
      "step": 507
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.034317688363704,
      "learning_rate": 9.820334481465563e-06,
      "loss": 0.6222,
      "step": 508
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.778156672049948,
      "learning_rate": 9.819375686353277e-06,
      "loss": 0.4929,
      "step": 509
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.816880295702468,
      "learning_rate": 9.818414386769703e-06,
      "loss": 0.6775,
      "step": 510
    },
    {
      "epoch": 0.11,
      "grad_norm": 6.944435299952204,
      "learning_rate": 9.817450583214399e-06,
      "loss": 0.771,
      "step": 511
    },
    {
      "epoch": 0.11,
      "grad_norm": 8.599378102986414,
      "learning_rate": 9.81648427618822e-06,
      "loss": 0.4986,
      "step": 512
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.830623133423229,
      "learning_rate": 9.815515466193325e-06,
      "loss": 0.5947,
      "step": 513
    },
    {
      "epoch": 0.11,
      "grad_norm": 6.27946729721889,
      "learning_rate": 9.814544153733169e-06,
      "loss": 0.6671,
      "step": 514
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.828806732656716,
      "learning_rate": 9.813570339312517e-06,
      "loss": 0.4363,
      "step": 515
    },
    {
      "epoch": 0.11,
      "grad_norm": 6.019935667557456,
      "learning_rate": 9.812594023437425e-06,
      "loss": 0.5748,
      "step": 516
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.824261302213988,
      "learning_rate": 9.811615206615255e-06,
      "loss": 0.4758,
      "step": 517
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.336028070062175,
      "learning_rate": 9.810633889354661e-06,
      "loss": 0.696,
      "step": 518
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.31042857504651,
      "learning_rate": 9.809650072165606e-06,
      "loss": 0.6381,
      "step": 519
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.6703865363714065,
      "learning_rate": 9.808663755559347e-06,
      "loss": 0.3996,
      "step": 520
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.906436251126867,
      "learning_rate": 9.807674940048437e-06,
      "loss": 0.4578,
      "step": 521
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.157870306557649,
      "learning_rate": 9.806683626146735e-06,
      "loss": 0.6095,
      "step": 522
    },
    {
      "epoch": 0.12,
      "grad_norm": 8.031667270028349,
      "learning_rate": 9.805689814369392e-06,
      "loss": 0.7043,
      "step": 523
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.108607124298899,
      "learning_rate": 9.804693505232858e-06,
      "loss": 0.4044,
      "step": 524
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.899945129316859,
      "learning_rate": 9.803694699254886e-06,
      "loss": 0.5399,
      "step": 525
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.2730071619528704,
      "learning_rate": 9.802693396954521e-06,
      "loss": 0.7911,
      "step": 526
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.19100787292338,
      "learning_rate": 9.801689598852104e-06,
      "loss": 0.5993,
      "step": 527
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.582946095236212,
      "learning_rate": 9.80068330546928e-06,
      "loss": 0.923,
      "step": 528
    },
    {
      "epoch": 0.12,
      "grad_norm": 7.49222917468989,
      "learning_rate": 9.799674517328985e-06,
      "loss": 0.5833,
      "step": 529
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.298773044060852,
      "learning_rate": 9.798663234955454e-06,
      "loss": 0.5485,
      "step": 530
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.486397004682989,
      "learning_rate": 9.797649458874216e-06,
      "loss": 0.649,
      "step": 531
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.2544309498313035,
      "learning_rate": 9.796633189612097e-06,
      "loss": 0.6371,
      "step": 532
    },
    {
      "epoch": 0.12,
      "grad_norm": 7.893929999671282,
      "learning_rate": 9.795614427697218e-06,
      "loss": 0.4433,
      "step": 533
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.306142594774444,
      "learning_rate": 9.794593173659e-06,
      "loss": 0.4393,
      "step": 534
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.217319812476641,
      "learning_rate": 9.793569428028151e-06,
      "loss": 0.5235,
      "step": 535
    },
    {
      "epoch": 0.12,
      "grad_norm": 6.914698997674407,
      "learning_rate": 9.79254319133668e-06,
      "loss": 0.6619,
      "step": 536
    },
    {
      "epoch": 0.12,
      "grad_norm": 8.644961451738341,
      "learning_rate": 9.791514464117888e-06,
      "loss": 0.657,
      "step": 537
    },
    {
      "epoch": 0.12,
      "grad_norm": 7.629575056366494,
      "learning_rate": 9.790483246906371e-06,
      "loss": 0.7559,
      "step": 538
    },
    {
      "epoch": 0.12,
      "grad_norm": 6.7563704863185245,
      "learning_rate": 9.78944954023802e-06,
      "loss": 0.6345,
      "step": 539
    },
    {
      "epoch": 0.12,
      "grad_norm": 7.8097747448055514,
      "learning_rate": 9.788413344650013e-06,
      "loss": 0.4737,
      "step": 540
    },
    {
      "epoch": 0.12,
      "grad_norm": 14.260615593907431,
      "learning_rate": 9.787374660680835e-06,
      "loss": 0.657,
      "step": 541
    },
    {
      "epoch": 0.12,
      "grad_norm": 12.130883974188762,
      "learning_rate": 9.78633348887025e-06,
      "loss": 0.4309,
      "step": 542
    },
    {
      "epoch": 0.12,
      "grad_norm": 16.967672156679743,
      "learning_rate": 9.78528982975932e-06,
      "loss": 0.8282,
      "step": 543
    },
    {
      "epoch": 0.12,
      "grad_norm": 12.699274079467102,
      "learning_rate": 9.784243683890407e-06,
      "loss": 0.7366,
      "step": 544
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.42755625607804,
      "learning_rate": 9.783195051807154e-06,
      "loss": 0.6703,
      "step": 545
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.251354213770597,
      "learning_rate": 9.782143934054498e-06,
      "loss": 0.7405,
      "step": 546
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.71042298909709,
      "learning_rate": 9.781090331178677e-06,
      "loss": 0.7249,
      "step": 547
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.733326107924608,
      "learning_rate": 9.78003424372721e-06,
      "loss": 0.6119,
      "step": 548
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.152828369290872,
      "learning_rate": 9.778975672248909e-06,
      "loss": 0.7103,
      "step": 549
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.693389766542248,
      "learning_rate": 9.777914617293885e-06,
      "loss": 0.6379,
      "step": 550
    },
    {
      "epoch": 0.12,
      "grad_norm": 6.1653962862975105,
      "learning_rate": 9.776851079413527e-06,
      "loss": 0.6443,
      "step": 551
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.718302062055191,
      "learning_rate": 9.775785059160523e-06,
      "loss": 0.6552,
      "step": 552
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.8292775639689305,
      "learning_rate": 9.77471655708885e-06,
      "loss": 0.3312,
      "step": 553
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.497696334370464,
      "learning_rate": 9.773645573753773e-06,
      "loss": 0.803,
      "step": 554
    },
    {
      "epoch": 0.12,
      "grad_norm": 9.486047805549795,
      "learning_rate": 9.772572109711845e-06,
      "loss": 0.8206,
      "step": 555
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.102935492448469,
      "learning_rate": 9.771496165520912e-06,
      "loss": 0.6596,
      "step": 556
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.51884536168744,
      "learning_rate": 9.770417741740108e-06,
      "loss": 0.5232,
      "step": 557
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.970814698393062,
      "learning_rate": 9.76933683892985e-06,
      "loss": 0.69,
      "step": 558
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.257512999441765,
      "learning_rate": 9.768253457651853e-06,
      "loss": 0.8434,
      "step": 559
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.542548579789435,
      "learning_rate": 9.76716759846911e-06,
      "loss": 0.4814,
      "step": 560
    },
    {
      "epoch": 0.12,
      "grad_norm": 5.308153822651948,
      "learning_rate": 9.766079261945908e-06,
      "loss": 0.4344,
      "step": 561
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.9111848921623187,
      "learning_rate": 9.764988448647824e-06,
      "loss": 0.5036,
      "step": 562
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.600921471274694,
      "learning_rate": 9.76389515914171e-06,
      "loss": 0.6391,
      "step": 563
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.433291329313787,
      "learning_rate": 9.762799393995718e-06,
      "loss": 0.7341,
      "step": 564
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.956387808191392,
      "learning_rate": 9.76170115377928e-06,
      "loss": 0.7193,
      "step": 565
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.113912545013513,
      "learning_rate": 9.760600439063116e-06,
      "loss": 0.6504,
      "step": 566
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.7075513825836155,
      "learning_rate": 9.759497250419228e-06,
      "loss": 0.5496,
      "step": 567
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.686978994755778,
      "learning_rate": 9.758391588420912e-06,
      "loss": 0.8004,
      "step": 568
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.497803738169769,
      "learning_rate": 9.757283453642741e-06,
      "loss": 0.7759,
      "step": 569
    },
    {
      "epoch": 0.13,
      "grad_norm": 6.398900949007582,
      "learning_rate": 9.756172846660576e-06,
      "loss": 0.7278,
      "step": 570
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.144848403057348,
      "learning_rate": 9.755059768051565e-06,
      "loss": 0.9253,
      "step": 571
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.01742171937386,
      "learning_rate": 9.753944218394137e-06,
      "loss": 0.5736,
      "step": 572
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.895083806713633,
      "learning_rate": 9.752826198268006e-06,
      "loss": 0.4763,
      "step": 573
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.3082885396346247,
      "learning_rate": 9.751705708254172e-06,
      "loss": 0.5337,
      "step": 574
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.163294596662401,
      "learning_rate": 9.750582748934916e-06,
      "loss": 0.7314,
      "step": 575
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.9307422706739232,
      "learning_rate": 9.749457320893803e-06,
      "loss": 0.6573,
      "step": 576
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.577615205619293,
      "learning_rate": 9.748329424715681e-06,
      "loss": 0.5402,
      "step": 577
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.074502467546627,
      "learning_rate": 9.74719906098668e-06,
      "loss": 0.7214,
      "step": 578
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.450909238091335,
      "learning_rate": 9.746066230294216e-06,
      "loss": 0.5583,
      "step": 579
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.258437682636191,
      "learning_rate": 9.744930933226979e-06,
      "loss": 0.5487,
      "step": 580
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.579531634031098,
      "learning_rate": 9.74379317037495e-06,
      "loss": 0.5779,
      "step": 581
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.8562060461554744,
      "learning_rate": 9.742652942329385e-06,
      "loss": 0.4802,
      "step": 582
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.742008391001067,
      "learning_rate": 9.741510249682821e-06,
      "loss": 0.7615,
      "step": 583
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.958168209682682,
      "learning_rate": 9.740365093029083e-06,
      "loss": 0.6281,
      "step": 584
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.395018881211857,
      "learning_rate": 9.739217472963267e-06,
      "loss": 0.4327,
      "step": 585
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.164874748734496,
      "learning_rate": 9.738067390081754e-06,
      "loss": 0.7026,
      "step": 586
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.384483277011311,
      "learning_rate": 9.736914844982206e-06,
      "loss": 0.6809,
      "step": 587
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.500540271131885,
      "learning_rate": 9.735759838263563e-06,
      "loss": 0.7452,
      "step": 588
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.900520764700099,
      "learning_rate": 9.734602370526042e-06,
      "loss": 0.78,
      "step": 589
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.11233936051185,
      "learning_rate": 9.733442442371141e-06,
      "loss": 0.4891,
      "step": 590
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.3464164642273126,
      "learning_rate": 9.73228005440164e-06,
      "loss": 0.5304,
      "step": 591
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.3599753160064916,
      "learning_rate": 9.73111520722159e-06,
      "loss": 0.6021,
      "step": 592
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.1253248905194635,
      "learning_rate": 9.729947901436325e-06,
      "loss": 0.591,
      "step": 593
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.952451055907903,
      "learning_rate": 9.728778137652456e-06,
      "loss": 0.7035,
      "step": 594
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.547629840511418,
      "learning_rate": 9.727605916477872e-06,
      "loss": 0.7986,
      "step": 595
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.259622465875739,
      "learning_rate": 9.726431238521734e-06,
      "loss": 0.4331,
      "step": 596
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.6878183206231383,
      "learning_rate": 9.725254104394489e-06,
      "loss": 0.6003,
      "step": 597
    },
    {
      "epoch": 0.13,
      "grad_norm": 6.277726784760593,
      "learning_rate": 9.724074514707849e-06,
      "loss": 0.8175,
      "step": 598
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.468709878188729,
      "learning_rate": 9.722892470074811e-06,
      "loss": 0.5919,
      "step": 599
    },
    {
      "epoch": 0.13,
      "grad_norm": 8.006786196009452,
      "learning_rate": 9.721707971109647e-06,
      "loss": 0.6022,
      "step": 600
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.4076459415129525,
      "learning_rate": 9.7205210184279e-06,
      "loss": 0.5731,
      "step": 601
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.777398585347215,
      "learning_rate": 9.719331612646388e-06,
      "loss": 0.4719,
      "step": 602
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.572084465543544,
      "learning_rate": 9.71813975438321e-06,
      "loss": 0.6597,
      "step": 603
    },
    {
      "epoch": 0.13,
      "grad_norm": 6.159184347203451,
      "learning_rate": 9.716945444257734e-06,
      "loss": 0.6244,
      "step": 604
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.682696444559679,
      "learning_rate": 9.715748682890604e-06,
      "loss": 0.6525,
      "step": 605
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.266402626167001,
      "learning_rate": 9.714549470903736e-06,
      "loss": 0.6234,
      "step": 606
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.3177979944796485,
      "learning_rate": 9.713347808920323e-06,
      "loss": 0.9102,
      "step": 607
    },
    {
      "epoch": 0.14,
      "grad_norm": 7.933793700544595,
      "learning_rate": 9.71214369756483e-06,
      "loss": 0.616,
      "step": 608
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.025173270909309,
      "learning_rate": 9.710937137462992e-06,
      "loss": 0.529,
      "step": 609
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.897273776389631,
      "learning_rate": 9.709728129241818e-06,
      "loss": 0.8124,
      "step": 610
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.071777097222341,
      "learning_rate": 9.708516673529594e-06,
      "loss": 0.614,
      "step": 611
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.232292056056361,
      "learning_rate": 9.707302770955871e-06,
      "loss": 0.702,
      "step": 612
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.6755285117371743,
      "learning_rate": 9.706086422151473e-06,
      "loss": 0.5411,
      "step": 613
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.2475868732582,
      "learning_rate": 9.704867627748498e-06,
      "loss": 0.4238,
      "step": 614
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.818830761784755,
      "learning_rate": 9.703646388380314e-06,
      "loss": 0.4657,
      "step": 615
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.505322327383183,
      "learning_rate": 9.702422704681558e-06,
      "loss": 0.7053,
      "step": 616
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.5064368163460617,
      "learning_rate": 9.70119657728814e-06,
      "loss": 0.3483,
      "step": 617
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.70778098110273,
      "learning_rate": 9.699968006837236e-06,
      "loss": 0.5592,
      "step": 618
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.234552056240358,
      "learning_rate": 9.698736993967295e-06,
      "loss": 0.8116,
      "step": 619
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.970409259305189,
      "learning_rate": 9.697503539318032e-06,
      "loss": 0.6792,
      "step": 620
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.261713049532332,
      "learning_rate": 9.696267643530434e-06,
      "loss": 0.6106,
      "step": 621
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.440450255488321,
      "learning_rate": 9.695029307246759e-06,
      "loss": 0.3588,
      "step": 622
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.504503430412001,
      "learning_rate": 9.693788531110525e-06,
      "loss": 0.7234,
      "step": 623
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.663687091661465,
      "learning_rate": 9.692545315766523e-06,
      "loss": 0.725,
      "step": 624
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.796073453896876,
      "learning_rate": 9.691299661860814e-06,
      "loss": 0.3697,
      "step": 625
    },
    {
      "epoch": 0.14,
      "grad_norm": 8.035511763744577,
      "learning_rate": 9.690051570040719e-06,
      "loss": 0.7811,
      "step": 626
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.091282231794255,
      "learning_rate": 9.688801040954836e-06,
      "loss": 0.7923,
      "step": 627
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.867544574439108,
      "learning_rate": 9.687548075253019e-06,
      "loss": 0.4868,
      "step": 628
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.37295416214494,
      "learning_rate": 9.686292673586397e-06,
      "loss": 0.5127,
      "step": 629
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.475235971907068,
      "learning_rate": 9.685034836607358e-06,
      "loss": 0.5769,
      "step": 630
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.74856148940503,
      "learning_rate": 9.683774564969559e-06,
      "loss": 0.7182,
      "step": 631
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.937712156419512,
      "learning_rate": 9.682511859327925e-06,
      "loss": 0.5916,
      "step": 632
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.81034802608624,
      "learning_rate": 9.681246720338637e-06,
      "loss": 0.4701,
      "step": 633
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.562405785897205,
      "learning_rate": 9.679979148659152e-06,
      "loss": 0.6242,
      "step": 634
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.586063710939688,
      "learning_rate": 9.678709144948182e-06,
      "loss": 0.6118,
      "step": 635
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.1939690666459795,
      "learning_rate": 9.677436709865706e-06,
      "loss": 0.6029,
      "step": 636
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.949844806014516,
      "learning_rate": 9.67616184407297e-06,
      "loss": 0.7873,
      "step": 637
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.93990750414001,
      "learning_rate": 9.674884548232476e-06,
      "loss": 0.8258,
      "step": 638
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.550005104640856,
      "learning_rate": 9.673604823007994e-06,
      "loss": 0.6046,
      "step": 639
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.955992423183248,
      "learning_rate": 9.672322669064555e-06,
      "loss": 0.6691,
      "step": 640
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.230130505970688,
      "learning_rate": 9.671038087068455e-06,
      "loss": 0.5372,
      "step": 641
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.403242522169935,
      "learning_rate": 9.669751077687244e-06,
      "loss": 0.6651,
      "step": 642
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.8464425526822237,
      "learning_rate": 9.668461641589742e-06,
      "loss": 0.4013,
      "step": 643
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.423894989157021,
      "learning_rate": 9.667169779446026e-06,
      "loss": 0.6396,
      "step": 644
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.3043923959245,
      "learning_rate": 9.665875491927435e-06,
      "loss": 0.5064,
      "step": 645
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.224733668264375,
      "learning_rate": 9.664578779706568e-06,
      "loss": 0.7964,
      "step": 646
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.9918524739153325,
      "learning_rate": 9.663279643457281e-06,
      "loss": 0.5131,
      "step": 647
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.6896871225909145,
      "learning_rate": 9.661978083854695e-06,
      "loss": 0.6548,
      "step": 648
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.281959479638489,
      "learning_rate": 9.660674101575188e-06,
      "loss": 0.6187,
      "step": 649
    },
    {
      "epoch": 0.14,
      "grad_norm": 6.016174784449184,
      "learning_rate": 9.659367697296393e-06,
      "loss": 0.778,
      "step": 650
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.7560263461306995,
      "learning_rate": 9.65805887169721e-06,
      "loss": 0.6728,
      "step": 651
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.064517945138312,
      "learning_rate": 9.65674762545779e-06,
      "loss": 0.4471,
      "step": 652
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.306467732148817,
      "learning_rate": 9.655433959259547e-06,
      "loss": 0.5966,
      "step": 653
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.843555336388434,
      "learning_rate": 9.654117873785147e-06,
      "loss": 0.7355,
      "step": 654
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.1769909993942465,
      "learning_rate": 9.65279936971852e-06,
      "loss": 0.677,
      "step": 655
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.083618068477521,
      "learning_rate": 9.651478447744847e-06,
      "loss": 0.5982,
      "step": 656
    },
    {
      "epoch": 0.15,
      "grad_norm": 6.281017548146385,
      "learning_rate": 9.650155108550567e-06,
      "loss": 0.7313,
      "step": 657
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.511146475264563,
      "learning_rate": 9.648829352823377e-06,
      "loss": 0.6972,
      "step": 658
    },
    {
      "epoch": 0.15,
      "grad_norm": 6.772079224272705,
      "learning_rate": 9.647501181252228e-06,
      "loss": 0.7299,
      "step": 659
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.76264895141964,
      "learning_rate": 9.646170594527329e-06,
      "loss": 0.8206,
      "step": 660
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.556992872239578,
      "learning_rate": 9.644837593340141e-06,
      "loss": 0.7481,
      "step": 661
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.558295282471624,
      "learning_rate": 9.64350217838338e-06,
      "loss": 0.7948,
      "step": 662
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.2767012322406215,
      "learning_rate": 9.642164350351022e-06,
      "loss": 0.7389,
      "step": 663
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.7104141551087393,
      "learning_rate": 9.640824109938285e-06,
      "loss": 0.6055,
      "step": 664
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.265505755336046,
      "learning_rate": 9.639481457841653e-06,
      "loss": 0.8374,
      "step": 665
    },
    {
      "epoch": 0.15,
      "grad_norm": 6.58051977450838,
      "learning_rate": 9.638136394758857e-06,
      "loss": 0.8491,
      "step": 666
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.8512468431758986,
      "learning_rate": 9.636788921388882e-06,
      "loss": 0.6406,
      "step": 667
    },
    {
      "epoch": 0.15,
      "grad_norm": 6.744932354869388,
      "learning_rate": 9.635439038431964e-06,
      "loss": 0.6753,
      "step": 668
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.167317522023542,
      "learning_rate": 9.634086746589597e-06,
      "loss": 0.5512,
      "step": 669
    },
    {
      "epoch": 0.15,
      "grad_norm": 9.283213939874807,
      "learning_rate": 9.632732046564517e-06,
      "loss": 0.7569,
      "step": 670
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.3119156585875436,
      "learning_rate": 9.631374939060722e-06,
      "loss": 0.7633,
      "step": 671
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.508129127145932,
      "learning_rate": 9.630015424783454e-06,
      "loss": 0.7259,
      "step": 672
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.7994146044299875,
      "learning_rate": 9.62865350443921e-06,
      "loss": 0.7759,
      "step": 673
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.68005656217217,
      "learning_rate": 9.62728917873573e-06,
      "loss": 1.0545,
      "step": 674
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.152710702665859,
      "learning_rate": 9.625922448382018e-06,
      "loss": 0.5812,
      "step": 675
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.729488680646666,
      "learning_rate": 9.62455331408831e-06,
      "loss": 0.664,
      "step": 676
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.133155889532841,
      "learning_rate": 9.623181776566104e-06,
      "loss": 0.613,
      "step": 677
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.950611078280446,
      "learning_rate": 9.621807836528144e-06,
      "loss": 0.875,
      "step": 678
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.7382682583796925,
      "learning_rate": 9.62043149468842e-06,
      "loss": 0.3976,
      "step": 679
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.5469394619547625,
      "learning_rate": 9.619052751762172e-06,
      "loss": 0.5376,
      "step": 680
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.7819585577553765,
      "learning_rate": 9.617671608465889e-06,
      "loss": 0.7467,
      "step": 681
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.963794841046246,
      "learning_rate": 9.616288065517302e-06,
      "loss": 0.5487,
      "step": 682
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.900567996350001,
      "learning_rate": 9.614902123635396e-06,
      "loss": 0.5784,
      "step": 683
    },
    {
      "epoch": 0.15,
      "grad_norm": 7.103762945622831,
      "learning_rate": 9.6135137835404e-06,
      "loss": 0.5913,
      "step": 684
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.6673697295748315,
      "learning_rate": 9.612123045953786e-06,
      "loss": 0.4717,
      "step": 685
    },
    {
      "epoch": 0.15,
      "grad_norm": 5.477586476323172,
      "learning_rate": 9.610729911598276e-06,
      "loss": 0.6677,
      "step": 686
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.8614977688492127,
      "learning_rate": 9.609334381197836e-06,
      "loss": 0.5308,
      "step": 687
    },
    {
      "epoch": 0.15,
      "grad_norm": 7.791568509853722,
      "learning_rate": 9.60793645547768e-06,
      "loss": 0.5139,
      "step": 688
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.218948755375649,
      "learning_rate": 9.60653613516426e-06,
      "loss": 0.7618,
      "step": 689
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.7937858184728017,
      "learning_rate": 9.605133420985277e-06,
      "loss": 0.6319,
      "step": 690
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.324505223398669,
      "learning_rate": 9.603728313669678e-06,
      "loss": 0.5426,
      "step": 691
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.15893277741632,
      "learning_rate": 9.60232081394765e-06,
      "loss": 0.6774,
      "step": 692
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.932295934198602,
      "learning_rate": 9.600910922550624e-06,
      "loss": 0.6866,
      "step": 693
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.620354909375006,
      "learning_rate": 9.599498640211274e-06,
      "loss": 0.4828,
      "step": 694
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.950536871545289,
      "learning_rate": 9.598083967663518e-06,
      "loss": 0.5263,
      "step": 695
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.40547692081342,
      "learning_rate": 9.596666905642514e-06,
      "loss": 0.844,
      "step": 696
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.975947871339094,
      "learning_rate": 9.595247454884661e-06,
      "loss": 0.6323,
      "step": 697
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.8503507004834434,
      "learning_rate": 9.593825616127603e-06,
      "loss": 0.5262,
      "step": 698
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.467108989554922,
      "learning_rate": 9.592401390110224e-06,
      "loss": 0.5624,
      "step": 699
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.269128975772221,
      "learning_rate": 9.590974777572645e-06,
      "loss": 0.8873,
      "step": 700
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.5744599145673117,
      "learning_rate": 9.58954577925623e-06,
      "loss": 0.4121,
      "step": 701
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.876238580060158,
      "learning_rate": 9.588114395903585e-06,
      "loss": 0.6568,
      "step": 702
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.473040431698151,
      "learning_rate": 9.58668062825855e-06,
      "loss": 0.5694,
      "step": 703
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.4850666919295237,
      "learning_rate": 9.58524447706621e-06,
      "loss": 0.6647,
      "step": 704
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.400117357940968,
      "learning_rate": 9.583805943072882e-06,
      "loss": 0.7363,
      "step": 705
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.823298157227421,
      "learning_rate": 9.582365027026125e-06,
      "loss": 0.515,
      "step": 706
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.621864701711269,
      "learning_rate": 9.58092172967474e-06,
      "loss": 0.6381,
      "step": 707
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.537361242469378,
      "learning_rate": 9.579476051768756e-06,
      "loss": 0.6772,
      "step": 708
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.13931532530384,
      "learning_rate": 9.578027994059448e-06,
      "loss": 0.4523,
      "step": 709
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.8086100826144955,
      "learning_rate": 9.576577557299325e-06,
      "loss": 0.6231,
      "step": 710
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.8097805356668255,
      "learning_rate": 9.575124742242127e-06,
      "loss": 0.6853,
      "step": 711
    },
    {
      "epoch": 0.16,
      "grad_norm": 8.446061801518377,
      "learning_rate": 9.573669549642837e-06,
      "loss": 0.519,
      "step": 712
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.237220979965469,
      "learning_rate": 9.57221198025767e-06,
      "loss": 0.602,
      "step": 713
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.9350213600626676,
      "learning_rate": 9.570752034844078e-06,
      "loss": 0.6952,
      "step": 714
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.062794423617166,
      "learning_rate": 9.569289714160747e-06,
      "loss": 0.7193,
      "step": 715
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.446577826205538,
      "learning_rate": 9.567825018967595e-06,
      "loss": 0.7353,
      "step": 716
    },
    {
      "epoch": 0.16,
      "grad_norm": 8.098061231180562,
      "learning_rate": 9.566357950025778e-06,
      "loss": 0.52,
      "step": 717
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.09106851882995,
      "learning_rate": 9.56488850809768e-06,
      "loss": 0.4326,
      "step": 718
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.954704769636825,
      "learning_rate": 9.563416693946927e-06,
      "loss": 0.5117,
      "step": 719
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.2674014812583945,
      "learning_rate": 9.561942508338369e-06,
      "loss": 0.7441,
      "step": 720
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.39837185552168,
      "learning_rate": 9.560465952038092e-06,
      "loss": 0.6465,
      "step": 721
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.064416934809326,
      "learning_rate": 9.558987025813416e-06,
      "loss": 0.4442,
      "step": 722
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.688750309605587,
      "learning_rate": 9.557505730432887e-06,
      "loss": 0.7292,
      "step": 723
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.1114574644977155,
      "learning_rate": 9.556022066666289e-06,
      "loss": 0.6748,
      "step": 724
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.8129910729850596,
      "learning_rate": 9.554536035284631e-06,
      "loss": 0.6429,
      "step": 725
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.8810074610027097,
      "learning_rate": 9.553047637060156e-06,
      "loss": 0.5432,
      "step": 726
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.3586867517097825,
      "learning_rate": 9.551556872766335e-06,
      "loss": 0.6359,
      "step": 727
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.409241186540846,
      "learning_rate": 9.550063743177869e-06,
      "loss": 0.6772,
      "step": 728
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.614994932352763,
      "learning_rate": 9.548568249070688e-06,
      "loss": 0.6297,
      "step": 729
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.074603533914819,
      "learning_rate": 9.547070391221953e-06,
      "loss": 0.4989,
      "step": 730
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.698901751797714,
      "learning_rate": 9.545570170410051e-06,
      "loss": 0.4352,
      "step": 731
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.5331740546819246,
      "learning_rate": 9.544067587414596e-06,
      "loss": 0.6896,
      "step": 732
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.231945245945018,
      "learning_rate": 9.542562643016434e-06,
      "loss": 0.5832,
      "step": 733
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.412844900841189,
      "learning_rate": 9.541055337997633e-06,
      "loss": 0.5898,
      "step": 734
    },
    {
      "epoch": 0.16,
      "grad_norm": 6.7375408177965,
      "learning_rate": 9.539545673141488e-06,
      "loss": 0.709,
      "step": 735
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.853819069723869,
      "learning_rate": 9.538033649232527e-06,
      "loss": 0.802,
      "step": 736
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.962595978184644,
      "learning_rate": 9.536519267056494e-06,
      "loss": 0.6791,
      "step": 737
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.9078801836206205,
      "learning_rate": 9.535002527400368e-06,
      "loss": 0.81,
      "step": 738
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.88651571237568,
      "learning_rate": 9.533483431052347e-06,
      "loss": 0.8474,
      "step": 739
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.162375761036216,
      "learning_rate": 9.531961978801856e-06,
      "loss": 0.6588,
      "step": 740
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.3371705842751025,
      "learning_rate": 9.530438171439543e-06,
      "loss": 0.693,
      "step": 741
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.096906241175323,
      "learning_rate": 9.528912009757282e-06,
      "loss": 0.8431,
      "step": 742
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.8947548526950815,
      "learning_rate": 9.527383494548165e-06,
      "loss": 0.5485,
      "step": 743
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.090938609513278,
      "learning_rate": 9.525852626606518e-06,
      "loss": 0.6417,
      "step": 744
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.412266905384862,
      "learning_rate": 9.524319406727877e-06,
      "loss": 0.5113,
      "step": 745
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.278617746385666,
      "learning_rate": 9.52278383570901e-06,
      "loss": 0.5498,
      "step": 746
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.632683313047677,
      "learning_rate": 9.521245914347898e-06,
      "loss": 0.4473,
      "step": 747
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.243852438834645,
      "learning_rate": 9.519705643443754e-06,
      "loss": 0.5744,
      "step": 748
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.092646537278808,
      "learning_rate": 9.518163023797001e-06,
      "loss": 0.5837,
      "step": 749
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.7362187729311716,
      "learning_rate": 9.516618056209293e-06,
      "loss": 0.5955,
      "step": 750
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.051256134691796,
      "learning_rate": 9.515070741483493e-06,
      "loss": 0.3344,
      "step": 751
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.833836471447882,
      "learning_rate": 9.513521080423695e-06,
      "loss": 0.4743,
      "step": 752
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.523753671457883,
      "learning_rate": 9.511969073835203e-06,
      "loss": 0.8572,
      "step": 753
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.3447418928270976,
      "learning_rate": 9.510414722524547e-06,
      "loss": 0.6375,
      "step": 754
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.7772520127184093,
      "learning_rate": 9.50885802729947e-06,
      "loss": 0.4499,
      "step": 755
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.6792964813816385,
      "learning_rate": 9.507298988968936e-06,
      "loss": 0.4674,
      "step": 756
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.291161102312927,
      "learning_rate": 9.505737608343127e-06,
      "loss": 0.4734,
      "step": 757
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.534093836575072,
      "learning_rate": 9.504173886233441e-06,
      "loss": 0.5547,
      "step": 758
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.803893833570621,
      "learning_rate": 9.502607823452492e-06,
      "loss": 0.4431,
      "step": 759
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.5176039205966654,
      "learning_rate": 9.501039420814113e-06,
      "loss": 0.6719,
      "step": 760
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.5759913382808834,
      "learning_rate": 9.499468679133348e-06,
      "loss": 0.6847,
      "step": 761
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.5994748697200607,
      "learning_rate": 9.497895599226464e-06,
      "loss": 0.6127,
      "step": 762
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.977238614817392,
      "learning_rate": 9.496320181910938e-06,
      "loss": 0.5722,
      "step": 763
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.835618171746506,
      "learning_rate": 9.494742428005461e-06,
      "loss": 0.7118,
      "step": 764
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.107637708840389,
      "learning_rate": 9.49316233832994e-06,
      "loss": 0.5598,
      "step": 765
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.469138677245526,
      "learning_rate": 9.491579913705497e-06,
      "loss": 0.769,
      "step": 766
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.247252985606608,
      "learning_rate": 9.489995154954466e-06,
      "loss": 0.5279,
      "step": 767
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.409245391538284,
      "learning_rate": 9.488408062900391e-06,
      "loss": 0.6677,
      "step": 768
    },
    {
      "epoch": 0.17,
      "grad_norm": 6.307508570767957,
      "learning_rate": 9.486818638368037e-06,
      "loss": 0.8199,
      "step": 769
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.4379608858366377,
      "learning_rate": 9.485226882183373e-06,
      "loss": 0.6471,
      "step": 770
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.488484660388196,
      "learning_rate": 9.483632795173581e-06,
      "loss": 0.4999,
      "step": 771
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.098335106859248,
      "learning_rate": 9.482036378167058e-06,
      "loss": 0.7118,
      "step": 772
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.363737376973601,
      "learning_rate": 9.48043763199341e-06,
      "loss": 0.7224,
      "step": 773
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.6785216940014087,
      "learning_rate": 9.478836557483448e-06,
      "loss": 0.3623,
      "step": 774
    },
    {
      "epoch": 0.17,
      "grad_norm": 6.888957391837105,
      "learning_rate": 9.477233155469203e-06,
      "loss": 0.6091,
      "step": 775
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.9756052800159525,
      "learning_rate": 9.47562742678391e-06,
      "loss": 0.814,
      "step": 776
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.471356443929384,
      "learning_rate": 9.474019372262012e-06,
      "loss": 0.5982,
      "step": 777
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.644595803062622,
      "learning_rate": 9.47240899273916e-06,
      "loss": 0.4747,
      "step": 778
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.832798178236753,
      "learning_rate": 9.47079628905222e-06,
      "loss": 0.8866,
      "step": 779
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.197177368725569,
      "learning_rate": 9.469181262039258e-06,
      "loss": 0.582,
      "step": 780
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.381450921005752,
      "learning_rate": 9.46756391253955e-06,
      "loss": 0.454,
      "step": 781
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.042952046689046,
      "learning_rate": 9.465944241393582e-06,
      "loss": 0.5159,
      "step": 782
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.8032203095526333,
      "learning_rate": 9.464322249443043e-06,
      "loss": 0.6313,
      "step": 783
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.307260855921538,
      "learning_rate": 9.462697937530828e-06,
      "loss": 0.7974,
      "step": 784
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.064205697481036,
      "learning_rate": 9.46107130650104e-06,
      "loss": 0.9116,
      "step": 785
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.651708512981329,
      "learning_rate": 9.459442357198984e-06,
      "loss": 0.7995,
      "step": 786
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.903309984685869,
      "learning_rate": 9.457811090471174e-06,
      "loss": 0.6058,
      "step": 787
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.995515291713328,
      "learning_rate": 9.456177507165322e-06,
      "loss": 0.6283,
      "step": 788
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.6662920589898813,
      "learning_rate": 9.45454160813035e-06,
      "loss": 0.6682,
      "step": 789
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.506178868589939,
      "learning_rate": 9.452903394216381e-06,
      "loss": 0.7219,
      "step": 790
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.5985263591406462,
      "learning_rate": 9.451262866274742e-06,
      "loss": 0.4764,
      "step": 791
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.834212964659832,
      "learning_rate": 9.44962002515796e-06,
      "loss": 0.4427,
      "step": 792
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.347617232029647,
      "learning_rate": 9.447974871719762e-06,
      "loss": 0.57,
      "step": 793
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.079184585364378,
      "learning_rate": 9.446327406815088e-06,
      "loss": 0.6773,
      "step": 794
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.5172658249745794,
      "learning_rate": 9.444677631300066e-06,
      "loss": 0.6278,
      "step": 795
    },
    {
      "epoch": 0.18,
      "grad_norm": 6.025284120672774,
      "learning_rate": 9.443025546032032e-06,
      "loss": 0.7135,
      "step": 796
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.812595539189442,
      "learning_rate": 9.441371151869519e-06,
      "loss": 0.4964,
      "step": 797
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.682107930869318,
      "learning_rate": 9.439714449672264e-06,
      "loss": 0.3454,
      "step": 798
    },
    {
      "epoch": 0.18,
      "grad_norm": 9.011857196088723,
      "learning_rate": 9.438055440301198e-06,
      "loss": 0.5446,
      "step": 799
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.6178132758499935,
      "learning_rate": 9.436394124618455e-06,
      "loss": 0.6551,
      "step": 800
    },
    {
      "epoch": 0.18,
      "grad_norm": 6.954950715817822,
      "learning_rate": 9.434730503487367e-06,
      "loss": 0.5423,
      "step": 801
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.676543910137715,
      "learning_rate": 9.43306457777246e-06,
      "loss": 0.4959,
      "step": 802
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.368401627085595,
      "learning_rate": 9.431396348339465e-06,
      "loss": 0.6647,
      "step": 803
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.215052470012384,
      "learning_rate": 9.429725816055305e-06,
      "loss": 0.6424,
      "step": 804
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.9514276524903074,
      "learning_rate": 9.428052981788097e-06,
      "loss": 0.4609,
      "step": 805
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.195546262264538,
      "learning_rate": 9.426377846407162e-06,
      "loss": 0.4586,
      "step": 806
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.512237220561799,
      "learning_rate": 9.424700410783014e-06,
      "loss": 0.4487,
      "step": 807
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.333556464990928,
      "learning_rate": 9.423020675787357e-06,
      "loss": 0.7648,
      "step": 808
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.893483027476881,
      "learning_rate": 9.421338642293096e-06,
      "loss": 0.522,
      "step": 809
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.736057709052307,
      "learning_rate": 9.41965431117433e-06,
      "loss": 0.9909,
      "step": 810
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.4030053533298887,
      "learning_rate": 9.417967683306349e-06,
      "loss": 0.4731,
      "step": 811
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.766241385210408,
      "learning_rate": 9.416278759565638e-06,
      "loss": 0.5729,
      "step": 812
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.809235071902285,
      "learning_rate": 9.414587540829875e-06,
      "loss": 0.7184,
      "step": 813
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.0218559706679295,
      "learning_rate": 9.412894027977933e-06,
      "loss": 0.6499,
      "step": 814
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.44320433594244,
      "learning_rate": 9.411198221889872e-06,
      "loss": 0.5721,
      "step": 815
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.157044453409511,
      "learning_rate": 9.409500123446951e-06,
      "loss": 0.5781,
      "step": 816
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.3554256780865166,
      "learning_rate": 9.40779973353161e-06,
      "loss": 0.4511,
      "step": 817
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.038825785537505,
      "learning_rate": 9.406097053027491e-06,
      "loss": 0.603,
      "step": 818
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.782754483967118,
      "learning_rate": 9.404392082819418e-06,
      "loss": 0.6112,
      "step": 819
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.997249170340917,
      "learning_rate": 9.402684823793411e-06,
      "loss": 0.4344,
      "step": 820
    },
    {
      "epoch": 0.18,
      "grad_norm": 6.590409067967203,
      "learning_rate": 9.400975276836673e-06,
      "loss": 0.4598,
      "step": 821
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.349628575362266,
      "learning_rate": 9.399263442837602e-06,
      "loss": 0.6391,
      "step": 822
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.3044874614955377,
      "learning_rate": 9.39754932268578e-06,
      "loss": 0.6527,
      "step": 823
    },
    {
      "epoch": 0.18,
      "grad_norm": 5.572715097679225,
      "learning_rate": 9.39583291727198e-06,
      "loss": 0.5336,
      "step": 824
    },
    {
      "epoch": 0.18,
      "grad_norm": 6.36985069475686,
      "learning_rate": 9.394114227488164e-06,
      "loss": 0.9511,
      "step": 825
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.9396843519950964,
      "learning_rate": 9.392393254227474e-06,
      "loss": 0.7726,
      "step": 826
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.6848346168072625,
      "learning_rate": 9.390669998384245e-06,
      "loss": 0.6947,
      "step": 827
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.395299725817679,
      "learning_rate": 9.388944460853999e-06,
      "loss": 0.9184,
      "step": 828
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.4546335554011303,
      "learning_rate": 9.387216642533436e-06,
      "loss": 0.5018,
      "step": 829
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.391619584020848,
      "learning_rate": 9.385486544320452e-06,
      "loss": 0.6842,
      "step": 830
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.070448010845187,
      "learning_rate": 9.38375416711412e-06,
      "loss": 0.769,
      "step": 831
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.7894772687366545,
      "learning_rate": 9.382019511814698e-06,
      "loss": 0.541,
      "step": 832
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.847246881743514,
      "learning_rate": 9.380282579323632e-06,
      "loss": 0.7161,
      "step": 833
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.6894242843228824,
      "learning_rate": 9.378543370543546e-06,
      "loss": 0.5469,
      "step": 834
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.8138914629296137,
      "learning_rate": 9.376801886378252e-06,
      "loss": 0.5567,
      "step": 835
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.979254814965607,
      "learning_rate": 9.37505812773274e-06,
      "loss": 0.6875,
      "step": 836
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.6733995002535758,
      "learning_rate": 9.373312095513187e-06,
      "loss": 0.5962,
      "step": 837
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.468072830613126,
      "learning_rate": 9.371563790626947e-06,
      "loss": 0.4953,
      "step": 838
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.840094459135715,
      "learning_rate": 9.369813213982557e-06,
      "loss": 0.6706,
      "step": 839
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.9536337053003514,
      "learning_rate": 9.368060366489733e-06,
      "loss": 0.5048,
      "step": 840
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.790325087315979,
      "learning_rate": 9.366305249059373e-06,
      "loss": 0.5715,
      "step": 841
    },
    {
      "epoch": 0.19,
      "grad_norm": 6.359655456352721,
      "learning_rate": 9.364547862603554e-06,
      "loss": 0.521,
      "step": 842
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.924981847496828,
      "learning_rate": 9.362788208035534e-06,
      "loss": 0.7337,
      "step": 843
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.647922047044762,
      "learning_rate": 9.361026286269743e-06,
      "loss": 0.6303,
      "step": 844
    },
    {
      "epoch": 0.19,
      "grad_norm": 5.647251562775223,
      "learning_rate": 9.359262098221798e-06,
      "loss": 0.7605,
      "step": 845
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.251738835771626,
      "learning_rate": 9.35749564480849e-06,
      "loss": 0.7177,
      "step": 846
    },
    {
      "epoch": 0.19,
      "grad_norm": 10.057038710633176,
      "learning_rate": 9.355726926947782e-06,
      "loss": 0.7794,
      "step": 847
    },
    {
      "epoch": 0.19,
      "grad_norm": 5.419619126925575,
      "learning_rate": 9.353955945558824e-06,
      "loss": 0.5912,
      "step": 848
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.3820038969924116,
      "learning_rate": 9.352182701561932e-06,
      "loss": 0.4174,
      "step": 849
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.5211211552707713,
      "learning_rate": 9.350407195878607e-06,
      "loss": 0.6179,
      "step": 850
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.3954702693001297,
      "learning_rate": 9.34862942943152e-06,
      "loss": 0.4362,
      "step": 851
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.7782176404780605,
      "learning_rate": 9.346849403144515e-06,
      "loss": 0.6034,
      "step": 852
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.8567260072750282,
      "learning_rate": 9.345067117942617e-06,
      "loss": 0.6066,
      "step": 853
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.711125851574583,
      "learning_rate": 9.34328257475202e-06,
      "loss": 0.6166,
      "step": 854
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.171826514382551,
      "learning_rate": 9.34149577450009e-06,
      "loss": 0.7577,
      "step": 855
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.4506317564687645,
      "learning_rate": 9.33970671811537e-06,
      "loss": 0.5475,
      "step": 856
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.5495428965627327,
      "learning_rate": 9.337915406527576e-06,
      "loss": 0.6809,
      "step": 857
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.7658810050907623,
      "learning_rate": 9.33612184066759e-06,
      "loss": 0.4587,
      "step": 858
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.802513999276701,
      "learning_rate": 9.334326021467473e-06,
      "loss": 0.6049,
      "step": 859
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.039496811720628,
      "learning_rate": 9.332527949860453e-06,
      "loss": 0.4207,
      "step": 860
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.622769823764369,
      "learning_rate": 9.330727626780924e-06,
      "loss": 0.6037,
      "step": 861
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.599278660228561,
      "learning_rate": 9.32892505316446e-06,
      "loss": 0.5231,
      "step": 862
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.347392754395111,
      "learning_rate": 9.327120229947796e-06,
      "loss": 0.7433,
      "step": 863
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.6849532053259852,
      "learning_rate": 9.325313158068841e-06,
      "loss": 0.4862,
      "step": 864
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.3994073072718187,
      "learning_rate": 9.323503838466672e-06,
      "loss": 0.649,
      "step": 865
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.9319664050652348,
      "learning_rate": 9.32169227208153e-06,
      "loss": 0.7433,
      "step": 866
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.455118377951799,
      "learning_rate": 9.31987845985483e-06,
      "loss": 0.5277,
      "step": 867
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.058565540193094,
      "learning_rate": 9.318062402729146e-06,
      "loss": 0.6973,
      "step": 868
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.380924593287813,
      "learning_rate": 9.316244101648229e-06,
      "loss": 0.6272,
      "step": 869
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.4334975414014335,
      "learning_rate": 9.314423557556986e-06,
      "loss": 0.5727,
      "step": 870
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.564886256434493,
      "learning_rate": 9.312600771401497e-06,
      "loss": 0.4518,
      "step": 871
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.611920813600284,
      "learning_rate": 9.310775744129e-06,
      "loss": 0.5709,
      "step": 872
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.433438396676524,
      "learning_rate": 9.308948476687906e-06,
      "loss": 0.4525,
      "step": 873
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.071011488015759,
      "learning_rate": 9.307118970027785e-06,
      "loss": 0.689,
      "step": 874
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.4715574351483705,
      "learning_rate": 9.305287225099368e-06,
      "loss": 0.6098,
      "step": 875
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.925548924035003,
      "learning_rate": 9.30345324285456e-06,
      "loss": 0.4351,
      "step": 876
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.609595071376501,
      "learning_rate": 9.301617024246412e-06,
      "loss": 0.7885,
      "step": 877
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.438946080947832,
      "learning_rate": 9.299778570229153e-06,
      "loss": 0.5241,
      "step": 878
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.244000192279449,
      "learning_rate": 9.297937881758165e-06,
      "loss": 0.5145,
      "step": 879
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.608488916684569,
      "learning_rate": 9.296094959789994e-06,
      "loss": 0.4555,
      "step": 880
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.8414340291626674,
      "learning_rate": 9.294249805282347e-06,
      "loss": 0.5644,
      "step": 881
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.637712375845122,
      "learning_rate": 9.292402419194088e-06,
      "loss": 0.5757,
      "step": 882
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.1635545295817646,
      "learning_rate": 9.290552802485246e-06,
      "loss": 0.5202,
      "step": 883
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.292581833041956,
      "learning_rate": 9.288700956117001e-06,
      "loss": 0.5745,
      "step": 884
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.278078492984872,
      "learning_rate": 9.286846881051703e-06,
      "loss": 0.6615,
      "step": 885
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.7699889011108136,
      "learning_rate": 9.284990578252848e-06,
      "loss": 0.4161,
      "step": 886
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.7388520276163,
      "learning_rate": 9.2831320486851e-06,
      "loss": 0.5907,
      "step": 887
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.46285975398035,
      "learning_rate": 9.281271293314272e-06,
      "loss": 0.6228,
      "step": 888
    },
    {
      "epoch": 0.2,
      "grad_norm": 6.031569121440409,
      "learning_rate": 9.279408313107342e-06,
      "loss": 0.6725,
      "step": 889
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.614610164831533,
      "learning_rate": 9.277543109032434e-06,
      "loss": 0.495,
      "step": 890
    },
    {
      "epoch": 0.2,
      "grad_norm": 5.597660572359653,
      "learning_rate": 9.275675682058837e-06,
      "loss": 0.5598,
      "step": 891
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.9867529597112434,
      "learning_rate": 9.273806033156994e-06,
      "loss": 0.4545,
      "step": 892
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.0114010591629814,
      "learning_rate": 9.271934163298496e-06,
      "loss": 0.5778,
      "step": 893
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.23847007870325,
      "learning_rate": 9.270060073456093e-06,
      "loss": 0.5869,
      "step": 894
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.4206949737271577,
      "learning_rate": 9.268183764603688e-06,
      "loss": 0.6049,
      "step": 895
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.4268010043218675,
      "learning_rate": 9.266305237716337e-06,
      "loss": 0.7231,
      "step": 896
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.606829016672558,
      "learning_rate": 9.26442449377025e-06,
      "loss": 0.7023,
      "step": 897
    },
    {
      "epoch": 0.2,
      "grad_norm": 5.965643205880041,
      "learning_rate": 9.262541533742787e-06,
      "loss": 0.763,
      "step": 898
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.174755086537923,
      "learning_rate": 9.260656358612461e-06,
      "loss": 0.3862,
      "step": 899
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.594519446983731,
      "learning_rate": 9.258768969358934e-06,
      "loss": 0.5246,
      "step": 900
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.3931521508016944,
      "learning_rate": 9.256879366963023e-06,
      "loss": 0.556,
      "step": 901
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.398567971470074,
      "learning_rate": 9.254987552406689e-06,
      "loss": 0.4542,
      "step": 902
    },
    {
      "epoch": 0.2,
      "grad_norm": 5.086874216932346,
      "learning_rate": 9.253093526673049e-06,
      "loss": 0.7727,
      "step": 903
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.481166295144254,
      "learning_rate": 9.251197290746364e-06,
      "loss": 0.6123,
      "step": 904
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.8536316857331916,
      "learning_rate": 9.249298845612045e-06,
      "loss": 0.5901,
      "step": 905
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.83375422292947,
      "learning_rate": 9.247398192256653e-06,
      "loss": 0.7921,
      "step": 906
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.3733540527487285,
      "learning_rate": 9.245495331667898e-06,
      "loss": 0.5849,
      "step": 907
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.1393651672086555,
      "learning_rate": 9.243590264834627e-06,
      "loss": 0.7242,
      "step": 908
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.6773947128236513,
      "learning_rate": 9.241682992746847e-06,
      "loss": 0.6499,
      "step": 909
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.5564150562089605,
      "learning_rate": 9.239773516395702e-06,
      "loss": 0.6549,
      "step": 910
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.7605138507611215,
      "learning_rate": 9.237861836773484e-06,
      "loss": 0.4249,
      "step": 911
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.232420308515294,
      "learning_rate": 9.23594795487363e-06,
      "loss": 0.5895,
      "step": 912
    },
    {
      "epoch": 0.2,
      "grad_norm": 6.110119036271329,
      "learning_rate": 9.234031871690723e-06,
      "loss": 0.5468,
      "step": 913
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.962923911949888,
      "learning_rate": 9.232113588220488e-06,
      "loss": 0.5614,
      "step": 914
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.471618870480447,
      "learning_rate": 9.230193105459794e-06,
      "loss": 0.5529,
      "step": 915
    },
    {
      "epoch": 0.2,
      "grad_norm": 5.567937364555544,
      "learning_rate": 9.228270424406652e-06,
      "loss": 0.7872,
      "step": 916
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.379711740800703,
      "learning_rate": 9.226345546060216e-06,
      "loss": 0.4955,
      "step": 917
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.927486368029957,
      "learning_rate": 9.224418471420785e-06,
      "loss": 0.5181,
      "step": 918
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.211408414441104,
      "learning_rate": 9.222489201489792e-06,
      "loss": 0.5633,
      "step": 919
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.714712738979349,
      "learning_rate": 9.220557737269817e-06,
      "loss": 0.5445,
      "step": 920
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.094185551557832,
      "learning_rate": 9.21862407976458e-06,
      "loss": 0.4723,
      "step": 921
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.4960725369429553,
      "learning_rate": 9.216688229978939e-06,
      "loss": 0.5774,
      "step": 922
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.69179226726631,
      "learning_rate": 9.214750188918891e-06,
      "loss": 0.8987,
      "step": 923
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.6552218780699635,
      "learning_rate": 9.212809957591571e-06,
      "loss": 0.7832,
      "step": 924
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.911546027174613,
      "learning_rate": 9.210867537005253e-06,
      "loss": 0.3437,
      "step": 925
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.710117173549852,
      "learning_rate": 9.208922928169353e-06,
      "loss": 0.5474,
      "step": 926
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.1506225126093605,
      "learning_rate": 9.206976132094418e-06,
      "loss": 0.5286,
      "step": 927
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.5858936606650813,
      "learning_rate": 9.205027149792133e-06,
      "loss": 0.4551,
      "step": 928
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.2215806358053145,
      "learning_rate": 9.203075982275323e-06,
      "loss": 0.5894,
      "step": 929
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.6334065882382696,
      "learning_rate": 9.201122630557944e-06,
      "loss": 0.5222,
      "step": 930
    },
    {
      "epoch": 0.21,
      "grad_norm": 7.266182986844627,
      "learning_rate": 9.199167095655087e-06,
      "loss": 0.5055,
      "step": 931
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.394351129418764,
      "learning_rate": 9.197209378582982e-06,
      "loss": 0.7251,
      "step": 932
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.405601477521309,
      "learning_rate": 9.195249480358988e-06,
      "loss": 0.5982,
      "step": 933
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.8747986959637277,
      "learning_rate": 9.193287402001603e-06,
      "loss": 0.4884,
      "step": 934
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.195313930399752,
      "learning_rate": 9.19132314453045e-06,
      "loss": 0.5133,
      "step": 935
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.765950371208755,
      "learning_rate": 9.189356708966296e-06,
      "loss": 0.3328,
      "step": 936
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.293482865798571,
      "learning_rate": 9.187388096331024e-06,
      "loss": 0.5246,
      "step": 937
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.608612011402066,
      "learning_rate": 9.185417307647665e-06,
      "loss": 0.7167,
      "step": 938
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.288015445800485,
      "learning_rate": 9.18344434394037e-06,
      "loss": 0.5332,
      "step": 939
    },
    {
      "epoch": 0.21,
      "grad_norm": 6.104627672022495,
      "learning_rate": 9.181469206234424e-06,
      "loss": 0.7482,
      "step": 940
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.330144876639473,
      "learning_rate": 9.179491895556239e-06,
      "loss": 0.6412,
      "step": 941
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.313677265967192,
      "learning_rate": 9.177512412933362e-06,
      "loss": 0.5898,
      "step": 942
    },
    {
      "epoch": 0.21,
      "grad_norm": 5.278371377959696,
      "learning_rate": 9.175530759394462e-06,
      "loss": 0.7957,
      "step": 943
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.2073660815464335,
      "learning_rate": 9.173546935969344e-06,
      "loss": 0.5629,
      "step": 944
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.51140026732404,
      "learning_rate": 9.17156094368893e-06,
      "loss": 0.5686,
      "step": 945
    },
    {
      "epoch": 0.21,
      "grad_norm": 7.270942193596787,
      "learning_rate": 9.169572783585278e-06,
      "loss": 0.7166,
      "step": 946
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.7363243236796095,
      "learning_rate": 9.16758245669157e-06,
      "loss": 0.5184,
      "step": 947
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.081364990899609,
      "learning_rate": 9.165589964042111e-06,
      "loss": 0.7282,
      "step": 948
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.028529007392057,
      "learning_rate": 9.163595306672337e-06,
      "loss": 0.5747,
      "step": 949
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.208853874907201,
      "learning_rate": 9.161598485618805e-06,
      "loss": 0.4767,
      "step": 950
    },
    {
      "epoch": 0.21,
      "grad_norm": 5.414679154703702,
      "learning_rate": 9.159599501919195e-06,
      "loss": 0.6101,
      "step": 951
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.0025854713957267,
      "learning_rate": 9.157598356612316e-06,
      "loss": 0.6951,
      "step": 952
    },
    {
      "epoch": 0.21,
      "grad_norm": 7.26463915606702,
      "learning_rate": 9.155595050738097e-06,
      "loss": 0.5069,
      "step": 953
    },
    {
      "epoch": 0.21,
      "grad_norm": 5.139752196574825,
      "learning_rate": 9.15358958533759e-06,
      "loss": 0.8406,
      "step": 954
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.91030651234792,
      "learning_rate": 9.15158196145297e-06,
      "loss": 0.6496,
      "step": 955
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.573908276227052,
      "learning_rate": 9.149572180127533e-06,
      "loss": 0.5315,
      "step": 956
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.6394832690731183,
      "learning_rate": 9.147560242405692e-06,
      "loss": 0.492,
      "step": 957
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.194052726996012,
      "learning_rate": 9.145546149332993e-06,
      "loss": 0.4787,
      "step": 958
    },
    {
      "epoch": 0.21,
      "grad_norm": 6.845973651288759,
      "learning_rate": 9.143529901956089e-06,
      "loss": 0.7577,
      "step": 959
    },
    {
      "epoch": 0.21,
      "grad_norm": 5.175648100603961,
      "learning_rate": 9.141511501322759e-06,
      "loss": 0.6767,
      "step": 960
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.192291952582607,
      "learning_rate": 9.1394909484819e-06,
      "loss": 0.3955,
      "step": 961
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.597405360188181,
      "learning_rate": 9.137468244483523e-06,
      "loss": 0.5584,
      "step": 962
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.5382399633633375,
      "learning_rate": 9.135443390378766e-06,
      "loss": 0.3833,
      "step": 963
    },
    {
      "epoch": 0.21,
      "grad_norm": 5.921595798545951,
      "learning_rate": 9.133416387219875e-06,
      "loss": 0.6803,
      "step": 964
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.9862982910119875,
      "learning_rate": 9.13138723606022e-06,
      "loss": 0.6088,
      "step": 965
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.782163973086651,
      "learning_rate": 9.129355937954285e-06,
      "loss": 0.6513,
      "step": 966
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.11586559601368,
      "learning_rate": 9.127322493957666e-06,
      "loss": 0.6569,
      "step": 967
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.9892018518926027,
      "learning_rate": 9.125286905127077e-06,
      "loss": 0.6505,
      "step": 968
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.602829536095056,
      "learning_rate": 9.12324917252035e-06,
      "loss": 0.785,
      "step": 969
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.435668395369497,
      "learning_rate": 9.121209297196425e-06,
      "loss": 0.4945,
      "step": 970
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.743526741057947,
      "learning_rate": 9.119167280215359e-06,
      "loss": 0.638,
      "step": 971
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.138080412897555,
      "learning_rate": 9.11712312263832e-06,
      "loss": 0.4005,
      "step": 972
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.401236335031403,
      "learning_rate": 9.115076825527592e-06,
      "loss": 0.6457,
      "step": 973
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.903743756218556,
      "learning_rate": 9.113028389946566e-06,
      "loss": 0.639,
      "step": 974
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.579670011979744,
      "learning_rate": 9.110977816959747e-06,
      "loss": 0.6651,
      "step": 975
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.399896348889974,
      "learning_rate": 9.108925107632753e-06,
      "loss": 0.5342,
      "step": 976
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.763840970371698,
      "learning_rate": 9.106870263032308e-06,
      "loss": 0.5393,
      "step": 977
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.5582439133511903,
      "learning_rate": 9.104813284226246e-06,
      "loss": 0.6152,
      "step": 978
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.817328299019206,
      "learning_rate": 9.102754172283513e-06,
      "loss": 0.8713,
      "step": 979
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.478243081647949,
      "learning_rate": 9.10069292827416e-06,
      "loss": 0.801,
      "step": 980
    },
    {
      "epoch": 0.22,
      "grad_norm": 6.026074896592833,
      "learning_rate": 9.098629553269348e-06,
      "loss": 0.9022,
      "step": 981
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.512164924236602,
      "learning_rate": 9.09656404834135e-06,
      "loss": 0.4168,
      "step": 982
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.757562858251543,
      "learning_rate": 9.094496414563537e-06,
      "loss": 0.4035,
      "step": 983
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.0102251593162173,
      "learning_rate": 9.092426653010388e-06,
      "loss": 0.6073,
      "step": 984
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.5357692064366524,
      "learning_rate": 9.090354764757494e-06,
      "loss": 0.6581,
      "step": 985
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.991318550966979,
      "learning_rate": 9.088280750881546e-06,
      "loss": 0.8455,
      "step": 986
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.814599133749227,
      "learning_rate": 9.086204612460343e-06,
      "loss": 0.6604,
      "step": 987
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.118089791587391,
      "learning_rate": 9.084126350572782e-06,
      "loss": 0.3995,
      "step": 988
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.177685333590339,
      "learning_rate": 9.082045966298871e-06,
      "loss": 0.6412,
      "step": 989
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.266974123172227,
      "learning_rate": 9.079963460719716e-06,
      "loss": 0.7325,
      "step": 990
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.232361746940253,
      "learning_rate": 9.077878834917525e-06,
      "loss": 0.5353,
      "step": 991
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.30749951762152,
      "learning_rate": 9.075792089975613e-06,
      "loss": 0.6781,
      "step": 992
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.174885825490225,
      "learning_rate": 9.07370322697839e-06,
      "loss": 0.5067,
      "step": 993
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.7592515350726714,
      "learning_rate": 9.07161224701137e-06,
      "loss": 0.7726,
      "step": 994
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.9581980972595603,
      "learning_rate": 9.069519151161168e-06,
      "loss": 0.519,
      "step": 995
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.378793791774043,
      "learning_rate": 9.067423940515496e-06,
      "loss": 0.5139,
      "step": 996
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.164139374776752,
      "learning_rate": 9.065326616163168e-06,
      "loss": 0.533,
      "step": 997
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.619505637412487,
      "learning_rate": 9.063227179194091e-06,
      "loss": 0.4787,
      "step": 998
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.7453887457972526,
      "learning_rate": 9.061125630699276e-06,
      "loss": 0.5441,
      "step": 999
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.327211462830511,
      "learning_rate": 9.059021971770829e-06,
      "loss": 0.7479,
      "step": 1000
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.21480203102081,
      "learning_rate": 9.056916203501953e-06,
      "loss": 0.637,
      "step": 1001
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.876568980185017,
      "learning_rate": 9.054808326986944e-06,
      "loss": 0.6134,
      "step": 1002
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.319668837060347,
      "learning_rate": 9.052698343321198e-06,
      "loss": 0.4889,
      "step": 1003
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.4280920949806015,
      "learning_rate": 9.050586253601203e-06,
      "loss": 0.3862,
      "step": 1004
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.09217497424728,
      "learning_rate": 9.048472058924545e-06,
      "loss": 0.6913,
      "step": 1005
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.354818094912646,
      "learning_rate": 9.0463557603899e-06,
      "loss": 0.6209,
      "step": 1006
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.549484245269125,
      "learning_rate": 9.044237359097038e-06,
      "loss": 0.7586,
      "step": 1007
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.2344720756774623,
      "learning_rate": 9.042116856146825e-06,
      "loss": 0.4938,
      "step": 1008
    },
    {
      "epoch": 0.22,
      "grad_norm": 4.912460675992253,
      "learning_rate": 9.039994252641214e-06,
      "loss": 0.5741,
      "step": 1009
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.967998025064699,
      "learning_rate": 9.037869549683253e-06,
      "loss": 0.5588,
      "step": 1010
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.199190303187601,
      "learning_rate": 9.035742748377082e-06,
      "loss": 0.6607,
      "step": 1011
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.8359022705144707,
      "learning_rate": 9.033613849827929e-06,
      "loss": 0.5741,
      "step": 1012
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.596498953424214,
      "learning_rate": 9.031482855142113e-06,
      "loss": 0.5402,
      "step": 1013
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.2440785350926857,
      "learning_rate": 9.02934976542704e-06,
      "loss": 0.5033,
      "step": 1014
    },
    {
      "epoch": 0.23,
      "grad_norm": 5.577754425206812,
      "learning_rate": 9.027214581791208e-06,
      "loss": 0.7267,
      "step": 1015
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.664933473466916,
      "learning_rate": 9.025077305344202e-06,
      "loss": 0.5637,
      "step": 1016
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.65792032154312,
      "learning_rate": 9.022937937196693e-06,
      "loss": 0.2912,
      "step": 1017
    },
    {
      "epoch": 0.23,
      "grad_norm": 5.006909606794757,
      "learning_rate": 9.020796478460446e-06,
      "loss": 0.6593,
      "step": 1018
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.9092056983620282,
      "learning_rate": 9.018652930248299e-06,
      "loss": 0.5797,
      "step": 1019
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.855829169740637,
      "learning_rate": 9.016507293674188e-06,
      "loss": 0.7318,
      "step": 1020
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.409132237899166,
      "learning_rate": 9.014359569853129e-06,
      "loss": 0.5943,
      "step": 1021
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.697364856717226,
      "learning_rate": 9.012209759901224e-06,
      "loss": 0.4961,
      "step": 1022
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.99929244701407,
      "learning_rate": 9.010057864935657e-06,
      "loss": 0.6677,
      "step": 1023
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.027340964903578,
      "learning_rate": 9.007903886074699e-06,
      "loss": 0.7431,
      "step": 1024
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.2030666082033052,
      "learning_rate": 9.0057478244377e-06,
      "loss": 0.6202,
      "step": 1025
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.7247096933562203,
      "learning_rate": 9.003589681145097e-06,
      "loss": 0.7228,
      "step": 1026
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.1472830837981505,
      "learning_rate": 9.001429457318405e-06,
      "loss": 0.4181,
      "step": 1027
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.734136201629072,
      "learning_rate": 8.999267154080223e-06,
      "loss": 0.5936,
      "step": 1028
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.438480553743763,
      "learning_rate": 8.997102772554226e-06,
      "loss": 0.6896,
      "step": 1029
    },
    {
      "epoch": 0.23,
      "grad_norm": 5.684512085906594,
      "learning_rate": 8.994936313865173e-06,
      "loss": 0.8444,
      "step": 1030
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.1908718780065395,
      "learning_rate": 8.9927677791389e-06,
      "loss": 0.7734,
      "step": 1031
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.4842365791616605,
      "learning_rate": 8.990597169502328e-06,
      "loss": 0.4958,
      "step": 1032
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.925372442059897,
      "learning_rate": 8.988424486083447e-06,
      "loss": 0.4172,
      "step": 1033
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.07439441634014,
      "learning_rate": 8.986249730011332e-06,
      "loss": 0.7652,
      "step": 1034
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.4862197487763096,
      "learning_rate": 8.98407290241613e-06,
      "loss": 0.489,
      "step": 1035
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.486139176237159,
      "learning_rate": 8.98189400442907e-06,
      "loss": 0.4268,
      "step": 1036
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.8296260365902057,
      "learning_rate": 8.97971303718245e-06,
      "loss": 0.7911,
      "step": 1037
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.214707056011732,
      "learning_rate": 8.977530001809649e-06,
      "loss": 0.7383,
      "step": 1038
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.9464871560123296,
      "learning_rate": 8.975344899445119e-06,
      "loss": 0.6147,
      "step": 1039
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.547762214008648,
      "learning_rate": 8.973157731224387e-06,
      "loss": 0.6588,
      "step": 1040
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.9606680189385695,
      "learning_rate": 8.970968498284048e-06,
      "loss": 0.6684,
      "step": 1041
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.9123064792618902,
      "learning_rate": 8.96877720176178e-06,
      "loss": 0.5561,
      "step": 1042
    },
    {
      "epoch": 0.23,
      "grad_norm": 5.134109417782729,
      "learning_rate": 8.966583842796324e-06,
      "loss": 0.7365,
      "step": 1043
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.083563963800248,
      "learning_rate": 8.964388422527497e-06,
      "loss": 0.521,
      "step": 1044
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.6107411698263983,
      "learning_rate": 8.96219094209619e-06,
      "loss": 0.4819,
      "step": 1045
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.9283670623393263,
      "learning_rate": 8.95999140264436e-06,
      "loss": 0.554,
      "step": 1046
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.4628572871383185,
      "learning_rate": 8.957789805315032e-06,
      "loss": 0.6346,
      "step": 1047
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.839597688413068,
      "learning_rate": 8.955586151252306e-06,
      "loss": 0.5913,
      "step": 1048
    },
    {
      "epoch": 0.23,
      "grad_norm": 6.184019404037828,
      "learning_rate": 8.953380441601352e-06,
      "loss": 0.7057,
      "step": 1049
    },
    {
      "epoch": 0.23,
      "grad_norm": 5.164233202502493,
      "learning_rate": 8.951172677508402e-06,
      "loss": 0.771,
      "step": 1050
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.6295512318676355,
      "learning_rate": 8.948962860120756e-06,
      "loss": 0.588,
      "step": 1051
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.55761806860429,
      "learning_rate": 8.946750990586787e-06,
      "loss": 0.7333,
      "step": 1052
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.4483305261994093,
      "learning_rate": 8.94453707005593e-06,
      "loss": 0.466,
      "step": 1053
    },
    {
      "epoch": 0.23,
      "grad_norm": 6.754505704735692,
      "learning_rate": 8.942321099678688e-06,
      "loss": 0.744,
      "step": 1054
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.461767947982368,
      "learning_rate": 8.940103080606628e-06,
      "loss": 0.7356,
      "step": 1055
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.336180629585214,
      "learning_rate": 8.937883013992376e-06,
      "loss": 0.3736,
      "step": 1056
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.9823582947913128,
      "learning_rate": 8.935660900989636e-06,
      "loss": 0.8238,
      "step": 1057
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.186448472039417,
      "learning_rate": 8.933436742753163e-06,
      "loss": 0.7281,
      "step": 1058
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.82736047060694,
      "learning_rate": 8.931210540438778e-06,
      "loss": 0.7347,
      "step": 1059
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.276837587778671,
      "learning_rate": 8.928982295203369e-06,
      "loss": 0.4855,
      "step": 1060
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.186422252953209,
      "learning_rate": 8.926752008204877e-06,
      "loss": 0.643,
      "step": 1061
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.190741887597335,
      "learning_rate": 8.924519680602313e-06,
      "loss": 0.7165,
      "step": 1062
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.766891744894122,
      "learning_rate": 8.92228531355574e-06,
      "loss": 0.5815,
      "step": 1063
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.207561942968589,
      "learning_rate": 8.920048908226293e-06,
      "loss": 0.3946,
      "step": 1064
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.409931729685717,
      "learning_rate": 8.91781046577615e-06,
      "loss": 0.8255,
      "step": 1065
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.294744675643927,
      "learning_rate": 8.91556998736856e-06,
      "loss": 0.5657,
      "step": 1066
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.459538894925386,
      "learning_rate": 8.913327474167826e-06,
      "loss": 0.6992,
      "step": 1067
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.070123382155457,
      "learning_rate": 8.911082927339307e-06,
      "loss": 0.5725,
      "step": 1068
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.8486438680254444,
      "learning_rate": 8.908836348049421e-06,
      "loss": 0.5567,
      "step": 1069
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.350152182625342,
      "learning_rate": 8.906587737465642e-06,
      "loss": 0.663,
      "step": 1070
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.7364884021836193,
      "learning_rate": 8.9043370967565e-06,
      "loss": 0.792,
      "step": 1071
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.013545629411882,
      "learning_rate": 8.902084427091578e-06,
      "loss": 0.5873,
      "step": 1072
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.220141341443277,
      "learning_rate": 8.899829729641514e-06,
      "loss": 0.4578,
      "step": 1073
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.501793089193022,
      "learning_rate": 8.897573005578e-06,
      "loss": 0.7303,
      "step": 1074
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.782997688223863,
      "learning_rate": 8.895314256073782e-06,
      "loss": 0.5516,
      "step": 1075
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.39793991749636,
      "learning_rate": 8.893053482302657e-06,
      "loss": 0.6176,
      "step": 1076
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.0196250654244166,
      "learning_rate": 8.890790685439477e-06,
      "loss": 0.5785,
      "step": 1077
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.642336629724217,
      "learning_rate": 8.888525866660142e-06,
      "loss": 0.6972,
      "step": 1078
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.733720651078491,
      "learning_rate": 8.886259027141603e-06,
      "loss": 0.8177,
      "step": 1079
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.6510044463365405,
      "learning_rate": 8.883990168061865e-06,
      "loss": 0.6463,
      "step": 1080
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.7951080072723062,
      "learning_rate": 8.881719290599976e-06,
      "loss": 0.6456,
      "step": 1081
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.4540936415986816,
      "learning_rate": 8.879446395936038e-06,
      "loss": 0.3866,
      "step": 1082
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.691162714643948,
      "learning_rate": 8.877171485251199e-06,
      "loss": 0.5203,
      "step": 1083
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.2186350577237794,
      "learning_rate": 8.874894559727658e-06,
      "loss": 0.8283,
      "step": 1084
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.032760513558381,
      "learning_rate": 8.872615620548656e-06,
      "loss": 0.5181,
      "step": 1085
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.5000852305940158,
      "learning_rate": 8.870334668898483e-06,
      "loss": 0.6493,
      "step": 1086
    },
    {
      "epoch": 0.24,
      "grad_norm": 6.119227242532373,
      "learning_rate": 8.868051705962475e-06,
      "loss": 0.8999,
      "step": 1087
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.283394514606479,
      "learning_rate": 8.865766732927012e-06,
      "loss": 0.7881,
      "step": 1088
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.967997666294243,
      "learning_rate": 8.863479750979523e-06,
      "loss": 0.707,
      "step": 1089
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.3667470472405414,
      "learning_rate": 8.861190761308473e-06,
      "loss": 0.5603,
      "step": 1090
    },
    {
      "epoch": 0.24,
      "grad_norm": 6.179088537990158,
      "learning_rate": 8.858899765103377e-06,
      "loss": 0.7372,
      "step": 1091
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.879041083195493,
      "learning_rate": 8.856606763554791e-06,
      "loss": 0.5582,
      "step": 1092
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.4500085391368565,
      "learning_rate": 8.854311757854311e-06,
      "loss": 0.442,
      "step": 1093
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.772438280053542,
      "learning_rate": 8.852014749194576e-06,
      "loss": 0.6156,
      "step": 1094
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.725963786684394,
      "learning_rate": 8.849715738769267e-06,
      "loss": 0.5721,
      "step": 1095
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.9296651994363083,
      "learning_rate": 8.847414727773105e-06,
      "loss": 0.7005,
      "step": 1096
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.099470672729887,
      "learning_rate": 8.845111717401849e-06,
      "loss": 0.5045,
      "step": 1097
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.7677199873501546,
      "learning_rate": 8.842806708852296e-06,
      "loss": 0.704,
      "step": 1098
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.831155200588877,
      "learning_rate": 8.840499703322286e-06,
      "loss": 0.546,
      "step": 1099
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.958091570331992,
      "learning_rate": 8.838190702010694e-06,
      "loss": 0.6779,
      "step": 1100
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.5467422620647184,
      "learning_rate": 8.83587970611743e-06,
      "loss": 0.6458,
      "step": 1101
    },
    {
      "epoch": 0.25,
      "grad_norm": 5.14496109884059,
      "learning_rate": 8.833566716843443e-06,
      "loss": 0.6812,
      "step": 1102
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.009964406709206,
      "learning_rate": 8.83125173539072e-06,
      "loss": 0.6698,
      "step": 1103
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.914206164292283,
      "learning_rate": 8.828934762962279e-06,
      "loss": 0.7612,
      "step": 1104
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.019434429105131,
      "learning_rate": 8.826615800762172e-06,
      "loss": 0.8177,
      "step": 1105
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.6478978715405077,
      "learning_rate": 8.824294849995492e-06,
      "loss": 0.6695,
      "step": 1106
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.8007952421022932,
      "learning_rate": 8.821971911868361e-06,
      "loss": 0.6586,
      "step": 1107
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.061254193314825,
      "learning_rate": 8.819646987587931e-06,
      "loss": 0.8242,
      "step": 1108
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.2468655126886645,
      "learning_rate": 8.817320078362388e-06,
      "loss": 0.6045,
      "step": 1109
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.4074159709281666,
      "learning_rate": 8.814991185400953e-06,
      "loss": 0.4958,
      "step": 1110
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.3940049748829377,
      "learning_rate": 8.812660309913873e-06,
      "loss": 0.4063,
      "step": 1111
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.8074354798266445,
      "learning_rate": 8.81032745311243e-06,
      "loss": 0.4947,
      "step": 1112
    },
    {
      "epoch": 0.25,
      "grad_norm": 5.117043314391987,
      "learning_rate": 8.807992616208931e-06,
      "loss": 0.7,
      "step": 1113
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.2252490924401553,
      "learning_rate": 8.805655800416716e-06,
      "loss": 0.4738,
      "step": 1114
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.8419633419984867,
      "learning_rate": 8.80331700695015e-06,
      "loss": 0.7196,
      "step": 1115
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.1989825194255745,
      "learning_rate": 8.800976237024625e-06,
      "loss": 0.4074,
      "step": 1116
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.6895216895232754,
      "learning_rate": 8.798633491856565e-06,
      "loss": 0.4896,
      "step": 1117
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.8479006930202484,
      "learning_rate": 8.79628877266342e-06,
      "loss": 0.5294,
      "step": 1118
    },
    {
      "epoch": 0.25,
      "grad_norm": 5.543375669277853,
      "learning_rate": 8.793942080663658e-06,
      "loss": 0.7147,
      "step": 1119
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.325550821308458,
      "learning_rate": 8.791593417076782e-06,
      "loss": 0.3349,
      "step": 1120
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.6920828598040214,
      "learning_rate": 8.789242783123312e-06,
      "loss": 0.4903,
      "step": 1121
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.4602323068677476,
      "learning_rate": 8.786890180024801e-06,
      "loss": 0.4951,
      "step": 1122
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.1484348983764225,
      "learning_rate": 8.784535609003812e-06,
      "loss": 0.3864,
      "step": 1123
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.2672574972333273,
      "learning_rate": 8.782179071283944e-06,
      "loss": 0.5019,
      "step": 1124
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.355824961305167,
      "learning_rate": 8.779820568089812e-06,
      "loss": 0.6159,
      "step": 1125
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.387481306816756,
      "learning_rate": 8.777460100647048e-06,
      "loss": 0.4519,
      "step": 1126
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.9035149757944843,
      "learning_rate": 8.775097670182314e-06,
      "loss": 0.7239,
      "step": 1127
    },
    {
      "epoch": 0.25,
      "grad_norm": 6.359459460673058,
      "learning_rate": 8.772733277923287e-06,
      "loss": 0.578,
      "step": 1128
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.3031659259016894,
      "learning_rate": 8.77036692509866e-06,
      "loss": 0.5885,
      "step": 1129
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.213322261217267,
      "learning_rate": 8.767998612938153e-06,
      "loss": 0.548,
      "step": 1130
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.072032670837726,
      "learning_rate": 8.7656283426725e-06,
      "loss": 0.5785,
      "step": 1131
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.8159837866508455,
      "learning_rate": 8.76325611553345e-06,
      "loss": 0.6215,
      "step": 1132
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.6609302089266316,
      "learning_rate": 8.760881932753775e-06,
      "loss": 0.6314,
      "step": 1133
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.111270980441463,
      "learning_rate": 8.758505795567255e-06,
      "loss": 0.7579,
      "step": 1134
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.372627818560197,
      "learning_rate": 8.756127705208696e-06,
      "loss": 0.5715,
      "step": 1135
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.63535206365671,
      "learning_rate": 8.75374766291391e-06,
      "loss": 0.5284,
      "step": 1136
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.184867416250052,
      "learning_rate": 8.751365669919728e-06,
      "loss": 0.7704,
      "step": 1137
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.437683572399723,
      "learning_rate": 8.748981727463993e-06,
      "loss": 0.7932,
      "step": 1138
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.0036238049465025,
      "learning_rate": 8.746595836785561e-06,
      "loss": 0.8278,
      "step": 1139
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.9365083857744505,
      "learning_rate": 8.744207999124302e-06,
      "loss": 0.4605,
      "step": 1140
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.98712517838234,
      "learning_rate": 8.741818215721097e-06,
      "loss": 0.8296,
      "step": 1141
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.8287091453830495,
      "learning_rate": 8.739426487817839e-06,
      "loss": 0.4065,
      "step": 1142
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.6999490404824136,
      "learning_rate": 8.737032816657426e-06,
      "loss": 0.6383,
      "step": 1143
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.5579441527792697,
      "learning_rate": 8.734637203483776e-06,
      "loss": 0.5685,
      "step": 1144
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.289472656708203,
      "learning_rate": 8.732239649541807e-06,
      "loss": 0.51,
      "step": 1145
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.348670238012912,
      "learning_rate": 8.72984015607745e-06,
      "loss": 0.5944,
      "step": 1146
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.085492698177603,
      "learning_rate": 8.727438724337644e-06,
      "loss": 0.7493,
      "step": 1147
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.8705773417368468,
      "learning_rate": 8.725035355570331e-06,
      "loss": 0.5255,
      "step": 1148
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.312172361472274,
      "learning_rate": 8.722630051024467e-06,
      "loss": 0.6639,
      "step": 1149
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.968585290498001,
      "learning_rate": 8.720222811950005e-06,
      "loss": 0.7361,
      "step": 1150
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.232515408872647,
      "learning_rate": 8.717813639597913e-06,
      "loss": 0.6383,
      "step": 1151
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.4355247870143533,
      "learning_rate": 8.715402535220157e-06,
      "loss": 0.6042,
      "step": 1152
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.4819290778841023,
      "learning_rate": 8.712989500069708e-06,
      "loss": 0.6497,
      "step": 1153
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.065048453870522,
      "learning_rate": 8.71057453540054e-06,
      "loss": 0.4364,
      "step": 1154
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.654633963176129,
      "learning_rate": 8.708157642467633e-06,
      "loss": 0.5239,
      "step": 1155
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.916805290967966,
      "learning_rate": 8.705738822526967e-06,
      "loss": 0.6537,
      "step": 1156
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.4848727895236644,
      "learning_rate": 8.70331807683552e-06,
      "loss": 0.4434,
      "step": 1157
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.117396695053031,
      "learning_rate": 8.70089540665128e-06,
      "loss": 0.6258,
      "step": 1158
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.5776065903751544,
      "learning_rate": 8.698470813233223e-06,
      "loss": 0.4873,
      "step": 1159
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.991384057261239,
      "learning_rate": 8.696044297841334e-06,
      "loss": 0.6989,
      "step": 1160
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.4076347361459502,
      "learning_rate": 8.693615861736596e-06,
      "loss": 0.5356,
      "step": 1161
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.706711927694036,
      "learning_rate": 8.69118550618098e-06,
      "loss": 0.5568,
      "step": 1162
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.034500009062932,
      "learning_rate": 8.688753232437467e-06,
      "loss": 0.7084,
      "step": 1163
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.969494336879132,
      "learning_rate": 8.686319041770031e-06,
      "loss": 0.5631,
      "step": 1164
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.870073191647929,
      "learning_rate": 8.683882935443636e-06,
      "loss": 0.6108,
      "step": 1165
    },
    {
      "epoch": 0.26,
      "grad_norm": 7.165710564940486,
      "learning_rate": 8.681444914724251e-06,
      "loss": 0.8074,
      "step": 1166
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.5739377663309497,
      "learning_rate": 8.679004980878832e-06,
      "loss": 0.4127,
      "step": 1167
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.683489056525509,
      "learning_rate": 8.676563135175335e-06,
      "loss": 0.5429,
      "step": 1168
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.724025263570007,
      "learning_rate": 8.674119378882707e-06,
      "loss": 0.6138,
      "step": 1169
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.5142296973296796,
      "learning_rate": 8.671673713270888e-06,
      "loss": 0.659,
      "step": 1170
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.212063903792094,
      "learning_rate": 8.669226139610807e-06,
      "loss": 0.5965,
      "step": 1171
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.593267857008822,
      "learning_rate": 8.66677665917439e-06,
      "loss": 0.8504,
      "step": 1172
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.5543816406516795,
      "learning_rate": 8.664325273234551e-06,
      "loss": 0.4492,
      "step": 1173
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.7995381839637625,
      "learning_rate": 8.661871983065198e-06,
      "loss": 0.5954,
      "step": 1174
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.6485926252261702,
      "learning_rate": 8.65941678994122e-06,
      "loss": 0.6372,
      "step": 1175
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.338589957544765,
      "learning_rate": 8.656959695138503e-06,
      "loss": 0.5451,
      "step": 1176
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.1462001864807805,
      "learning_rate": 8.654500699933919e-06,
      "loss": 0.6218,
      "step": 1177
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.3561121975525956,
      "learning_rate": 8.652039805605324e-06,
      "loss": 0.5911,
      "step": 1178
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.73401508737334,
      "learning_rate": 8.649577013431569e-06,
      "loss": 0.5871,
      "step": 1179
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.245933943799161,
      "learning_rate": 8.647112324692482e-06,
      "loss": 0.697,
      "step": 1180
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.7144826825394324,
      "learning_rate": 8.644645740668884e-06,
      "loss": 0.4334,
      "step": 1181
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.5155530387958787,
      "learning_rate": 8.642177262642574e-06,
      "loss": 0.6012,
      "step": 1182
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.230724606662766,
      "learning_rate": 8.639706891896341e-06,
      "loss": 0.5563,
      "step": 1183
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.376932521620146,
      "learning_rate": 8.637234629713958e-06,
      "loss": 0.7107,
      "step": 1184
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.990991143529277,
      "learning_rate": 8.634760477380173e-06,
      "loss": 0.5264,
      "step": 1185
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.230415473423666,
      "learning_rate": 8.632284436180727e-06,
      "loss": 0.4212,
      "step": 1186
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.807235578865104,
      "learning_rate": 8.629806507402332e-06,
      "loss": 0.7212,
      "step": 1187
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.6659961799287615,
      "learning_rate": 8.627326692332692e-06,
      "loss": 0.5935,
      "step": 1188
    },
    {
      "epoch": 0.26,
      "grad_norm": 5.988869068760236,
      "learning_rate": 8.624844992260483e-06,
      "loss": 0.5935,
      "step": 1189
    },
    {
      "epoch": 0.26,
      "grad_norm": 6.274303933663982,
      "learning_rate": 8.622361408475361e-06,
      "loss": 0.3735,
      "step": 1190
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.8295178437345925,
      "learning_rate": 8.619875942267965e-06,
      "loss": 0.7562,
      "step": 1191
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.777839065756335,
      "learning_rate": 8.617388594929912e-06,
      "loss": 0.3483,
      "step": 1192
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.058187704655835,
      "learning_rate": 8.614899367753791e-06,
      "loss": 0.5365,
      "step": 1193
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.363443881517773,
      "learning_rate": 8.612408262033172e-06,
      "loss": 0.4042,
      "step": 1194
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.157495435377571,
      "learning_rate": 8.609915279062602e-06,
      "loss": 0.6356,
      "step": 1195
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.542950026487772,
      "learning_rate": 8.607420420137605e-06,
      "loss": 0.668,
      "step": 1196
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.934167552571914,
      "learning_rate": 8.604923686554672e-06,
      "loss": 0.5301,
      "step": 1197
    },
    {
      "epoch": 0.27,
      "grad_norm": 7.155475857368678,
      "learning_rate": 8.602425079611279e-06,
      "loss": 0.6454,
      "step": 1198
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.980236405924703,
      "learning_rate": 8.599924600605865e-06,
      "loss": 0.8645,
      "step": 1199
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.778953726197405,
      "learning_rate": 8.597422250837849e-06,
      "loss": 0.5028,
      "step": 1200
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.06011581453709,
      "learning_rate": 8.59491803160762e-06,
      "loss": 0.5811,
      "step": 1201
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.8627941650216244,
      "learning_rate": 8.592411944216538e-06,
      "loss": 0.6445,
      "step": 1202
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.121113330752398,
      "learning_rate": 8.589903989966937e-06,
      "loss": 0.4199,
      "step": 1203
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.470079448864691,
      "learning_rate": 8.587394170162114e-06,
      "loss": 0.6342,
      "step": 1204
    },
    {
      "epoch": 0.27,
      "grad_norm": 5.402468900197318,
      "learning_rate": 8.584882486106344e-06,
      "loss": 0.5812,
      "step": 1205
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.117482502300073,
      "learning_rate": 8.582368939104863e-06,
      "loss": 0.6028,
      "step": 1206
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.747855191951462,
      "learning_rate": 8.579853530463882e-06,
      "loss": 0.52,
      "step": 1207
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.4154488863782437,
      "learning_rate": 8.577336261490575e-06,
      "loss": 0.4725,
      "step": 1208
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.543626256325684,
      "learning_rate": 8.574817133493085e-06,
      "loss": 0.5344,
      "step": 1209
    },
    {
      "epoch": 0.27,
      "grad_norm": 5.112629061348944,
      "learning_rate": 8.572296147780517e-06,
      "loss": 0.8105,
      "step": 1210
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.5817164641400843,
      "learning_rate": 8.569773305662947e-06,
      "loss": 0.4695,
      "step": 1211
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.523365591858306,
      "learning_rate": 8.567248608451414e-06,
      "loss": 0.7533,
      "step": 1212
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.336910384112961,
      "learning_rate": 8.564722057457919e-06,
      "loss": 0.7345,
      "step": 1213
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.7149673080171444,
      "learning_rate": 8.562193653995426e-06,
      "loss": 0.7822,
      "step": 1214
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.680071019372877,
      "learning_rate": 8.559663399377867e-06,
      "loss": 0.5833,
      "step": 1215
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.321480172822698,
      "learning_rate": 8.55713129492013e-06,
      "loss": 0.586,
      "step": 1216
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.400106894585406,
      "learning_rate": 8.554597341938064e-06,
      "loss": 0.7437,
      "step": 1217
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.5680310831219217,
      "learning_rate": 8.552061541748486e-06,
      "loss": 0.5282,
      "step": 1218
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.8119529160255947,
      "learning_rate": 8.549523895669167e-06,
      "loss": 0.5347,
      "step": 1219
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.149455757287271,
      "learning_rate": 8.546984405018835e-06,
      "loss": 0.4368,
      "step": 1220
    },
    {
      "epoch": 0.27,
      "grad_norm": 5.373389717798293,
      "learning_rate": 8.544443071117183e-06,
      "loss": 0.6701,
      "step": 1221
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.259541883296507,
      "learning_rate": 8.54189989528486e-06,
      "loss": 0.5267,
      "step": 1222
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.770918878740956,
      "learning_rate": 8.539354878843467e-06,
      "loss": 0.3651,
      "step": 1223
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.8895511414346604,
      "learning_rate": 8.536808023115566e-06,
      "loss": 0.605,
      "step": 1224
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.6638730849125447,
      "learning_rate": 8.534259329424678e-06,
      "loss": 0.5232,
      "step": 1225
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.4911491957013303,
      "learning_rate": 8.531708799095272e-06,
      "loss": 0.5343,
      "step": 1226
    },
    {
      "epoch": 0.27,
      "grad_norm": 5.099680709654914,
      "learning_rate": 8.529156433452776e-06,
      "loss": 0.7785,
      "step": 1227
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.432447692597115,
      "learning_rate": 8.526602233823572e-06,
      "loss": 0.4265,
      "step": 1228
    },
    {
      "epoch": 0.27,
      "grad_norm": 8.478897762887815,
      "learning_rate": 8.52404620153499e-06,
      "loss": 0.6544,
      "step": 1229
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.382304804172473,
      "learning_rate": 8.521488337915319e-06,
      "loss": 0.5898,
      "step": 1230
    },
    {
      "epoch": 0.27,
      "grad_norm": 5.19043015639884,
      "learning_rate": 8.518928644293796e-06,
      "loss": 0.7815,
      "step": 1231
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.5243832910506736,
      "learning_rate": 8.51636712200061e-06,
      "loss": 0.4653,
      "step": 1232
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.27577175122258,
      "learning_rate": 8.5138037723669e-06,
      "loss": 0.4808,
      "step": 1233
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.8287390949349462,
      "learning_rate": 8.511238596724755e-06,
      "loss": 0.558,
      "step": 1234
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.998466883546614,
      "learning_rate": 8.50867159640721e-06,
      "loss": 0.4351,
      "step": 1235
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.27757968078515,
      "learning_rate": 8.506102772748255e-06,
      "loss": 0.5616,
      "step": 1236
    },
    {
      "epoch": 0.28,
      "grad_norm": 5.453918642247377,
      "learning_rate": 8.503532127082818e-06,
      "loss": 0.6947,
      "step": 1237
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.096159450974908,
      "learning_rate": 8.500959660746785e-06,
      "loss": 0.6962,
      "step": 1238
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.845295247571366,
      "learning_rate": 8.498385375076979e-06,
      "loss": 0.5531,
      "step": 1239
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.999423960109369,
      "learning_rate": 8.495809271411171e-06,
      "loss": 0.4106,
      "step": 1240
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.240267127490744,
      "learning_rate": 8.493231351088079e-06,
      "loss": 0.6557,
      "step": 1241
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.862067439109755,
      "learning_rate": 8.490651615447362e-06,
      "loss": 0.5626,
      "step": 1242
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.892648883238491,
      "learning_rate": 8.488070065829628e-06,
      "loss": 0.5387,
      "step": 1243
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.7695659541288493,
      "learning_rate": 8.485486703576419e-06,
      "loss": 0.609,
      "step": 1244
    },
    {
      "epoch": 0.28,
      "grad_norm": 5.7776030415271125,
      "learning_rate": 8.482901530030225e-06,
      "loss": 0.6484,
      "step": 1245
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.047179250942028,
      "learning_rate": 8.480314546534476e-06,
      "loss": 0.5485,
      "step": 1246
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.5562403160406704,
      "learning_rate": 8.477725754433544e-06,
      "loss": 0.4047,
      "step": 1247
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.577363135367488,
      "learning_rate": 8.475135155072736e-06,
      "loss": 0.5576,
      "step": 1248
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.3939885863292867,
      "learning_rate": 8.472542749798302e-06,
      "loss": 0.6464,
      "step": 1249
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.0126575626348226,
      "learning_rate": 8.469948539957434e-06,
      "loss": 0.4462,
      "step": 1250
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.570272071225005,
      "learning_rate": 8.467352526898251e-06,
      "loss": 0.6207,
      "step": 1251
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.316252667304072,
      "learning_rate": 8.464754711969822e-06,
      "loss": 0.6568,
      "step": 1252
    },
    {
      "epoch": 0.28,
      "grad_norm": 5.6119182489142405,
      "learning_rate": 8.462155096522142e-06,
      "loss": 0.6232,
      "step": 1253
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.444167927794889,
      "learning_rate": 8.459553681906147e-06,
      "loss": 0.4908,
      "step": 1254
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.930655517941211,
      "learning_rate": 8.456950469473709e-06,
      "loss": 0.5672,
      "step": 1255
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.422566687589855,
      "learning_rate": 8.454345460577627e-06,
      "loss": 0.5872,
      "step": 1256
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.827719270377464,
      "learning_rate": 8.451738656571644e-06,
      "loss": 0.6902,
      "step": 1257
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.950112689625926,
      "learning_rate": 8.449130058810426e-06,
      "loss": 0.6877,
      "step": 1258
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.173978428657864,
      "learning_rate": 8.44651966864958e-06,
      "loss": 0.6038,
      "step": 1259
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.919220140528671,
      "learning_rate": 8.443907487445635e-06,
      "loss": 0.7207,
      "step": 1260
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.4623737306321622,
      "learning_rate": 8.44129351655606e-06,
      "loss": 0.7311,
      "step": 1261
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.774809547181473,
      "learning_rate": 8.43867775733925e-06,
      "loss": 0.646,
      "step": 1262
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.9632520700935547,
      "learning_rate": 8.436060211154524e-06,
      "loss": 0.3022,
      "step": 1263
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.305469724881644,
      "learning_rate": 8.43344087936214e-06,
      "loss": 0.7557,
      "step": 1264
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.3090947427119484,
      "learning_rate": 8.430819763323277e-06,
      "loss": 0.5667,
      "step": 1265
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.959627773979788,
      "learning_rate": 8.428196864400042e-06,
      "loss": 0.5298,
      "step": 1266
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.281900190543084,
      "learning_rate": 8.42557218395547e-06,
      "loss": 0.6425,
      "step": 1267
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.3846802317538307,
      "learning_rate": 8.422945723353525e-06,
      "loss": 0.603,
      "step": 1268
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.143007082511927,
      "learning_rate": 8.420317483959086e-06,
      "loss": 0.4329,
      "step": 1269
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.137025294894213,
      "learning_rate": 8.417687467137964e-06,
      "loss": 0.7409,
      "step": 1270
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.099070072934772,
      "learning_rate": 8.415055674256898e-06,
      "loss": 0.7979,
      "step": 1271
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.311142933830648,
      "learning_rate": 8.412422106683538e-06,
      "loss": 0.6001,
      "step": 1272
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.445668562718596,
      "learning_rate": 8.409786765786466e-06,
      "loss": 0.6246,
      "step": 1273
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.423039891935065,
      "learning_rate": 8.40714965293518e-06,
      "loss": 0.4605,
      "step": 1274
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.112148573851835,
      "learning_rate": 8.404510769500103e-06,
      "loss": 0.6908,
      "step": 1275
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.5736900784230405,
      "learning_rate": 8.401870116852572e-06,
      "loss": 0.4959,
      "step": 1276
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.934591904505232,
      "learning_rate": 8.399227696364854e-06,
      "loss": 0.6061,
      "step": 1277
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.9811732224458067,
      "learning_rate": 8.396583509410123e-06,
      "loss": 0.768,
      "step": 1278
    },
    {
      "epoch": 0.28,
      "grad_norm": 5.315705712023471,
      "learning_rate": 8.39393755736248e-06,
      "loss": 0.6152,
      "step": 1279
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.007906438591762,
      "learning_rate": 8.391289841596934e-06,
      "loss": 0.736,
      "step": 1280
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.31376078215197,
      "learning_rate": 8.388640363489423e-06,
      "loss": 0.6874,
      "step": 1281
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.5057523499638945,
      "learning_rate": 8.385989124416786e-06,
      "loss": 0.6618,
      "step": 1282
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.7868777227282426,
      "learning_rate": 8.383336125756791e-06,
      "loss": 0.4484,
      "step": 1283
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.862351985257712,
      "learning_rate": 8.380681368888111e-06,
      "loss": 0.6775,
      "step": 1284
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.108074099109062,
      "learning_rate": 8.378024855190338e-06,
      "loss": 0.7085,
      "step": 1285
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.514806023121496,
      "learning_rate": 8.375366586043973e-06,
      "loss": 0.6037,
      "step": 1286
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.9626291065953794,
      "learning_rate": 8.372706562830432e-06,
      "loss": 0.3346,
      "step": 1287
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.5932174157498293,
      "learning_rate": 8.370044786932043e-06,
      "loss": 0.5527,
      "step": 1288
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.029427979185078,
      "learning_rate": 8.367381259732042e-06,
      "loss": 0.6056,
      "step": 1289
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.100187240459814,
      "learning_rate": 8.364715982614578e-06,
      "loss": 0.7441,
      "step": 1290
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.070469975553049,
      "learning_rate": 8.362048956964705e-06,
      "loss": 0.6645,
      "step": 1291
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.007419783592721,
      "learning_rate": 8.359380184168394e-06,
      "loss": 0.579,
      "step": 1292
    },
    {
      "epoch": 0.29,
      "grad_norm": 6.338498551098987,
      "learning_rate": 8.356709665612512e-06,
      "loss": 0.627,
      "step": 1293
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.8822192077152633,
      "learning_rate": 8.354037402684845e-06,
      "loss": 0.7719,
      "step": 1294
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.0315531629367625,
      "learning_rate": 8.351363396774076e-06,
      "loss": 0.6686,
      "step": 1295
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.65940319369091,
      "learning_rate": 8.348687649269802e-06,
      "loss": 0.7676,
      "step": 1296
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.432477915572735,
      "learning_rate": 8.34601016156252e-06,
      "loss": 0.7241,
      "step": 1297
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.973562689653557,
      "learning_rate": 8.343330935043632e-06,
      "loss": 0.3919,
      "step": 1298
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.2107266889529766,
      "learning_rate": 8.340649971105444e-06,
      "loss": 0.6848,
      "step": 1299
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.855617130644698,
      "learning_rate": 8.337967271141164e-06,
      "loss": 0.731,
      "step": 1300
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.245911562495731,
      "learning_rate": 8.335282836544904e-06,
      "loss": 0.5414,
      "step": 1301
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.900581223908886,
      "learning_rate": 8.33259666871168e-06,
      "loss": 0.7036,
      "step": 1302
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.922126703293655,
      "learning_rate": 8.329908769037396e-06,
      "loss": 1.0803,
      "step": 1303
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.0505251602207717,
      "learning_rate": 8.327219138918874e-06,
      "loss": 0.5972,
      "step": 1304
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.492002196476634,
      "learning_rate": 8.324527779753823e-06,
      "loss": 0.5751,
      "step": 1305
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.787802322810568,
      "learning_rate": 8.321834692940856e-06,
      "loss": 0.7833,
      "step": 1306
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.0682361657979973,
      "learning_rate": 8.319139879879479e-06,
      "loss": 0.5316,
      "step": 1307
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.9059982117497967,
      "learning_rate": 8.3164433419701e-06,
      "loss": 0.8852,
      "step": 1308
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.091739867860517,
      "learning_rate": 8.313745080614017e-06,
      "loss": 0.508,
      "step": 1309
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.455455383931985,
      "learning_rate": 8.311045097213433e-06,
      "loss": 0.7452,
      "step": 1310
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.661652596921682,
      "learning_rate": 8.30834339317144e-06,
      "loss": 0.6566,
      "step": 1311
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.9445995785508456,
      "learning_rate": 8.30563996989202e-06,
      "loss": 0.5974,
      "step": 1312
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.093781019082631,
      "learning_rate": 8.302934828780061e-06,
      "loss": 0.5218,
      "step": 1313
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.896230987820913,
      "learning_rate": 8.30022797124133e-06,
      "loss": 0.4325,
      "step": 1314
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.122480420444578,
      "learning_rate": 8.297519398682494e-06,
      "loss": 0.8094,
      "step": 1315
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.811763738481636,
      "learning_rate": 8.294809112511109e-06,
      "loss": 0.4428,
      "step": 1316
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.381279065222529,
      "learning_rate": 8.292097114135623e-06,
      "loss": 0.606,
      "step": 1317
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.198369630428917,
      "learning_rate": 8.28938340496537e-06,
      "loss": 0.5905,
      "step": 1318
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.094302368417855,
      "learning_rate": 8.286667986410578e-06,
      "loss": 0.4097,
      "step": 1319
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.3163292124148445,
      "learning_rate": 8.28395085988236e-06,
      "loss": 0.5787,
      "step": 1320
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.7673353391411846,
      "learning_rate": 8.281232026792716e-06,
      "loss": 0.7496,
      "step": 1321
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.73740615102926,
      "learning_rate": 8.278511488554535e-06,
      "loss": 0.5124,
      "step": 1322
    },
    {
      "epoch": 0.29,
      "grad_norm": 5.139525714232845,
      "learning_rate": 8.275789246581594e-06,
      "loss": 0.5918,
      "step": 1323
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.804863712108233,
      "learning_rate": 8.273065302288549e-06,
      "loss": 0.627,
      "step": 1324
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.0284601265368503,
      "learning_rate": 8.270339657090946e-06,
      "loss": 0.3874,
      "step": 1325
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.556795122952455,
      "learning_rate": 8.267612312405214e-06,
      "loss": 0.7333,
      "step": 1326
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.2872611539343803,
      "learning_rate": 8.264883269648663e-06,
      "loss": 0.5205,
      "step": 1327
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.8309136956912684,
      "learning_rate": 8.262152530239488e-06,
      "loss": 0.6251,
      "step": 1328
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.5774238224001285,
      "learning_rate": 8.259420095596766e-06,
      "loss": 0.4321,
      "step": 1329
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.7962408283427083,
      "learning_rate": 8.25668596714045e-06,
      "loss": 0.6364,
      "step": 1330
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.257155130411821,
      "learning_rate": 8.253950146291378e-06,
      "loss": 0.4608,
      "step": 1331
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.1024716969206,
      "learning_rate": 8.251212634471269e-06,
      "loss": 0.7482,
      "step": 1332
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.245938741691632,
      "learning_rate": 8.248473433102715e-06,
      "loss": 0.5693,
      "step": 1333
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.4147050079146894,
      "learning_rate": 8.245732543609188e-06,
      "loss": 0.6005,
      "step": 1334
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.8303227017924013,
      "learning_rate": 8.242989967415042e-06,
      "loss": 0.6686,
      "step": 1335
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.3976349694861985,
      "learning_rate": 8.240245705945503e-06,
      "loss": 0.7232,
      "step": 1336
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.9676498587899225,
      "learning_rate": 8.23749976062667e-06,
      "loss": 0.7345,
      "step": 1337
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.253963639937996,
      "learning_rate": 8.234752132885525e-06,
      "loss": 0.6238,
      "step": 1338
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.0470243432193147,
      "learning_rate": 8.232002824149917e-06,
      "loss": 0.4287,
      "step": 1339
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.337610508629893,
      "learning_rate": 8.229251835848574e-06,
      "loss": 0.7531,
      "step": 1340
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.0489746037188885,
      "learning_rate": 8.226499169411091e-06,
      "loss": 0.6399,
      "step": 1341
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.138538026737288,
      "learning_rate": 8.22374482626794e-06,
      "loss": 0.6435,
      "step": 1342
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.259678667240851,
      "learning_rate": 8.220988807850465e-06,
      "loss": 1.0396,
      "step": 1343
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.622455687210947,
      "learning_rate": 8.218231115590875e-06,
      "loss": 0.3927,
      "step": 1344
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.775364060398009,
      "learning_rate": 8.215471750922252e-06,
      "loss": 0.4791,
      "step": 1345
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.189297848283635,
      "learning_rate": 8.21271071527855e-06,
      "loss": 0.6273,
      "step": 1346
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.9389620623667936,
      "learning_rate": 8.209948010094587e-06,
      "loss": 0.5064,
      "step": 1347
    },
    {
      "epoch": 0.3,
      "grad_norm": 6.092519994631125,
      "learning_rate": 8.207183636806048e-06,
      "loss": 0.6764,
      "step": 1348
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.492979673536366,
      "learning_rate": 8.204417596849492e-06,
      "loss": 0.3923,
      "step": 1349
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.7552020313135754,
      "learning_rate": 8.201649891662336e-06,
      "loss": 0.5305,
      "step": 1350
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.952527186240417,
      "learning_rate": 8.198880522682863e-06,
      "loss": 0.4393,
      "step": 1351
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.53780724058486,
      "learning_rate": 8.196109491350229e-06,
      "loss": 0.788,
      "step": 1352
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.9506860820020657,
      "learning_rate": 8.193336799104444e-06,
      "loss": 0.6291,
      "step": 1353
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.950251242522315,
      "learning_rate": 8.190562447386386e-06,
      "loss": 0.7523,
      "step": 1354
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.7282221548373244,
      "learning_rate": 8.187786437637795e-06,
      "loss": 0.4389,
      "step": 1355
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.166718644797641,
      "learning_rate": 8.18500877130127e-06,
      "loss": 0.7623,
      "step": 1356
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.074553640624385,
      "learning_rate": 8.182229449820276e-06,
      "loss": 0.5978,
      "step": 1357
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.9127619115955694,
      "learning_rate": 8.179448474639133e-06,
      "loss": 0.5096,
      "step": 1358
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.000881939355715,
      "learning_rate": 8.176665847203023e-06,
      "loss": 0.6955,
      "step": 1359
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.6418653740552838,
      "learning_rate": 8.173881568957986e-06,
      "loss": 0.3593,
      "step": 1360
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.704891474622584,
      "learning_rate": 8.171095641350922e-06,
      "loss": 0.4512,
      "step": 1361
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.720248022165435,
      "learning_rate": 8.168308065829584e-06,
      "loss": 0.6456,
      "step": 1362
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.610903920546635,
      "learning_rate": 8.165518843842582e-06,
      "loss": 0.9269,
      "step": 1363
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.88020896911312,
      "learning_rate": 8.162727976839386e-06,
      "loss": 0.6567,
      "step": 1364
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.9138798394783625,
      "learning_rate": 8.15993546627032e-06,
      "loss": 0.6358,
      "step": 1365
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.117460006015937,
      "learning_rate": 8.157141313586551e-06,
      "loss": 0.5956,
      "step": 1366
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.6080582767889915,
      "learning_rate": 8.154345520240119e-06,
      "loss": 0.9136,
      "step": 1367
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.556529324029964,
      "learning_rate": 8.151548087683898e-06,
      "loss": 0.6272,
      "step": 1368
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.6899191249853596,
      "learning_rate": 8.148749017371627e-06,
      "loss": 0.7213,
      "step": 1369
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.560419444068876,
      "learning_rate": 8.145948310757888e-06,
      "loss": 0.8999,
      "step": 1370
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.0712195865494465,
      "learning_rate": 8.143145969298118e-06,
      "loss": 0.5629,
      "step": 1371
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.6737172837504324,
      "learning_rate": 8.1403419944486e-06,
      "loss": 0.6518,
      "step": 1372
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.272874022968106,
      "learning_rate": 8.137536387666471e-06,
      "loss": 0.6082,
      "step": 1373
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.252123811754817,
      "learning_rate": 8.134729150409708e-06,
      "loss": 0.7105,
      "step": 1374
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.8388415181786995,
      "learning_rate": 8.131920284137145e-06,
      "loss": 0.5431,
      "step": 1375
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.4990961148017896,
      "learning_rate": 8.129109790308453e-06,
      "loss": 0.4536,
      "step": 1376
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.567865385637803,
      "learning_rate": 8.126297670384157e-06,
      "loss": 0.6149,
      "step": 1377
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.098054064931078,
      "learning_rate": 8.123483925825622e-06,
      "loss": 0.5558,
      "step": 1378
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.0080726737630727,
      "learning_rate": 8.120668558095056e-06,
      "loss": 0.4851,
      "step": 1379
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.8679981563493766,
      "learning_rate": 8.117851568655518e-06,
      "loss": 0.4608,
      "step": 1380
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.402583034514624,
      "learning_rate": 8.115032958970901e-06,
      "loss": 0.6047,
      "step": 1381
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.690127198903503,
      "learning_rate": 8.112212730505947e-06,
      "loss": 0.5723,
      "step": 1382
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.058853056315786,
      "learning_rate": 8.109390884726234e-06,
      "loss": 0.6324,
      "step": 1383
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.215254533733001,
      "learning_rate": 8.106567423098181e-06,
      "loss": 0.5443,
      "step": 1384
    },
    {
      "epoch": 0.31,
      "grad_norm": 5.008694826583061,
      "learning_rate": 8.103742347089055e-06,
      "loss": 0.7201,
      "step": 1385
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.7067950591450627,
      "learning_rate": 8.100915658166946e-06,
      "loss": 0.4067,
      "step": 1386
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.7824188559995826,
      "learning_rate": 8.098087357800799e-06,
      "loss": 0.6919,
      "step": 1387
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.9732187764799143,
      "learning_rate": 8.095257447460385e-06,
      "loss": 0.7779,
      "step": 1388
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.3597280099814,
      "learning_rate": 8.092425928616317e-06,
      "loss": 0.7398,
      "step": 1389
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.44334394678365,
      "learning_rate": 8.08959280274004e-06,
      "loss": 0.7348,
      "step": 1390
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.017761055054845,
      "learning_rate": 8.08675807130384e-06,
      "loss": 0.6628,
      "step": 1391
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.8792421818542504,
      "learning_rate": 8.083921735780831e-06,
      "loss": 0.5388,
      "step": 1392
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.5592983519836805,
      "learning_rate": 8.081083797644965e-06,
      "loss": 0.5265,
      "step": 1393
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.853621778457002,
      "learning_rate": 8.078244258371024e-06,
      "loss": 0.5627,
      "step": 1394
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.022592968149833,
      "learning_rate": 8.075403119434626e-06,
      "loss": 0.3108,
      "step": 1395
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.374153961460071,
      "learning_rate": 8.072560382312214e-06,
      "loss": 0.6249,
      "step": 1396
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.594013950606284,
      "learning_rate": 8.069716048481066e-06,
      "loss": 0.5859,
      "step": 1397
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.872971192482159,
      "learning_rate": 8.066870119419293e-06,
      "loss": 0.5757,
      "step": 1398
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.690314667901984,
      "learning_rate": 8.064022596605825e-06,
      "loss": 0.7056,
      "step": 1399
    },
    {
      "epoch": 0.31,
      "grad_norm": 5.607736715112849,
      "learning_rate": 8.06117348152043e-06,
      "loss": 0.9754,
      "step": 1400
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.6149062556946063,
      "learning_rate": 8.058322775643698e-06,
      "loss": 0.4826,
      "step": 1401
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.225867250136473,
      "learning_rate": 8.055470480457046e-06,
      "loss": 0.4726,
      "step": 1402
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.23938865459033,
      "learning_rate": 8.052616597442721e-06,
      "loss": 0.6125,
      "step": 1403
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.8253238317844813,
      "learning_rate": 8.049761128083791e-06,
      "loss": 0.4783,
      "step": 1404
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.6626028598444234,
      "learning_rate": 8.04690407386415e-06,
      "loss": 0.4637,
      "step": 1405
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.520017510120334,
      "learning_rate": 8.044045436268513e-06,
      "loss": 0.5709,
      "step": 1406
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.5808189712259813,
      "learning_rate": 8.041185216782424e-06,
      "loss": 0.5463,
      "step": 1407
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.7080380333093785,
      "learning_rate": 8.038323416892239e-06,
      "loss": 0.4292,
      "step": 1408
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.223448050275071,
      "learning_rate": 8.03546003808515e-06,
      "loss": 0.5529,
      "step": 1409
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.7183976003695713,
      "learning_rate": 8.032595081849154e-06,
      "loss": 0.4949,
      "step": 1410
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.2928272704666677,
      "learning_rate": 8.02972854967308e-06,
      "loss": 0.5698,
      "step": 1411
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.007785047018655,
      "learning_rate": 8.026860443046565e-06,
      "loss": 0.5717,
      "step": 1412
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.47616097694432,
      "learning_rate": 8.023990763460075e-06,
      "loss": 0.5989,
      "step": 1413
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.10505777318024,
      "learning_rate": 8.021119512404882e-06,
      "loss": 0.5275,
      "step": 1414
    },
    {
      "epoch": 0.31,
      "grad_norm": 4.228694624381157,
      "learning_rate": 8.018246691373089e-06,
      "loss": 0.5117,
      "step": 1415
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.4261597840429157,
      "learning_rate": 8.015372301857599e-06,
      "loss": 0.4989,
      "step": 1416
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.4960840810603284,
      "learning_rate": 8.012496345352143e-06,
      "loss": 0.6525,
      "step": 1417
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.149127585421292,
      "learning_rate": 8.00961882335126e-06,
      "loss": 0.6162,
      "step": 1418
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.7401318238613457,
      "learning_rate": 8.006739737350303e-06,
      "loss": 0.453,
      "step": 1419
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.079780534325078,
      "learning_rate": 8.003859088845438e-06,
      "loss": 0.6224,
      "step": 1420
    },
    {
      "epoch": 0.32,
      "grad_norm": 5.810190235809982,
      "learning_rate": 8.000976879333644e-06,
      "loss": 0.4545,
      "step": 1421
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.1176786471192313,
      "learning_rate": 7.99809311031271e-06,
      "loss": 0.5807,
      "step": 1422
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.195279505860199,
      "learning_rate": 7.995207783281238e-06,
      "loss": 0.5144,
      "step": 1423
    },
    {
      "epoch": 0.32,
      "grad_norm": 5.011672007367058,
      "learning_rate": 7.992320899738635e-06,
      "loss": 0.6418,
      "step": 1424
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.764792646891711,
      "learning_rate": 7.989432461185122e-06,
      "loss": 0.6119,
      "step": 1425
    },
    {
      "epoch": 0.32,
      "grad_norm": 5.0710036297018135,
      "learning_rate": 7.986542469121726e-06,
      "loss": 0.59,
      "step": 1426
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.043633169139528,
      "learning_rate": 7.983650925050277e-06,
      "loss": 0.6773,
      "step": 1427
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.651557540195731,
      "learning_rate": 7.98075783047342e-06,
      "loss": 0.6058,
      "step": 1428
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.386738743197463,
      "learning_rate": 7.977863186894598e-06,
      "loss": 0.5788,
      "step": 1429
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.055802412379482,
      "learning_rate": 7.974966995818067e-06,
      "loss": 0.4711,
      "step": 1430
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.5986066617643977,
      "learning_rate": 7.972069258748875e-06,
      "loss": 0.6487,
      "step": 1431
    },
    {
      "epoch": 0.32,
      "grad_norm": 5.449088207177487,
      "learning_rate": 7.969169977192887e-06,
      "loss": 0.7855,
      "step": 1432
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.1810281523316046,
      "learning_rate": 7.966269152656762e-06,
      "loss": 0.3112,
      "step": 1433
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.713468062568228,
      "learning_rate": 7.963366786647964e-06,
      "loss": 0.6689,
      "step": 1434
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.747249148409437,
      "learning_rate": 7.960462880674755e-06,
      "loss": 0.6622,
      "step": 1435
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.415604732241207,
      "learning_rate": 7.957557436246204e-06,
      "loss": 0.6044,
      "step": 1436
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.8057778746608104,
      "learning_rate": 7.954650454872172e-06,
      "loss": 0.825,
      "step": 1437
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.1396335733184944,
      "learning_rate": 7.95174193806332e-06,
      "loss": 0.4131,
      "step": 1438
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.611262473526078,
      "learning_rate": 7.948831887331113e-06,
      "loss": 0.607,
      "step": 1439
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.67474701828342,
      "learning_rate": 7.945920304187806e-06,
      "loss": 0.4132,
      "step": 1440
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.196545700926438,
      "learning_rate": 7.943007190146455e-06,
      "loss": 0.8028,
      "step": 1441
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.4055837531427526,
      "learning_rate": 7.940092546720906e-06,
      "loss": 0.3763,
      "step": 1442
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.601049532162842,
      "learning_rate": 7.937176375425807e-06,
      "loss": 0.2153,
      "step": 1443
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.123392659143404,
      "learning_rate": 7.934258677776596e-06,
      "loss": 0.8686,
      "step": 1444
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.309790647216182,
      "learning_rate": 7.931339455289506e-06,
      "loss": 0.6223,
      "step": 1445
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.136973987859837,
      "learning_rate": 7.928418709481557e-06,
      "loss": 0.705,
      "step": 1446
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.559041846840462,
      "learning_rate": 7.925496441870568e-06,
      "loss": 0.6246,
      "step": 1447
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.896281439072328,
      "learning_rate": 7.922572653975144e-06,
      "loss": 0.7068,
      "step": 1448
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.346020821058077,
      "learning_rate": 7.91964734731468e-06,
      "loss": 0.5023,
      "step": 1449
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.5746823486500308,
      "learning_rate": 7.916720523409368e-06,
      "loss": 0.4708,
      "step": 1450
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.6202897992742176,
      "learning_rate": 7.913792183780175e-06,
      "loss": 0.6006,
      "step": 1451
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.567972761094277,
      "learning_rate": 7.910862329948866e-06,
      "loss": 0.5642,
      "step": 1452
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.9874135301046265,
      "learning_rate": 7.907930963437991e-06,
      "loss": 0.4907,
      "step": 1453
    },
    {
      "epoch": 0.32,
      "grad_norm": 5.151411918784862,
      "learning_rate": 7.904998085770882e-06,
      "loss": 0.8612,
      "step": 1454
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.955202262759267,
      "learning_rate": 7.902063698471665e-06,
      "loss": 0.6811,
      "step": 1455
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.728047371918702,
      "learning_rate": 7.899127803065238e-06,
      "loss": 0.3826,
      "step": 1456
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.3292822438771403,
      "learning_rate": 7.896190401077294e-06,
      "loss": 0.5451,
      "step": 1457
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.193795873768216,
      "learning_rate": 7.893251494034298e-06,
      "loss": 0.5597,
      "step": 1458
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.159112607626738,
      "learning_rate": 7.890311083463511e-06,
      "loss": 0.6874,
      "step": 1459
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.668611715895216,
      "learning_rate": 7.887369170892965e-06,
      "loss": 0.5822,
      "step": 1460
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.3281738699700485,
      "learning_rate": 7.884425757851474e-06,
      "loss": 0.4485,
      "step": 1461
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.576465161237976,
      "learning_rate": 7.881480845868637e-06,
      "loss": 0.4741,
      "step": 1462
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.1643987536716027,
      "learning_rate": 7.878534436474823e-06,
      "loss": 0.4711,
      "step": 1463
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.629943350969972,
      "learning_rate": 7.875586531201186e-06,
      "loss": 0.4981,
      "step": 1464
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.6202473099063517,
      "learning_rate": 7.872637131579658e-06,
      "loss": 0.6232,
      "step": 1465
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.4062670336934366,
      "learning_rate": 7.869686239142941e-06,
      "loss": 0.7154,
      "step": 1466
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.665526848352235,
      "learning_rate": 7.86673385542452e-06,
      "loss": 0.5453,
      "step": 1467
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.2615092847779,
      "learning_rate": 7.863779981958652e-06,
      "loss": 0.3742,
      "step": 1468
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.721872620305197,
      "learning_rate": 7.860824620280367e-06,
      "loss": 0.6943,
      "step": 1469
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.428224819383969,
      "learning_rate": 7.85786777192547e-06,
      "loss": 0.5165,
      "step": 1470
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.086189840305344,
      "learning_rate": 7.854909438430536e-06,
      "loss": 0.5858,
      "step": 1471
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.224105660283112,
      "learning_rate": 7.851949621332915e-06,
      "loss": 0.6442,
      "step": 1472
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.3760534215797597,
      "learning_rate": 7.848988322170727e-06,
      "loss": 0.4912,
      "step": 1473
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.6178401043271164,
      "learning_rate": 7.846025542482862e-06,
      "loss": 0.6403,
      "step": 1474
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.499100173349206,
      "learning_rate": 7.843061283808981e-06,
      "loss": 0.8762,
      "step": 1475
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.927416985265082,
      "learning_rate": 7.840095547689507e-06,
      "loss": 0.5561,
      "step": 1476
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.900012975131167,
      "learning_rate": 7.837128335665643e-06,
      "loss": 0.8075,
      "step": 1477
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.26795580696649,
      "learning_rate": 7.834159649279345e-06,
      "loss": 0.6152,
      "step": 1478
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.0995818336467424,
      "learning_rate": 7.831189490073343e-06,
      "loss": 0.4051,
      "step": 1479
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.406975594521371,
      "learning_rate": 7.828217859591135e-06,
      "loss": 0.628,
      "step": 1480
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.8082915265428676,
      "learning_rate": 7.825244759376975e-06,
      "loss": 0.4638,
      "step": 1481
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.790847175317331,
      "learning_rate": 7.82227019097589e-06,
      "loss": 0.5013,
      "step": 1482
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.087075903613342,
      "learning_rate": 7.819294155933661e-06,
      "loss": 0.7118,
      "step": 1483
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.331082493421115,
      "learning_rate": 7.81631665579684e-06,
      "loss": 0.6763,
      "step": 1484
    },
    {
      "epoch": 0.33,
      "grad_norm": 5.424434534730443,
      "learning_rate": 7.813337692112733e-06,
      "loss": 0.6252,
      "step": 1485
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.8151394691430283,
      "learning_rate": 7.81035726642941e-06,
      "loss": 0.714,
      "step": 1486
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.504712402058303,
      "learning_rate": 7.807375380295703e-06,
      "loss": 0.5725,
      "step": 1487
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.275799267317867,
      "learning_rate": 7.8043920352612e-06,
      "loss": 0.3842,
      "step": 1488
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.5776845956273915,
      "learning_rate": 7.80140723287624e-06,
      "loss": 0.6785,
      "step": 1489
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.5024618584988625,
      "learning_rate": 7.798420974691935e-06,
      "loss": 0.5727,
      "step": 1490
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.8916337140015624,
      "learning_rate": 7.795433262260146e-06,
      "loss": 0.7683,
      "step": 1491
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.02282895275172,
      "learning_rate": 7.792444097133482e-06,
      "loss": 0.7156,
      "step": 1492
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.1068296592878433,
      "learning_rate": 7.78945348086532e-06,
      "loss": 0.4585,
      "step": 1493
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.7152150971883837,
      "learning_rate": 7.786461415009783e-06,
      "loss": 0.8695,
      "step": 1494
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.532926250619941,
      "learning_rate": 7.783467901121748e-06,
      "loss": 0.5826,
      "step": 1495
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.956971291025821,
      "learning_rate": 7.780472940756848e-06,
      "loss": 0.5414,
      "step": 1496
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.3504656317652435,
      "learning_rate": 7.777476535471465e-06,
      "loss": 0.7805,
      "step": 1497
    },
    {
      "epoch": 0.33,
      "grad_norm": 5.019340319106731,
      "learning_rate": 7.774478686822733e-06,
      "loss": 0.3943,
      "step": 1498
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.4757277361151298,
      "learning_rate": 7.771479396368533e-06,
      "loss": 0.6314,
      "step": 1499
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.4302357865238915,
      "learning_rate": 7.768478665667501e-06,
      "loss": 0.5934,
      "step": 1500
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.667561678037306,
      "learning_rate": 7.765476496279014e-06,
      "loss": 0.8281,
      "step": 1501
    },
    {
      "epoch": 0.33,
      "grad_norm": 5.512380681485707,
      "learning_rate": 7.762472889763206e-06,
      "loss": 0.7154,
      "step": 1502
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.9811992582685605,
      "learning_rate": 7.759467847680948e-06,
      "loss": 0.7711,
      "step": 1503
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.5119086710227627,
      "learning_rate": 7.756461371593867e-06,
      "loss": 0.5905,
      "step": 1504
    },
    {
      "epoch": 0.33,
      "grad_norm": 4.050253509160749,
      "learning_rate": 7.753453463064324e-06,
      "loss": 0.7562,
      "step": 1505
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.6823383582137548,
      "learning_rate": 7.750444123655435e-06,
      "loss": 0.5968,
      "step": 1506
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.2196010698190967,
      "learning_rate": 7.74743335493105e-06,
      "loss": 0.6326,
      "step": 1507
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.467676032649934,
      "learning_rate": 7.744421158455772e-06,
      "loss": 0.4427,
      "step": 1508
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.6182678425538097,
      "learning_rate": 7.741407535794939e-06,
      "loss": 0.6244,
      "step": 1509
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.628895520445228,
      "learning_rate": 7.738392488514628e-06,
      "loss": 0.6847,
      "step": 1510
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.352900948584009,
      "learning_rate": 7.735376018181665e-06,
      "loss": 0.5751,
      "step": 1511
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.608475068451126,
      "learning_rate": 7.732358126363608e-06,
      "loss": 0.5548,
      "step": 1512
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.245321928730648,
      "learning_rate": 7.729338814628758e-06,
      "loss": 0.6,
      "step": 1513
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.274225925396791,
      "learning_rate": 7.726318084546148e-06,
      "loss": 0.6688,
      "step": 1514
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.3950005124943097,
      "learning_rate": 7.723295937685558e-06,
      "loss": 0.5497,
      "step": 1515
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.2453010882921496,
      "learning_rate": 7.720272375617495e-06,
      "loss": 0.468,
      "step": 1516
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.5237518895751343,
      "learning_rate": 7.717247399913204e-06,
      "loss": 0.4972,
      "step": 1517
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.151234805114943,
      "learning_rate": 7.71422101214467e-06,
      "loss": 0.4461,
      "step": 1518
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.0649948473963837,
      "learning_rate": 7.711193213884602e-06,
      "loss": 0.4125,
      "step": 1519
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.485171658569875,
      "learning_rate": 7.708164006706451e-06,
      "loss": 0.4481,
      "step": 1520
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.302728065868364,
      "learning_rate": 7.705133392184393e-06,
      "loss": 0.6336,
      "step": 1521
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.7861964051235075,
      "learning_rate": 7.702101371893346e-06,
      "loss": 0.6668,
      "step": 1522
    },
    {
      "epoch": 0.34,
      "grad_norm": 5.6280055474544195,
      "learning_rate": 7.699067947408942e-06,
      "loss": 0.7734,
      "step": 1523
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.710446238334122,
      "learning_rate": 7.69603312030756e-06,
      "loss": 0.4374,
      "step": 1524
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.1550206850890423,
      "learning_rate": 7.692996892166296e-06,
      "loss": 0.2857,
      "step": 1525
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.866004247047801,
      "learning_rate": 7.689959264562976e-06,
      "loss": 0.6437,
      "step": 1526
    },
    {
      "epoch": 0.34,
      "grad_norm": 6.8504798628266945,
      "learning_rate": 7.686920239076161e-06,
      "loss": 0.4348,
      "step": 1527
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.824209224917011,
      "learning_rate": 7.683879817285128e-06,
      "loss": 0.7944,
      "step": 1528
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.2489352451100095,
      "learning_rate": 7.680838000769889e-06,
      "loss": 0.5427,
      "step": 1529
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.4699231670411983,
      "learning_rate": 7.67779479111117e-06,
      "loss": 0.6931,
      "step": 1530
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.4757594015947935,
      "learning_rate": 7.674750189890431e-06,
      "loss": 0.3669,
      "step": 1531
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.4062759859725853,
      "learning_rate": 7.67170419868985e-06,
      "loss": 0.7921,
      "step": 1532
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.173070526646421,
      "learning_rate": 7.668656819092332e-06,
      "loss": 0.5425,
      "step": 1533
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.453046664994359,
      "learning_rate": 7.665608052681496e-06,
      "loss": 0.5121,
      "step": 1534
    },
    {
      "epoch": 0.34,
      "grad_norm": 6.2173865490272755,
      "learning_rate": 7.662557901041686e-06,
      "loss": 0.737,
      "step": 1535
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.46061588929353,
      "learning_rate": 7.65950636575797e-06,
      "loss": 0.4149,
      "step": 1536
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.462958326837502,
      "learning_rate": 7.656453448416124e-06,
      "loss": 0.5412,
      "step": 1537
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.5021840420164376,
      "learning_rate": 7.653399150602654e-06,
      "loss": 0.5808,
      "step": 1538
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.406827545740975,
      "learning_rate": 7.650343473904776e-06,
      "loss": 0.6655,
      "step": 1539
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.9430536605134088,
      "learning_rate": 7.647286419910426e-06,
      "loss": 0.6312,
      "step": 1540
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.661748327645265,
      "learning_rate": 7.644227990208254e-06,
      "loss": 0.5843,
      "step": 1541
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.022928129184267,
      "learning_rate": 7.641168186387628e-06,
      "loss": 0.5267,
      "step": 1542
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.5932480626237617,
      "learning_rate": 7.638107010038623e-06,
      "loss": 0.4893,
      "step": 1543
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.9771343198551397,
      "learning_rate": 7.635044462752033e-06,
      "loss": 0.8394,
      "step": 1544
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.878818072859588,
      "learning_rate": 7.631980546119366e-06,
      "loss": 0.6165,
      "step": 1545
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.3987325990441706,
      "learning_rate": 7.628915261732834e-06,
      "loss": 0.5438,
      "step": 1546
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.9884253477434055,
      "learning_rate": 7.625848611185372e-06,
      "loss": 0.4095,
      "step": 1547
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.262121108861236,
      "learning_rate": 7.62278059607061e-06,
      "loss": 0.729,
      "step": 1548
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.459574095040929,
      "learning_rate": 7.619711217982899e-06,
      "loss": 0.4118,
      "step": 1549
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.7899035424055394,
      "learning_rate": 7.616640478517295e-06,
      "loss": 0.5204,
      "step": 1550
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.878517371826102,
      "learning_rate": 7.613568379269557e-06,
      "loss": 0.4662,
      "step": 1551
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.140258160707174,
      "learning_rate": 7.610494921836155e-06,
      "loss": 0.5051,
      "step": 1552
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.559022099225641,
      "learning_rate": 7.607420107814265e-06,
      "loss": 0.4638,
      "step": 1553
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.8181776892456503,
      "learning_rate": 7.6043439388017685e-06,
      "loss": 0.4397,
      "step": 1554
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.6751637170442244,
      "learning_rate": 7.601266416397244e-06,
      "loss": 0.8435,
      "step": 1555
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.499960408614565,
      "learning_rate": 7.598187542199984e-06,
      "loss": 0.5322,
      "step": 1556
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.709968637097284,
      "learning_rate": 7.595107317809977e-06,
      "loss": 0.6332,
      "step": 1557
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.48011127927,
      "learning_rate": 7.592025744827913e-06,
      "loss": 0.6886,
      "step": 1558
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.784632373473184,
      "learning_rate": 7.5889428248551854e-06,
      "loss": 0.7093,
      "step": 1559
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.9029772217610734,
      "learning_rate": 7.585858559493886e-06,
      "loss": 0.6191,
      "step": 1560
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.464818973033536,
      "learning_rate": 7.582772950346808e-06,
      "loss": 0.4636,
      "step": 1561
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.264883475595471,
      "learning_rate": 7.579685999017439e-06,
      "loss": 0.6057,
      "step": 1562
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.2840310838210502,
      "learning_rate": 7.576597707109968e-06,
      "loss": 0.5883,
      "step": 1563
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.110173792255504,
      "learning_rate": 7.573508076229277e-06,
      "loss": 0.6444,
      "step": 1564
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.314663449624882,
      "learning_rate": 7.570417107980945e-06,
      "loss": 0.4566,
      "step": 1565
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.093057802992832,
      "learning_rate": 7.56732480397125e-06,
      "loss": 0.6501,
      "step": 1566
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.567479834802008,
      "learning_rate": 7.564231165807159e-06,
      "loss": 0.495,
      "step": 1567
    },
    {
      "epoch": 0.35,
      "grad_norm": 5.1040237665764785,
      "learning_rate": 7.561136195096334e-06,
      "loss": 0.637,
      "step": 1568
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.593381584444933,
      "learning_rate": 7.558039893447131e-06,
      "loss": 0.5958,
      "step": 1569
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.101893698740991,
      "learning_rate": 7.554942262468594e-06,
      "loss": 0.6018,
      "step": 1570
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.970522643630745,
      "learning_rate": 7.551843303770463e-06,
      "loss": 0.713,
      "step": 1571
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.9038678847484483,
      "learning_rate": 7.548743018963163e-06,
      "loss": 0.5065,
      "step": 1572
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.1856389806267877,
      "learning_rate": 7.545641409657809e-06,
      "loss": 0.5079,
      "step": 1573
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.185175794071716,
      "learning_rate": 7.542538477466208e-06,
      "loss": 0.5554,
      "step": 1574
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.314220043838453,
      "learning_rate": 7.539434224000852e-06,
      "loss": 0.7215,
      "step": 1575
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.0602794326769094,
      "learning_rate": 7.536328650874918e-06,
      "loss": 0.5027,
      "step": 1576
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.8722937118234118,
      "learning_rate": 7.533221759702272e-06,
      "loss": 0.6022,
      "step": 1577
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.0229452198567355,
      "learning_rate": 7.5301135520974615e-06,
      "loss": 0.6784,
      "step": 1578
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.5695596865718637,
      "learning_rate": 7.527004029675722e-06,
      "loss": 0.6759,
      "step": 1579
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.544305759544104,
      "learning_rate": 7.523893194052967e-06,
      "loss": 0.6623,
      "step": 1580
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.5891885447403,
      "learning_rate": 7.520781046845797e-06,
      "loss": 0.4487,
      "step": 1581
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.093807974278356,
      "learning_rate": 7.517667589671496e-06,
      "loss": 0.6183,
      "step": 1582
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.054125085341472,
      "learning_rate": 7.514552824148022e-06,
      "loss": 0.7423,
      "step": 1583
    },
    {
      "epoch": 0.35,
      "grad_norm": 6.417369469599523,
      "learning_rate": 7.511436751894017e-06,
      "loss": 0.8344,
      "step": 1584
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.5302966479600535,
      "learning_rate": 7.508319374528802e-06,
      "loss": 0.5465,
      "step": 1585
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.0500944303901796,
      "learning_rate": 7.505200693672374e-06,
      "loss": 0.5878,
      "step": 1586
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.1902734551288936,
      "learning_rate": 7.502080710945412e-06,
      "loss": 0.5399,
      "step": 1587
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.592480320637913,
      "learning_rate": 7.498959427969266e-06,
      "loss": 0.407,
      "step": 1588
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.37435388191296,
      "learning_rate": 7.495836846365965e-06,
      "loss": 0.6419,
      "step": 1589
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.260145238971423,
      "learning_rate": 7.492712967758211e-06,
      "loss": 0.5823,
      "step": 1590
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.6939325796515705,
      "learning_rate": 7.489587793769385e-06,
      "loss": 0.4656,
      "step": 1591
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.7926320345427937,
      "learning_rate": 7.486461326023533e-06,
      "loss": 0.5539,
      "step": 1592
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.764581642227572,
      "learning_rate": 7.483333566145379e-06,
      "loss": 0.706,
      "step": 1593
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.252548391406272,
      "learning_rate": 7.480204515760318e-06,
      "loss": 0.6556,
      "step": 1594
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.327504676516277,
      "learning_rate": 7.477074176494414e-06,
      "loss": 0.6751,
      "step": 1595
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.354256696422383,
      "learning_rate": 7.473942549974402e-06,
      "loss": 0.6466,
      "step": 1596
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.745549675347316,
      "learning_rate": 7.470809637827685e-06,
      "loss": 0.6354,
      "step": 1597
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.788958987941476,
      "learning_rate": 7.467675441682335e-06,
      "loss": 0.645,
      "step": 1598
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.2876807135277506,
      "learning_rate": 7.464539963167091e-06,
      "loss": 0.577,
      "step": 1599
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.4168779068098885,
      "learning_rate": 7.461403203911356e-06,
      "loss": 0.495,
      "step": 1600
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.7951897206145175,
      "learning_rate": 7.458265165545205e-06,
      "loss": 0.5918,
      "step": 1601
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.619552850371084,
      "learning_rate": 7.455125849699367e-06,
      "loss": 0.6492,
      "step": 1602
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.6943894840610345,
      "learning_rate": 7.451985258005249e-06,
      "loss": 0.4631,
      "step": 1603
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.33949618538232,
      "learning_rate": 7.448843392094906e-06,
      "loss": 0.5206,
      "step": 1604
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.930041154733694,
      "learning_rate": 7.44570025360107e-06,
      "loss": 0.6569,
      "step": 1605
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.339988532082304,
      "learning_rate": 7.442555844157122e-06,
      "loss": 0.4269,
      "step": 1606
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.5491426196577045,
      "learning_rate": 7.439410165397109e-06,
      "loss": 0.7606,
      "step": 1607
    },
    {
      "epoch": 0.36,
      "grad_norm": 5.0793290774769115,
      "learning_rate": 7.436263218955739e-06,
      "loss": 0.8728,
      "step": 1608
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.050308787722799,
      "learning_rate": 7.433115006468373e-06,
      "loss": 0.6326,
      "step": 1609
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.75326765956525,
      "learning_rate": 7.429965529571037e-06,
      "loss": 0.7639,
      "step": 1610
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.327819918215779,
      "learning_rate": 7.4268147899004095e-06,
      "loss": 0.5352,
      "step": 1611
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.031550153953709,
      "learning_rate": 7.423662789093826e-06,
      "loss": 0.5436,
      "step": 1612
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.177262754235057,
      "learning_rate": 7.420509528789279e-06,
      "loss": 0.6829,
      "step": 1613
    },
    {
      "epoch": 0.36,
      "grad_norm": 5.290417293271431,
      "learning_rate": 7.417355010625413e-06,
      "loss": 0.9373,
      "step": 1614
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.139309268630443,
      "learning_rate": 7.414199236241528e-06,
      "loss": 0.464,
      "step": 1615
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.513681864867211,
      "learning_rate": 7.411042207277577e-06,
      "loss": 0.6836,
      "step": 1616
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.7866481924017075,
      "learning_rate": 7.407883925374163e-06,
      "loss": 0.5774,
      "step": 1617
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.307561636787696,
      "learning_rate": 7.404724392172542e-06,
      "loss": 0.5682,
      "step": 1618
    },
    {
      "epoch": 0.36,
      "grad_norm": 5.900651033341327,
      "learning_rate": 7.40156360931462e-06,
      "loss": 0.7682,
      "step": 1619
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.5427906321177276,
      "learning_rate": 7.398401578442953e-06,
      "loss": 0.6027,
      "step": 1620
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.8614880743731645,
      "learning_rate": 7.3952383012007424e-06,
      "loss": 0.6596,
      "step": 1621
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.674617794438155,
      "learning_rate": 7.392073779231841e-06,
      "loss": 0.6683,
      "step": 1622
    },
    {
      "epoch": 0.36,
      "grad_norm": 5.356229090817379,
      "learning_rate": 7.388908014180746e-06,
      "loss": 0.4644,
      "step": 1623
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.742788690310068,
      "learning_rate": 7.3857410076926015e-06,
      "loss": 0.6138,
      "step": 1624
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.924085405055253,
      "learning_rate": 7.382572761413198e-06,
      "loss": 0.5608,
      "step": 1625
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.29275840039816,
      "learning_rate": 7.379403276988969e-06,
      "loss": 0.8355,
      "step": 1626
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.386749653636982,
      "learning_rate": 7.37623255606699e-06,
      "loss": 0.5966,
      "step": 1627
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.8981595851884445,
      "learning_rate": 7.373060600294983e-06,
      "loss": 0.6063,
      "step": 1628
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.90547665508779,
      "learning_rate": 7.369887411321305e-06,
      "loss": 0.4514,
      "step": 1629
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.4581354604084127,
      "learning_rate": 7.366712990794962e-06,
      "loss": 0.6331,
      "step": 1630
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.519166688389284,
      "learning_rate": 7.363537340365594e-06,
      "loss": 0.4486,
      "step": 1631
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.7553304656410784,
      "learning_rate": 7.360360461683485e-06,
      "loss": 0.4608,
      "step": 1632
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.7999303536482065,
      "learning_rate": 7.357182356399552e-06,
      "loss": 0.5078,
      "step": 1633
    },
    {
      "epoch": 0.36,
      "grad_norm": 7.346573657360287,
      "learning_rate": 7.354003026165353e-06,
      "loss": 0.3784,
      "step": 1634
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.914585046746945,
      "learning_rate": 7.35082247263308e-06,
      "loss": 0.5608,
      "step": 1635
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.2625971333215262,
      "learning_rate": 7.347640697455563e-06,
      "loss": 0.6375,
      "step": 1636
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.966747471779488,
      "learning_rate": 7.344457702286267e-06,
      "loss": 0.4857,
      "step": 1637
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.6693160750023077,
      "learning_rate": 7.341273488779289e-06,
      "loss": 0.9211,
      "step": 1638
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.465401861386323,
      "learning_rate": 7.338088058589362e-06,
      "loss": 0.7225,
      "step": 1639
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.598571106481156,
      "learning_rate": 7.334901413371848e-06,
      "loss": 0.5191,
      "step": 1640
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.302224146274585,
      "learning_rate": 7.331713554782741e-06,
      "loss": 0.5184,
      "step": 1641
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.7384321684841293,
      "learning_rate": 7.328524484478668e-06,
      "loss": 0.5473,
      "step": 1642
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.5471610825559456,
      "learning_rate": 7.325334204116883e-06,
      "loss": 0.3322,
      "step": 1643
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.209177978848883,
      "learning_rate": 7.322142715355272e-06,
      "loss": 0.4719,
      "step": 1644
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.63865313082115,
      "learning_rate": 7.318950019852344e-06,
      "loss": 0.667,
      "step": 1645
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.157780668387621,
      "learning_rate": 7.31575611926724e-06,
      "loss": 0.5554,
      "step": 1646
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.013123738410503,
      "learning_rate": 7.312561015259724e-06,
      "loss": 0.6881,
      "step": 1647
    },
    {
      "epoch": 0.37,
      "grad_norm": 5.188231382116543,
      "learning_rate": 7.309364709490189e-06,
      "loss": 0.526,
      "step": 1648
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.343608459978321,
      "learning_rate": 7.306167203619647e-06,
      "loss": 0.63,
      "step": 1649
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.6008491919112644,
      "learning_rate": 7.302968499309738e-06,
      "loss": 0.8497,
      "step": 1650
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.4623098186767365,
      "learning_rate": 7.299768598222725e-06,
      "loss": 0.6264,
      "step": 1651
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.559330094118519,
      "learning_rate": 7.29656750202149e-06,
      "loss": 0.5314,
      "step": 1652
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.2199649004711026,
      "learning_rate": 7.293365212369538e-06,
      "loss": 0.6438,
      "step": 1653
    },
    {
      "epoch": 0.37,
      "grad_norm": 9.436559285560204,
      "learning_rate": 7.290161730930993e-06,
      "loss": 0.5386,
      "step": 1654
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.455857112600143,
      "learning_rate": 7.286957059370601e-06,
      "loss": 0.641,
      "step": 1655
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.8075592162378205,
      "learning_rate": 7.283751199353724e-06,
      "loss": 0.4342,
      "step": 1656
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0926190871385453,
      "learning_rate": 7.2805441525463406e-06,
      "loss": 0.3232,
      "step": 1657
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.262211127717506,
      "learning_rate": 7.277335920615047e-06,
      "loss": 0.6909,
      "step": 1658
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.7695439811541345,
      "learning_rate": 7.27412650522706e-06,
      "loss": 0.4273,
      "step": 1659
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.220794184794601,
      "learning_rate": 7.270915908050204e-06,
      "loss": 0.6145,
      "step": 1660
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.3443786467755676,
      "learning_rate": 7.267704130752923e-06,
      "loss": 0.6076,
      "step": 1661
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.2605491698577795,
      "learning_rate": 7.264491175004271e-06,
      "loss": 0.4085,
      "step": 1662
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.185827803099823,
      "learning_rate": 7.2612770424739156e-06,
      "loss": 0.7725,
      "step": 1663
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.3475296751035026,
      "learning_rate": 7.258061734832136e-06,
      "loss": 0.5033,
      "step": 1664
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.006034319173972,
      "learning_rate": 7.254845253749822e-06,
      "loss": 0.3838,
      "step": 1665
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.404706361503093,
      "learning_rate": 7.2516276008984744e-06,
      "loss": 0.6322,
      "step": 1666
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.8835341167039705,
      "learning_rate": 7.248408777950198e-06,
      "loss": 0.6064,
      "step": 1667
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.716249763871541,
      "learning_rate": 7.245188786577715e-06,
      "loss": 0.5328,
      "step": 1668
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0416572966728963,
      "learning_rate": 7.241967628454345e-06,
      "loss": 0.4075,
      "step": 1669
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.026736409726017,
      "learning_rate": 7.23874530525402e-06,
      "loss": 0.7689,
      "step": 1670
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.3938755180162867,
      "learning_rate": 7.235521818651274e-06,
      "loss": 0.5085,
      "step": 1671
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.034455332396931,
      "learning_rate": 7.232297170321247e-06,
      "loss": 0.5428,
      "step": 1672
    },
    {
      "epoch": 0.37,
      "grad_norm": 6.730172323286635,
      "learning_rate": 7.229071361939685e-06,
      "loss": 0.5895,
      "step": 1673
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.8493933161376117,
      "learning_rate": 7.225844395182935e-06,
      "loss": 0.4423,
      "step": 1674
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.31482739435741,
      "learning_rate": 7.222616271727942e-06,
      "loss": 0.6152,
      "step": 1675
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.9171511726255153,
      "learning_rate": 7.2193869932522595e-06,
      "loss": 0.6437,
      "step": 1676
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0652321155950313,
      "learning_rate": 7.216156561434036e-06,
      "loss": 0.5455,
      "step": 1677
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.964384267475227,
      "learning_rate": 7.2129249779520204e-06,
      "loss": 0.537,
      "step": 1678
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0403472759526378,
      "learning_rate": 7.20969224448556e-06,
      "loss": 0.6305,
      "step": 1679
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.5574168020793397,
      "learning_rate": 7.206458362714603e-06,
      "loss": 0.5443,
      "step": 1680
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.88760944148693,
      "learning_rate": 7.203223334319686e-06,
      "loss": 0.5481,
      "step": 1681
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.50892047935362,
      "learning_rate": 7.199987160981955e-06,
      "loss": 0.6165,
      "step": 1682
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.8974396921864813,
      "learning_rate": 7.196749844383138e-06,
      "loss": 0.459,
      "step": 1683
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0151666224561393,
      "learning_rate": 7.193511386205562e-06,
      "loss": 0.3857,
      "step": 1684
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.888535594476059,
      "learning_rate": 7.1902717881321475e-06,
      "loss": 0.481,
      "step": 1685
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.336257659909886,
      "learning_rate": 7.187031051846408e-06,
      "loss": 0.61,
      "step": 1686
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.246430402674771,
      "learning_rate": 7.1837891790324485e-06,
      "loss": 0.7289,
      "step": 1687
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.689727599290482,
      "learning_rate": 7.180546171374963e-06,
      "loss": 0.4296,
      "step": 1688
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.301497258827691,
      "learning_rate": 7.1773020305592355e-06,
      "loss": 0.632,
      "step": 1689
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.3481736339362964,
      "learning_rate": 7.174056758271141e-06,
      "loss": 0.4842,
      "step": 1690
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.6821994123128348,
      "learning_rate": 7.17081035619714e-06,
      "loss": 0.5679,
      "step": 1691
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.0931174384082625,
      "learning_rate": 7.1675628260242804e-06,
      "loss": 0.5917,
      "step": 1692
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.73794623057985,
      "learning_rate": 7.164314169440198e-06,
      "loss": 0.5569,
      "step": 1693
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.28594704290054,
      "learning_rate": 7.161064388133112e-06,
      "loss": 0.6865,
      "step": 1694
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.2574715492233888,
      "learning_rate": 7.157813483791829e-06,
      "loss": 0.5249,
      "step": 1695
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.7605962331255203,
      "learning_rate": 7.154561458105736e-06,
      "loss": 0.663,
      "step": 1696
    },
    {
      "epoch": 0.38,
      "grad_norm": 8.308489579561101,
      "learning_rate": 7.151308312764802e-06,
      "loss": 0.4954,
      "step": 1697
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.523613530509782,
      "learning_rate": 7.148054049459583e-06,
      "loss": 0.4098,
      "step": 1698
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.001553313615527,
      "learning_rate": 7.1447986698812115e-06,
      "loss": 0.3293,
      "step": 1699
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.416299632344755,
      "learning_rate": 7.141542175721401e-06,
      "loss": 0.647,
      "step": 1700
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.807837110162622,
      "learning_rate": 7.138284568672443e-06,
      "loss": 0.7888,
      "step": 1701
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.513771529604078,
      "learning_rate": 7.135025850427213e-06,
      "loss": 0.4719,
      "step": 1702
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.364746600277635,
      "learning_rate": 7.131766022679158e-06,
      "loss": 0.6796,
      "step": 1703
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.7339549013514266,
      "learning_rate": 7.128505087122301e-06,
      "loss": 0.6794,
      "step": 1704
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.079235091356985,
      "learning_rate": 7.1252430454512485e-06,
      "loss": 0.5012,
      "step": 1705
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.8127100590652607,
      "learning_rate": 7.121979899361171e-06,
      "loss": 0.5341,
      "step": 1706
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.4242678851631365,
      "learning_rate": 7.11871565054782e-06,
      "loss": 0.6797,
      "step": 1707
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.765610623481464,
      "learning_rate": 7.11545030070752e-06,
      "loss": 0.592,
      "step": 1708
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.801053122756012,
      "learning_rate": 7.112183851537166e-06,
      "loss": 0.5903,
      "step": 1709
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.325510297697667,
      "learning_rate": 7.108916304734221e-06,
      "loss": 0.6567,
      "step": 1710
    },
    {
      "epoch": 0.38,
      "grad_norm": 5.129170015064745,
      "learning_rate": 7.105647661996725e-06,
      "loss": 0.4892,
      "step": 1711
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.97430748484436,
      "learning_rate": 7.102377925023285e-06,
      "loss": 0.8333,
      "step": 1712
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.725756021656634,
      "learning_rate": 7.099107095513074e-06,
      "loss": 0.7169,
      "step": 1713
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.488531441899063,
      "learning_rate": 7.095835175165834e-06,
      "loss": 0.6748,
      "step": 1714
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.7114055008315736,
      "learning_rate": 7.0925621656818754e-06,
      "loss": 0.5697,
      "step": 1715
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.546388496438957,
      "learning_rate": 7.089288068762074e-06,
      "loss": 0.77,
      "step": 1716
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.8755268224323323,
      "learning_rate": 7.086012886107871e-06,
      "loss": 0.7354,
      "step": 1717
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.227797015129547,
      "learning_rate": 7.082736619421271e-06,
      "loss": 0.7071,
      "step": 1718
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.544061520702429,
      "learning_rate": 7.079459270404842e-06,
      "loss": 0.754,
      "step": 1719
    },
    {
      "epoch": 0.38,
      "grad_norm": 5.094256699330155,
      "learning_rate": 7.076180840761715e-06,
      "loss": 0.4951,
      "step": 1720
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.1898232476414803,
      "learning_rate": 7.072901332195581e-06,
      "loss": 0.439,
      "step": 1721
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.112422909524422,
      "learning_rate": 7.069620746410695e-06,
      "loss": 0.5924,
      "step": 1722
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.0057725759562075,
      "learning_rate": 7.0663390851118674e-06,
      "loss": 0.5803,
      "step": 1723
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.018629036983408,
      "learning_rate": 7.06305635000447e-06,
      "loss": 0.904,
      "step": 1724
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.7211255986488516,
      "learning_rate": 7.059772542794435e-06,
      "loss": 0.7428,
      "step": 1725
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.088424723508793,
      "learning_rate": 7.056487665188248e-06,
      "loss": 0.5029,
      "step": 1726
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.6855710415669796,
      "learning_rate": 7.05320171889295e-06,
      "loss": 0.5265,
      "step": 1727
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.3295444268707697,
      "learning_rate": 7.049914705616141e-06,
      "loss": 0.6069,
      "step": 1728
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.1226747429914754,
      "learning_rate": 7.046626627065974e-06,
      "loss": 0.6224,
      "step": 1729
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.4477596415712752,
      "learning_rate": 7.0433374849511545e-06,
      "loss": 0.3349,
      "step": 1730
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.9601331615238324,
      "learning_rate": 7.040047280980944e-06,
      "loss": 0.5926,
      "step": 1731
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.978440558369103,
      "learning_rate": 7.036756016865152e-06,
      "loss": 0.5604,
      "step": 1732
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.4239114640286807,
      "learning_rate": 7.0334636943141386e-06,
      "loss": 0.5366,
      "step": 1733
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.6740189996859955,
      "learning_rate": 7.030170315038818e-06,
      "loss": 0.4296,
      "step": 1734
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.970028938444971,
      "learning_rate": 7.02687588075065e-06,
      "loss": 0.4916,
      "step": 1735
    },
    {
      "epoch": 0.39,
      "grad_norm": 5.459974320814308,
      "learning_rate": 7.0235803931616455e-06,
      "loss": 0.5707,
      "step": 1736
    },
    {
      "epoch": 0.39,
      "grad_norm": 5.187860336536564,
      "learning_rate": 7.02028385398436e-06,
      "loss": 0.8943,
      "step": 1737
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.26091442015192,
      "learning_rate": 7.016986264931896e-06,
      "loss": 0.6084,
      "step": 1738
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.9122237569486886,
      "learning_rate": 7.013687627717905e-06,
      "loss": 0.7506,
      "step": 1739
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.3939336325752683,
      "learning_rate": 7.010387944056577e-06,
      "loss": 0.6798,
      "step": 1740
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.579603565085046,
      "learning_rate": 7.007087215662651e-06,
      "loss": 0.73,
      "step": 1741
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.017388458481124,
      "learning_rate": 7.003785444251408e-06,
      "loss": 0.5304,
      "step": 1742
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.693195315199166,
      "learning_rate": 7.0004826315386676e-06,
      "loss": 0.7114,
      "step": 1743
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.8789907754390636,
      "learning_rate": 6.997178779240794e-06,
      "loss": 0.434,
      "step": 1744
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.6071475112618026,
      "learning_rate": 6.993873889074694e-06,
      "loss": 0.27,
      "step": 1745
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.224102672524099,
      "learning_rate": 6.990567962757806e-06,
      "loss": 0.692,
      "step": 1746
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.151958153690689,
      "learning_rate": 6.987261002008114e-06,
      "loss": 0.5204,
      "step": 1747
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.419623361027002,
      "learning_rate": 6.983953008544135e-06,
      "loss": 0.8177,
      "step": 1748
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.8915605678161755,
      "learning_rate": 6.980643984084927e-06,
      "loss": 0.3313,
      "step": 1749
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.4202607301627195,
      "learning_rate": 6.9773339303500806e-06,
      "loss": 0.7659,
      "step": 1750
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.5568135175962046,
      "learning_rate": 6.97402284905972e-06,
      "loss": 0.3277,
      "step": 1751
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.368578477392732,
      "learning_rate": 6.970710741934508e-06,
      "loss": 0.7726,
      "step": 1752
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.386603151724203,
      "learning_rate": 6.967397610695635e-06,
      "loss": 0.83,
      "step": 1753
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.36084866459037,
      "learning_rate": 6.964083457064831e-06,
      "loss": 0.9059,
      "step": 1754
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.216431051996709,
      "learning_rate": 6.9607682827643476e-06,
      "loss": 0.658,
      "step": 1755
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.5722329511243602,
      "learning_rate": 6.9574520895169764e-06,
      "loss": 0.4118,
      "step": 1756
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.0653110437719473,
      "learning_rate": 6.95413487904603e-06,
      "loss": 0.539,
      "step": 1757
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.9626314272827132,
      "learning_rate": 6.9508166530753594e-06,
      "loss": 0.5208,
      "step": 1758
    },
    {
      "epoch": 0.39,
      "grad_norm": 5.324944675029349,
      "learning_rate": 6.947497413329333e-06,
      "loss": 0.7842,
      "step": 1759
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.192428809652552,
      "learning_rate": 6.9441771615328515e-06,
      "loss": 0.7895,
      "step": 1760
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.6309383089323313,
      "learning_rate": 6.940855899411343e-06,
      "loss": 0.4113,
      "step": 1761
    },
    {
      "epoch": 0.39,
      "grad_norm": 5.6697504362669005,
      "learning_rate": 6.937533628690753e-06,
      "loss": 0.761,
      "step": 1762
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.948893638647653,
      "learning_rate": 6.934210351097563e-06,
      "loss": 0.4285,
      "step": 1763
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.5647220770048276,
      "learning_rate": 6.9308860683587674e-06,
      "loss": 0.6442,
      "step": 1764
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.320232313789549,
      "learning_rate": 6.9275607822018875e-06,
      "loss": 0.8275,
      "step": 1765
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.2763192600232625,
      "learning_rate": 6.924234494354967e-06,
      "loss": 0.4659,
      "step": 1766
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.329409569027804,
      "learning_rate": 6.920907206546565e-06,
      "loss": 0.6431,
      "step": 1767
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.409884916059768,
      "learning_rate": 6.917578920505768e-06,
      "loss": 0.6843,
      "step": 1768
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.2229697227667455,
      "learning_rate": 6.914249637962174e-06,
      "loss": 0.6716,
      "step": 1769
    },
    {
      "epoch": 0.39,
      "grad_norm": 4.5924736959757135,
      "learning_rate": 6.9109193606459025e-06,
      "loss": 0.7755,
      "step": 1770
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.097864752715261,
      "learning_rate": 6.907588090287587e-06,
      "loss": 0.5619,
      "step": 1771
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.4989086195676737,
      "learning_rate": 6.904255828618384e-06,
      "loss": 0.7486,
      "step": 1772
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.1988994702538047,
      "learning_rate": 6.900922577369957e-06,
      "loss": 0.5907,
      "step": 1773
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.982056094845156,
      "learning_rate": 6.897588338274489e-06,
      "loss": 0.4889,
      "step": 1774
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.3592932366985275,
      "learning_rate": 6.894253113064674e-06,
      "loss": 0.5926,
      "step": 1775
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.14901419289463,
      "learning_rate": 6.890916903473719e-06,
      "loss": 0.4997,
      "step": 1776
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.843819435729426,
      "learning_rate": 6.887579711235342e-06,
      "loss": 0.7195,
      "step": 1777
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.5299825640221805,
      "learning_rate": 6.884241538083771e-06,
      "loss": 0.5705,
      "step": 1778
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.919893303749002,
      "learning_rate": 6.880902385753749e-06,
      "loss": 0.4237,
      "step": 1779
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.2286220573747118,
      "learning_rate": 6.87756225598052e-06,
      "loss": 0.4893,
      "step": 1780
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.50430386483058,
      "learning_rate": 6.874221150499843e-06,
      "loss": 0.4954,
      "step": 1781
    },
    {
      "epoch": 0.4,
      "grad_norm": 5.0515466338719195,
      "learning_rate": 6.870879071047978e-06,
      "loss": 0.6388,
      "step": 1782
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.7517327888551226,
      "learning_rate": 6.867536019361694e-06,
      "loss": 0.5499,
      "step": 1783
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.475173333502117,
      "learning_rate": 6.8641919971782665e-06,
      "loss": 0.7012,
      "step": 1784
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.367686989336631,
      "learning_rate": 6.860847006235475e-06,
      "loss": 0.4819,
      "step": 1785
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.5196968185393036,
      "learning_rate": 6.8575010482716e-06,
      "loss": 0.738,
      "step": 1786
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.2711006395958147,
      "learning_rate": 6.8541541250254236e-06,
      "loss": 0.4067,
      "step": 1787
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.187185191871271,
      "learning_rate": 6.850806238236237e-06,
      "loss": 0.5979,
      "step": 1788
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.6723971750455693,
      "learning_rate": 6.847457389643823e-06,
      "loss": 0.4616,
      "step": 1789
    },
    {
      "epoch": 0.4,
      "grad_norm": 5.033337744404133,
      "learning_rate": 6.8441075809884716e-06,
      "loss": 0.6342,
      "step": 1790
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.2872253986661204,
      "learning_rate": 6.840756814010965e-06,
      "loss": 0.494,
      "step": 1791
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.753795749867136,
      "learning_rate": 6.837405090452588e-06,
      "loss": 0.8103,
      "step": 1792
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.3619472279463984,
      "learning_rate": 6.834052412055121e-06,
      "loss": 0.4841,
      "step": 1793
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.2727113454934265,
      "learning_rate": 6.8306987805608424e-06,
      "loss": 0.5072,
      "step": 1794
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.987892290861286,
      "learning_rate": 6.827344197712523e-06,
      "loss": 0.6623,
      "step": 1795
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.28075664748754,
      "learning_rate": 6.823988665253431e-06,
      "loss": 0.6269,
      "step": 1796
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.567375374674133,
      "learning_rate": 6.820632184927323e-06,
      "loss": 0.592,
      "step": 1797
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.724446848843796,
      "learning_rate": 6.817274758478453e-06,
      "loss": 0.72,
      "step": 1798
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.744300070374533,
      "learning_rate": 6.8139163876515694e-06,
      "loss": 0.6652,
      "step": 1799
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.074294017261444,
      "learning_rate": 6.8105570741919e-06,
      "loss": 0.6888,
      "step": 1800
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.8520638630113395,
      "learning_rate": 6.8071968198451765e-06,
      "loss": 0.5252,
      "step": 1801
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.1006523675362945,
      "learning_rate": 6.8038356263576065e-06,
      "loss": 0.5584,
      "step": 1802
    },
    {
      "epoch": 0.4,
      "grad_norm": 5.717424096495673,
      "learning_rate": 6.800473495475899e-06,
      "loss": 0.4153,
      "step": 1803
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.9413543887591342,
      "learning_rate": 6.797110428947238e-06,
      "loss": 0.675,
      "step": 1804
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.5220943875543984,
      "learning_rate": 6.793746428519299e-06,
      "loss": 0.3793,
      "step": 1805
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.442028503443973,
      "learning_rate": 6.7903814959402436e-06,
      "loss": 0.474,
      "step": 1806
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.490502240790942,
      "learning_rate": 6.7870156329587155e-06,
      "loss": 0.861,
      "step": 1807
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.429024937275808,
      "learning_rate": 6.7836488413238454e-06,
      "loss": 0.6193,
      "step": 1808
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.4532991721427457,
      "learning_rate": 6.780281122785243e-06,
      "loss": 0.471,
      "step": 1809
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.887084505760338,
      "learning_rate": 6.776912479093002e-06,
      "loss": 0.6663,
      "step": 1810
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.564360800440626,
      "learning_rate": 6.773542911997694e-06,
      "loss": 0.664,
      "step": 1811
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.0244917198299044,
      "learning_rate": 6.770172423250374e-06,
      "loss": 0.4717,
      "step": 1812
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.9420083344461565,
      "learning_rate": 6.766801014602576e-06,
      "loss": 0.6186,
      "step": 1813
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.702799183865645,
      "learning_rate": 6.763428687806304e-06,
      "loss": 0.6013,
      "step": 1814
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.2426476012539265,
      "learning_rate": 6.760055444614052e-06,
      "loss": 0.3725,
      "step": 1815
    },
    {
      "epoch": 0.4,
      "grad_norm": 5.747250494737868,
      "learning_rate": 6.756681286778781e-06,
      "loss": 0.6037,
      "step": 1816
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.3449622050007495,
      "learning_rate": 6.7533062160539305e-06,
      "loss": 0.5551,
      "step": 1817
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.08344831303279,
      "learning_rate": 6.749930234193415e-06,
      "loss": 0.8451,
      "step": 1818
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.681890545189765,
      "learning_rate": 6.74655334295162e-06,
      "loss": 0.7185,
      "step": 1819
    },
    {
      "epoch": 0.41,
      "grad_norm": 5.702675148559797,
      "learning_rate": 6.743175544083403e-06,
      "loss": 0.4881,
      "step": 1820
    },
    {
      "epoch": 0.41,
      "grad_norm": 9.577650706350676,
      "learning_rate": 6.739796839344101e-06,
      "loss": 0.7045,
      "step": 1821
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.300645929269113,
      "learning_rate": 6.73641723048951e-06,
      "loss": 0.7457,
      "step": 1822
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.4729159855536365,
      "learning_rate": 6.733036719275904e-06,
      "loss": 0.4014,
      "step": 1823
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.392341089241,
      "learning_rate": 6.729655307460024e-06,
      "loss": 0.4768,
      "step": 1824
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.9166548321808037,
      "learning_rate": 6.726272996799079e-06,
      "loss": 0.388,
      "step": 1825
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.186951474444977,
      "learning_rate": 6.722889789050745e-06,
      "loss": 0.5456,
      "step": 1826
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.088783933278373,
      "learning_rate": 6.719505685973162e-06,
      "loss": 0.6783,
      "step": 1827
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.2617652467095573,
      "learning_rate": 6.716120689324939e-06,
      "loss": 0.5396,
      "step": 1828
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.1830735476735823,
      "learning_rate": 6.712734800865146e-06,
      "loss": 0.5524,
      "step": 1829
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.2812877197573713,
      "learning_rate": 6.709348022353319e-06,
      "loss": 0.5195,
      "step": 1830
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.718135059555863,
      "learning_rate": 6.705960355549458e-06,
      "loss": 0.473,
      "step": 1831
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.2626216493831968,
      "learning_rate": 6.702571802214018e-06,
      "loss": 0.6639,
      "step": 1832
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.7804634264884567,
      "learning_rate": 6.6991823641079215e-06,
      "loss": 0.4864,
      "step": 1833
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.9521477123378586,
      "learning_rate": 6.695792042992546e-06,
      "loss": 0.7558,
      "step": 1834
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.0154164655272964,
      "learning_rate": 6.692400840629734e-06,
      "loss": 0.5849,
      "step": 1835
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.811428601629567,
      "learning_rate": 6.689008758781776e-06,
      "loss": 0.594,
      "step": 1836
    },
    {
      "epoch": 0.41,
      "grad_norm": 5.665619163283962,
      "learning_rate": 6.685615799211432e-06,
      "loss": 0.44,
      "step": 1837
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.9876229213462815,
      "learning_rate": 6.6822219636819084e-06,
      "loss": 0.5119,
      "step": 1838
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.058541995334709,
      "learning_rate": 6.67882725395687e-06,
      "loss": 0.5867,
      "step": 1839
    },
    {
      "epoch": 0.41,
      "grad_norm": 6.457364810949461,
      "learning_rate": 6.675431671800437e-06,
      "loss": 0.4815,
      "step": 1840
    },
    {
      "epoch": 0.41,
      "grad_norm": 5.414132289403928,
      "learning_rate": 6.67203521897718e-06,
      "loss": 0.4626,
      "step": 1841
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.0536839553650603,
      "learning_rate": 6.668637897252126e-06,
      "loss": 0.7144,
      "step": 1842
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.9428471924771538,
      "learning_rate": 6.6652397083907505e-06,
      "loss": 0.7159,
      "step": 1843
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.9783808862548997,
      "learning_rate": 6.661840654158982e-06,
      "loss": 0.6818,
      "step": 1844
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.878709165229018,
      "learning_rate": 6.658440736323195e-06,
      "loss": 0.7542,
      "step": 1845
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.1837549298871872,
      "learning_rate": 6.6550399566502175e-06,
      "loss": 0.567,
      "step": 1846
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.342859707568541,
      "learning_rate": 6.651638316907322e-06,
      "loss": 0.4401,
      "step": 1847
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.758645032000939,
      "learning_rate": 6.648235818862229e-06,
      "loss": 0.7159,
      "step": 1848
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.5978456847112037,
      "learning_rate": 6.644832464283105e-06,
      "loss": 0.5749,
      "step": 1849
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.8575931870446585,
      "learning_rate": 6.6414282549385615e-06,
      "loss": 0.3546,
      "step": 1850
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.4842418464283935,
      "learning_rate": 6.638023192597655e-06,
      "loss": 0.6042,
      "step": 1851
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.2528263154600072,
      "learning_rate": 6.634617279029884e-06,
      "loss": 0.5799,
      "step": 1852
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.605957439806731,
      "learning_rate": 6.631210516005189e-06,
      "loss": 0.8831,
      "step": 1853
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.877975865458725,
      "learning_rate": 6.6278029052939545e-06,
      "loss": 0.3937,
      "step": 1854
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.276303707476598,
      "learning_rate": 6.624394448667003e-06,
      "loss": 0.6255,
      "step": 1855
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.6308857049136583,
      "learning_rate": 6.620985147895598e-06,
      "loss": 0.4902,
      "step": 1856
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.9553002780346107,
      "learning_rate": 6.6175750047514405e-06,
      "loss": 0.4971,
      "step": 1857
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.8402466797497343,
      "learning_rate": 6.614164021006671e-06,
      "loss": 0.5629,
      "step": 1858
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.6673635589820153,
      "learning_rate": 6.6107521984338654e-06,
      "loss": 0.4929,
      "step": 1859
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.2877521259998836,
      "learning_rate": 6.607339538806034e-06,
      "loss": 0.5772,
      "step": 1860
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.2754904072320623,
      "learning_rate": 6.603926043896627e-06,
      "loss": 0.4733,
      "step": 1861
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.190123624801189,
      "learning_rate": 6.600511715479523e-06,
      "loss": 0.4667,
      "step": 1862
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.9247022871765975,
      "learning_rate": 6.597096555329038e-06,
      "loss": 0.8344,
      "step": 1863
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.137347266679834,
      "learning_rate": 6.5936805652199175e-06,
      "loss": 0.6974,
      "step": 1864
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.0747832236868438,
      "learning_rate": 6.59026374692734e-06,
      "loss": 0.6696,
      "step": 1865
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.568969025682835,
      "learning_rate": 6.586846102226913e-06,
      "loss": 0.3993,
      "step": 1866
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.215885887381684,
      "learning_rate": 6.583427632894679e-06,
      "loss": 0.8268,
      "step": 1867
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.1194050037392347,
      "learning_rate": 6.580008340707096e-06,
      "loss": 0.6524,
      "step": 1868
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.9093594652267187,
      "learning_rate": 6.576588227441063e-06,
      "loss": 0.5008,
      "step": 1869
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.616578924593767,
      "learning_rate": 6.573167294873899e-06,
      "loss": 0.6361,
      "step": 1870
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.4312292973897627,
      "learning_rate": 6.569745544783351e-06,
      "loss": 0.6443,
      "step": 1871
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.953640549903191,
      "learning_rate": 6.56632297894759e-06,
      "loss": 0.7321,
      "step": 1872
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.057956167123803,
      "learning_rate": 6.562899599145213e-06,
      "loss": 0.5033,
      "step": 1873
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.839384436246476,
      "learning_rate": 6.559475407155235e-06,
      "loss": 0.6062,
      "step": 1874
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.302987747372998,
      "learning_rate": 6.556050404757097e-06,
      "loss": 0.5612,
      "step": 1875
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.705184097774847,
      "learning_rate": 6.552624593730661e-06,
      "loss": 0.4607,
      "step": 1876
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.9630822026365307,
      "learning_rate": 6.549197975856207e-06,
      "loss": 0.4211,
      "step": 1877
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.4941450432753305,
      "learning_rate": 6.545770552914439e-06,
      "loss": 0.6561,
      "step": 1878
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.438290593718183,
      "learning_rate": 6.5423423266864715e-06,
      "loss": 0.5851,
      "step": 1879
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.2997526725945017,
      "learning_rate": 6.538913298953846e-06,
      "loss": 0.5646,
      "step": 1880
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.7204644303150185,
      "learning_rate": 6.535483471498511e-06,
      "loss": 0.5987,
      "step": 1881
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.2177826170171384,
      "learning_rate": 6.532052846102841e-06,
      "loss": 0.5602,
      "step": 1882
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.608446956732164,
      "learning_rate": 6.528621424549613e-06,
      "loss": 0.5599,
      "step": 1883
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.864934076124417,
      "learning_rate": 6.525189208622027e-06,
      "loss": 0.3359,
      "step": 1884
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.4312550037741976,
      "learning_rate": 6.521756200103694e-06,
      "loss": 0.5169,
      "step": 1885
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.726602138059852,
      "learning_rate": 6.518322400778632e-06,
      "loss": 0.5221,
      "step": 1886
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.484958471104173,
      "learning_rate": 6.51488781243128e-06,
      "loss": 0.5062,
      "step": 1887
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.9118867088995355,
      "learning_rate": 6.511452436846475e-06,
      "loss": 0.6529,
      "step": 1888
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.753405220042086,
      "learning_rate": 6.508016275809472e-06,
      "loss": 0.6564,
      "step": 1889
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.776858269387097,
      "learning_rate": 6.504579331105929e-06,
      "loss": 0.4912,
      "step": 1890
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.9934692917911785,
      "learning_rate": 6.5011416045219155e-06,
      "loss": 0.5326,
      "step": 1891
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.010017799375779,
      "learning_rate": 6.4977030978439025e-06,
      "loss": 0.6363,
      "step": 1892
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.638101106035159,
      "learning_rate": 6.494263812858772e-06,
      "loss": 0.5153,
      "step": 1893
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.440685785934136,
      "learning_rate": 6.490823751353805e-06,
      "loss": 0.5236,
      "step": 1894
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.876823145092478,
      "learning_rate": 6.487382915116691e-06,
      "loss": 0.7252,
      "step": 1895
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.6157142522789743,
      "learning_rate": 6.4839413059355175e-06,
      "loss": 0.5473,
      "step": 1896
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.2979782590213356,
      "learning_rate": 6.480498925598775e-06,
      "loss": 0.6035,
      "step": 1897
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.676237494668412,
      "learning_rate": 6.477055775895359e-06,
      "loss": 0.3935,
      "step": 1898
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.049162880122553,
      "learning_rate": 6.473611858614557e-06,
      "loss": 0.6187,
      "step": 1899
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.8898592494029844,
      "learning_rate": 6.470167175546064e-06,
      "loss": 0.4918,
      "step": 1900
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.496684352336887,
      "learning_rate": 6.466721728479966e-06,
      "loss": 0.6383,
      "step": 1901
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.640351858866839,
      "learning_rate": 6.463275519206748e-06,
      "loss": 0.6871,
      "step": 1902
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.732137039907958,
      "learning_rate": 6.459828549517295e-06,
      "loss": 0.302,
      "step": 1903
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.271069967188249,
      "learning_rate": 6.456380821202881e-06,
      "loss": 0.7572,
      "step": 1904
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.755766012872928,
      "learning_rate": 6.45293233605518e-06,
      "loss": 0.5282,
      "step": 1905
    },
    {
      "epoch": 0.42,
      "grad_norm": 4.157486827895404,
      "learning_rate": 6.449483095866251e-06,
      "loss": 0.6387,
      "step": 1906
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.7371991282737604,
      "learning_rate": 6.446033102428559e-06,
      "loss": 0.7914,
      "step": 1907
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.337412768296382,
      "learning_rate": 6.4425823575349456e-06,
      "loss": 0.4653,
      "step": 1908
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.070739013645965,
      "learning_rate": 6.439130862978653e-06,
      "loss": 0.5224,
      "step": 1909
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.064769723038073,
      "learning_rate": 6.4356786205533065e-06,
      "loss": 0.6466,
      "step": 1910
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.5727589591456033,
      "learning_rate": 6.432225632052927e-06,
      "loss": 0.5553,
      "step": 1911
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.80431256934122,
      "learning_rate": 6.428771899271917e-06,
      "loss": 0.5566,
      "step": 1912
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.5458173944217375,
      "learning_rate": 6.425317424005068e-06,
      "loss": 0.6342,
      "step": 1913
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.0582847941784483,
      "learning_rate": 6.421862208047558e-06,
      "loss": 0.4364,
      "step": 1914
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.8863928421456104,
      "learning_rate": 6.418406253194948e-06,
      "loss": 0.7606,
      "step": 1915
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.5344821125592696,
      "learning_rate": 6.414949561243188e-06,
      "loss": 0.5673,
      "step": 1916
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.435421108368816,
      "learning_rate": 6.4114921339886015e-06,
      "loss": 0.5034,
      "step": 1917
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.741163670598335,
      "learning_rate": 6.408033973227905e-06,
      "loss": 0.6472,
      "step": 1918
    },
    {
      "epoch": 0.43,
      "grad_norm": 15.444137577724819,
      "learning_rate": 6.4045750807581875e-06,
      "loss": 0.5281,
      "step": 1919
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.036301383942956,
      "learning_rate": 6.401115458376924e-06,
      "loss": 0.3436,
      "step": 1920
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.079405796473713,
      "learning_rate": 6.397655107881967e-06,
      "loss": 0.6423,
      "step": 1921
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.700497549607842,
      "learning_rate": 6.394194031071544e-06,
      "loss": 0.508,
      "step": 1922
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.271899620260698,
      "learning_rate": 6.390732229744268e-06,
      "loss": 0.5408,
      "step": 1923
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.570350240022494,
      "learning_rate": 6.3872697056991185e-06,
      "loss": 0.4884,
      "step": 1924
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.6665219806723637,
      "learning_rate": 6.3838064607354574e-06,
      "loss": 0.4766,
      "step": 1925
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.8704182246306713,
      "learning_rate": 6.380342496653021e-06,
      "loss": 0.4915,
      "step": 1926
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.039728076889751,
      "learning_rate": 6.376877815251915e-06,
      "loss": 0.8911,
      "step": 1927
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.4816131456622985,
      "learning_rate": 6.373412418332622e-06,
      "loss": 0.6421,
      "step": 1928
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.316273399450084,
      "learning_rate": 6.369946307695994e-06,
      "loss": 0.7676,
      "step": 1929
    },
    {
      "epoch": 0.43,
      "grad_norm": 5.0433750062436,
      "learning_rate": 6.366479485143258e-06,
      "loss": 0.6375,
      "step": 1930
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.380541711700538,
      "learning_rate": 6.363011952476004e-06,
      "loss": 0.4645,
      "step": 1931
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.6142068221151153,
      "learning_rate": 6.359543711496197e-06,
      "loss": 0.4416,
      "step": 1932
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.213149862337876,
      "learning_rate": 6.356074764006166e-06,
      "loss": 0.8552,
      "step": 1933
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.796400324559856,
      "learning_rate": 6.352605111808611e-06,
      "loss": 0.518,
      "step": 1934
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.21279252332667,
      "learning_rate": 6.349134756706595e-06,
      "loss": 0.3237,
      "step": 1935
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.830371449104099,
      "learning_rate": 6.345663700503549e-06,
      "loss": 0.4778,
      "step": 1936
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.83741163059753,
      "learning_rate": 6.342191945003267e-06,
      "loss": 0.6219,
      "step": 1937
    },
    {
      "epoch": 0.43,
      "grad_norm": 7.8359377628885625,
      "learning_rate": 6.338719492009905e-06,
      "loss": 0.4946,
      "step": 1938
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.10369931751694,
      "learning_rate": 6.335246343327983e-06,
      "loss": 0.6716,
      "step": 1939
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.427023799744445,
      "learning_rate": 6.331772500762383e-06,
      "loss": 0.6852,
      "step": 1940
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.814387995457881,
      "learning_rate": 6.328297966118346e-06,
      "loss": 0.5724,
      "step": 1941
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.986610140597953,
      "learning_rate": 6.324822741201474e-06,
      "loss": 0.3455,
      "step": 1942
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.942143877734018,
      "learning_rate": 6.321346827817728e-06,
      "loss": 0.6467,
      "step": 1943
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.6351315494336927,
      "learning_rate": 6.317870227773426e-06,
      "loss": 0.5379,
      "step": 1944
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.5286339883450895,
      "learning_rate": 6.314392942875243e-06,
      "loss": 0.4721,
      "step": 1945
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.869864605171813,
      "learning_rate": 6.310914974930206e-06,
      "loss": 0.778,
      "step": 1946
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.0258499510668746,
      "learning_rate": 6.307436325745706e-06,
      "loss": 0.5522,
      "step": 1947
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.891794165459121,
      "learning_rate": 6.3039569971294816e-06,
      "loss": 0.4745,
      "step": 1948
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.2196467644025137,
      "learning_rate": 6.300476990889622e-06,
      "loss": 0.5225,
      "step": 1949
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.3188670467532413,
      "learning_rate": 6.296996308834575e-06,
      "loss": 0.676,
      "step": 1950
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.245153517258746,
      "learning_rate": 6.293514952773139e-06,
      "loss": 0.5408,
      "step": 1951
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.104692223716373,
      "learning_rate": 6.290032924514457e-06,
      "loss": 0.3343,
      "step": 1952
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.8236760920936854,
      "learning_rate": 6.286550225868024e-06,
      "loss": 0.4604,
      "step": 1953
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.1661986572640117,
      "learning_rate": 6.283066858643687e-06,
      "loss": 0.4525,
      "step": 1954
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.2069061057156314,
      "learning_rate": 6.2795828246516355e-06,
      "loss": 0.5721,
      "step": 1955
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.460854108063609,
      "learning_rate": 6.27609812570241e-06,
      "loss": 0.4667,
      "step": 1956
    },
    {
      "epoch": 0.44,
      "grad_norm": 5.117967308718323,
      "learning_rate": 6.272612763606892e-06,
      "loss": 0.5961,
      "step": 1957
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.200612700692906,
      "learning_rate": 6.2691267401763114e-06,
      "loss": 0.682,
      "step": 1958
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.8957023254856855,
      "learning_rate": 6.2656400572222374e-06,
      "loss": 0.4475,
      "step": 1959
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.510070817815378,
      "learning_rate": 6.262152716556586e-06,
      "loss": 0.6472,
      "step": 1960
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.658025168043973,
      "learning_rate": 6.258664719991616e-06,
      "loss": 0.6358,
      "step": 1961
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.828933518416064,
      "learning_rate": 6.2551760693399196e-06,
      "loss": 0.5603,
      "step": 1962
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.758351067544866,
      "learning_rate": 6.25168676641444e-06,
      "loss": 0.4509,
      "step": 1963
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.7422526166148953,
      "learning_rate": 6.2481968130284475e-06,
      "loss": 0.558,
      "step": 1964
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.826549459575673,
      "learning_rate": 6.244706210995561e-06,
      "loss": 0.4325,
      "step": 1965
    },
    {
      "epoch": 0.44,
      "grad_norm": 5.016639962439252,
      "learning_rate": 6.24121496212973e-06,
      "loss": 0.7165,
      "step": 1966
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.606624380743448,
      "learning_rate": 6.2377230682452404e-06,
      "loss": 0.54,
      "step": 1967
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.27723532128252,
      "learning_rate": 6.234230531156717e-06,
      "loss": 0.6226,
      "step": 1968
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.117917199773748,
      "learning_rate": 6.230737352679115e-06,
      "loss": 0.4832,
      "step": 1969
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.324237854083426,
      "learning_rate": 6.227243534627725e-06,
      "loss": 0.5162,
      "step": 1970
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.584653098682721,
      "learning_rate": 6.22374907881817e-06,
      "loss": 0.7466,
      "step": 1971
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.895786883723943,
      "learning_rate": 6.2202539870664045e-06,
      "loss": 0.6495,
      "step": 1972
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.4579042866638514,
      "learning_rate": 6.216758261188711e-06,
      "loss": 0.4783,
      "step": 1973
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.040859834921616,
      "learning_rate": 6.213261903001706e-06,
      "loss": 0.6072,
      "step": 1974
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.9212466347801818,
      "learning_rate": 6.209764914322331e-06,
      "loss": 0.4943,
      "step": 1975
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.9548150241513707,
      "learning_rate": 6.206267296967854e-06,
      "loss": 0.5748,
      "step": 1976
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.5854437438870654,
      "learning_rate": 6.2027690527558745e-06,
      "loss": 0.5465,
      "step": 1977
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.295801141640395,
      "learning_rate": 6.199270183504313e-06,
      "loss": 0.539,
      "step": 1978
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.209088490415862,
      "learning_rate": 6.1957706910314195e-06,
      "loss": 0.7937,
      "step": 1979
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.233378492144419,
      "learning_rate": 6.1922705771557654e-06,
      "loss": 0.8604,
      "step": 1980
    },
    {
      "epoch": 0.44,
      "grad_norm": 5.083717829298655,
      "learning_rate": 6.188769843696243e-06,
      "loss": 0.6598,
      "step": 1981
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.655177203738534,
      "learning_rate": 6.185268492472067e-06,
      "loss": 0.5336,
      "step": 1982
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.6615156554931185,
      "learning_rate": 6.181766525302779e-06,
      "loss": 0.5095,
      "step": 1983
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.974050745819479,
      "learning_rate": 6.1782639440082334e-06,
      "loss": 0.6227,
      "step": 1984
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.007558626873044,
      "learning_rate": 6.1747607504086086e-06,
      "loss": 0.576,
      "step": 1985
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.718868624247333,
      "learning_rate": 6.171256946324397e-06,
      "loss": 0.6989,
      "step": 1986
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.103195281084606,
      "learning_rate": 6.167752533576412e-06,
      "loss": 0.5266,
      "step": 1987
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.227266297879032,
      "learning_rate": 6.164247513985781e-06,
      "loss": 0.5078,
      "step": 1988
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.909531560757494,
      "learning_rate": 6.160741889373948e-06,
      "loss": 0.5324,
      "step": 1989
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.6980205469051715,
      "learning_rate": 6.157235661562673e-06,
      "loss": 0.668,
      "step": 1990
    },
    {
      "epoch": 0.44,
      "grad_norm": 5.1689149338536815,
      "learning_rate": 6.153728832374022e-06,
      "loss": 0.7665,
      "step": 1991
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.9966732189002294,
      "learning_rate": 6.1502214036303855e-06,
      "loss": 0.6698,
      "step": 1992
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.69494132823829,
      "learning_rate": 6.146713377154455e-06,
      "loss": 0.7163,
      "step": 1993
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.8867088003236008,
      "learning_rate": 6.143204754769239e-06,
      "loss": 0.7033,
      "step": 1994
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.971417102966372,
      "learning_rate": 6.139695538298051e-06,
      "loss": 0.549,
      "step": 1995
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.9051193875426056,
      "learning_rate": 6.136185729564515e-06,
      "loss": 0.4939,
      "step": 1996
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.120093099106059,
      "learning_rate": 6.1326753303925666e-06,
      "loss": 0.4354,
      "step": 1997
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.166883844028721,
      "learning_rate": 6.129164342606443e-06,
      "loss": 0.487,
      "step": 1998
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.093728358825153,
      "learning_rate": 6.12565276803069e-06,
      "loss": 0.5538,
      "step": 1999
    },
    {
      "epoch": 0.45,
      "grad_norm": 5.349004558238854,
      "learning_rate": 6.122140608490157e-06,
      "loss": 0.521,
      "step": 2000
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.140306310449458,
      "learning_rate": 6.118627865809998e-06,
      "loss": 0.6732,
      "step": 2001
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.4451293398427167,
      "learning_rate": 6.115114541815671e-06,
      "loss": 0.5475,
      "step": 2002
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.874174720047695,
      "learning_rate": 6.111600638332933e-06,
      "loss": 0.6582,
      "step": 2003
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.125962983271843,
      "learning_rate": 6.108086157187847e-06,
      "loss": 0.7852,
      "step": 2004
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.427689858415186,
      "learning_rate": 6.10457110020677e-06,
      "loss": 0.3976,
      "step": 2005
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.44760708482276,
      "learning_rate": 6.101055469216366e-06,
      "loss": 0.5874,
      "step": 2006
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.7359036889837416,
      "learning_rate": 6.0975392660435896e-06,
      "loss": 0.6171,
      "step": 2007
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.2888964187719,
      "learning_rate": 6.094022492515698e-06,
      "loss": 0.5634,
      "step": 2008
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.387550689810786,
      "learning_rate": 6.090505150460239e-06,
      "loss": 0.3917,
      "step": 2009
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.011842195021224,
      "learning_rate": 6.086987241705067e-06,
      "loss": 0.6351,
      "step": 2010
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.6338754072008532,
      "learning_rate": 6.083468768078318e-06,
      "loss": 0.4185,
      "step": 2011
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.6024207350950865,
      "learning_rate": 6.079949731408427e-06,
      "loss": 0.3695,
      "step": 2012
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.3893866721761743,
      "learning_rate": 6.076430133524125e-06,
      "loss": 0.4545,
      "step": 2013
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.6084927841639804,
      "learning_rate": 6.072909976254431e-06,
      "loss": 0.6502,
      "step": 2014
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.208806990544566,
      "learning_rate": 6.0693892614286535e-06,
      "loss": 0.5357,
      "step": 2015
    },
    {
      "epoch": 0.45,
      "grad_norm": 5.3205153331481485,
      "learning_rate": 6.065867990876391e-06,
      "loss": 0.4771,
      "step": 2016
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.22462197987441,
      "learning_rate": 6.062346166427536e-06,
      "loss": 0.4961,
      "step": 2017
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.328371008393824,
      "learning_rate": 6.058823789912262e-06,
      "loss": 0.4003,
      "step": 2018
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.236144897953325,
      "learning_rate": 6.055300863161035e-06,
      "loss": 0.631,
      "step": 2019
    },
    {
      "epoch": 0.45,
      "grad_norm": 5.038595878899813,
      "learning_rate": 6.0517773880046036e-06,
      "loss": 0.7857,
      "step": 2020
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.412263705424273,
      "learning_rate": 6.048253366274e-06,
      "loss": 0.4445,
      "step": 2021
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.9963575368327326,
      "learning_rate": 6.044728799800545e-06,
      "loss": 0.6775,
      "step": 2022
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.896349433137209,
      "learning_rate": 6.041203690415839e-06,
      "loss": 0.4195,
      "step": 2023
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.42704937821607,
      "learning_rate": 6.0376780399517655e-06,
      "loss": 0.532,
      "step": 2024
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.115855197406048,
      "learning_rate": 6.034151850240488e-06,
      "loss": 0.3224,
      "step": 2025
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.0558332273094475,
      "learning_rate": 6.030625123114455e-06,
      "loss": 0.4928,
      "step": 2026
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.7178339426378613,
      "learning_rate": 6.0270978604063875e-06,
      "loss": 0.5206,
      "step": 2027
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.616246821221805,
      "learning_rate": 6.023570063949291e-06,
      "loss": 0.3666,
      "step": 2028
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.611181813631362,
      "learning_rate": 6.020041735576444e-06,
      "loss": 0.5307,
      "step": 2029
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.8530179474816584,
      "learning_rate": 6.016512877121401e-06,
      "loss": 0.446,
      "step": 2030
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.8677403978356173,
      "learning_rate": 6.012983490417996e-06,
      "loss": 0.6881,
      "step": 2031
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.212697005398962,
      "learning_rate": 6.0094535773003345e-06,
      "loss": 0.5379,
      "step": 2032
    },
    {
      "epoch": 0.45,
      "grad_norm": 7.322612433704478,
      "learning_rate": 6.005923139602798e-06,
      "loss": 0.7882,
      "step": 2033
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.817591390564521,
      "learning_rate": 6.002392179160037e-06,
      "loss": 0.5396,
      "step": 2034
    },
    {
      "epoch": 0.45,
      "grad_norm": 6.8013170437538495,
      "learning_rate": 5.998860697806977e-06,
      "loss": 0.6364,
      "step": 2035
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.4310974555921403,
      "learning_rate": 5.995328697378814e-06,
      "loss": 0.5999,
      "step": 2036
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.796672773010313,
      "learning_rate": 5.99179617971101e-06,
      "loss": 0.5809,
      "step": 2037
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.09140208767653,
      "learning_rate": 5.9882631466393005e-06,
      "loss": 0.635,
      "step": 2038
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.640205384431944,
      "learning_rate": 5.9847295999996835e-06,
      "loss": 0.4539,
      "step": 2039
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.010084157371205,
      "learning_rate": 5.981195541628432e-06,
      "loss": 0.4235,
      "step": 2040
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.027136474610158,
      "learning_rate": 5.977660973362076e-06,
      "loss": 0.5697,
      "step": 2041
    },
    {
      "epoch": 0.45,
      "grad_norm": 5.121949421857875,
      "learning_rate": 5.974125897037417e-06,
      "loss": 0.6463,
      "step": 2042
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.7817760535934473,
      "learning_rate": 5.970590314491517e-06,
      "loss": 0.627,
      "step": 2043
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.167180391068775,
      "learning_rate": 5.967054227561702e-06,
      "loss": 0.697,
      "step": 2044
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.610747275036481,
      "learning_rate": 5.9635176380855634e-06,
      "loss": 0.5654,
      "step": 2045
    },
    {
      "epoch": 0.46,
      "grad_norm": 5.7697471811762195,
      "learning_rate": 5.9599805479009444e-06,
      "loss": 0.5593,
      "step": 2046
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.714676775087765,
      "learning_rate": 5.956442958845959e-06,
      "loss": 0.733,
      "step": 2047
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.387026395760888,
      "learning_rate": 5.9529048727589755e-06,
      "loss": 0.5141,
      "step": 2048
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.973626672482438,
      "learning_rate": 5.949366291478621e-06,
      "loss": 0.5145,
      "step": 2049
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.626216884957152,
      "learning_rate": 5.945827216843781e-06,
      "loss": 0.5091,
      "step": 2050
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.4973364512264444,
      "learning_rate": 5.942287650693593e-06,
      "loss": 0.4731,
      "step": 2051
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.788265678610692,
      "learning_rate": 5.938747594867456e-06,
      "loss": 0.4868,
      "step": 2052
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.0166000932663053,
      "learning_rate": 5.93520705120502e-06,
      "loss": 0.4076,
      "step": 2053
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.836360442185127,
      "learning_rate": 5.9316660215461895e-06,
      "loss": 0.5495,
      "step": 2054
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.959218408030662,
      "learning_rate": 5.928124507731121e-06,
      "loss": 0.5362,
      "step": 2055
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.243742752068561,
      "learning_rate": 5.924582511600224e-06,
      "loss": 0.4249,
      "step": 2056
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.3713304376535658,
      "learning_rate": 5.9210400349941565e-06,
      "loss": 0.5109,
      "step": 2057
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.264630241038539,
      "learning_rate": 5.917497079753828e-06,
      "loss": 0.6122,
      "step": 2058
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.1513644812765556,
      "learning_rate": 5.9139536477203945e-06,
      "loss": 0.5001,
      "step": 2059
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.253367875510102,
      "learning_rate": 5.910409740735263e-06,
      "loss": 0.6765,
      "step": 2060
    },
    {
      "epoch": 0.46,
      "grad_norm": 5.6704088333085325,
      "learning_rate": 5.906865360640084e-06,
      "loss": 0.7154,
      "step": 2061
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.691995750408333,
      "learning_rate": 5.9033205092767575e-06,
      "loss": 0.6359,
      "step": 2062
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.5946107916014,
      "learning_rate": 5.899775188487425e-06,
      "loss": 0.567,
      "step": 2063
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.08839151937427,
      "learning_rate": 5.8962294001144734e-06,
      "loss": 0.5334,
      "step": 2064
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.0663112134078307,
      "learning_rate": 5.892683146000533e-06,
      "loss": 0.3617,
      "step": 2065
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.051792066964169,
      "learning_rate": 5.889136427988474e-06,
      "loss": 0.5564,
      "step": 2066
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.2720099116892065,
      "learning_rate": 5.8855892479214114e-06,
      "loss": 0.6204,
      "step": 2067
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.5265044473773255,
      "learning_rate": 5.882041607642697e-06,
      "loss": 0.4652,
      "step": 2068
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.900893811247543,
      "learning_rate": 5.878493508995924e-06,
      "loss": 0.5655,
      "step": 2069
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.2765096224609973,
      "learning_rate": 5.8749449538249205e-06,
      "loss": 0.5042,
      "step": 2070
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.67724523920589,
      "learning_rate": 5.871395943973758e-06,
      "loss": 0.5849,
      "step": 2071
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.6064635803572034,
      "learning_rate": 5.867846481286736e-06,
      "loss": 0.6384,
      "step": 2072
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.714531423772337,
      "learning_rate": 5.864296567608395e-06,
      "loss": 0.4778,
      "step": 2073
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.260975620007635,
      "learning_rate": 5.860746204783511e-06,
      "loss": 0.5638,
      "step": 2074
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.308568688617278,
      "learning_rate": 5.857195394657088e-06,
      "loss": 0.5337,
      "step": 2075
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.675706923698157,
      "learning_rate": 5.853644139074368e-06,
      "loss": 0.3641,
      "step": 2076
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.014090818123273,
      "learning_rate": 5.850092439880819e-06,
      "loss": 0.5662,
      "step": 2077
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.38854089970113,
      "learning_rate": 5.8465402989221446e-06,
      "loss": 0.3543,
      "step": 2078
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.385729374007613,
      "learning_rate": 5.842987718044275e-06,
      "loss": 0.5071,
      "step": 2079
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.7670319231234695,
      "learning_rate": 5.839434699093371e-06,
      "loss": 0.6866,
      "step": 2080
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.392000919401397,
      "learning_rate": 5.835881243915819e-06,
      "loss": 0.5768,
      "step": 2081
    },
    {
      "epoch": 0.46,
      "grad_norm": 9.461451665131644,
      "learning_rate": 5.832327354358231e-06,
      "loss": 0.7271,
      "step": 2082
    },
    {
      "epoch": 0.46,
      "grad_norm": 5.551548763472577,
      "learning_rate": 5.828773032267451e-06,
      "loss": 0.5541,
      "step": 2083
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.2387259864407736,
      "learning_rate": 5.8252182794905384e-06,
      "loss": 0.553,
      "step": 2084
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.658309193237511,
      "learning_rate": 5.821663097874786e-06,
      "loss": 0.424,
      "step": 2085
    },
    {
      "epoch": 0.46,
      "grad_norm": 5.175680609583629,
      "learning_rate": 5.818107489267703e-06,
      "loss": 0.485,
      "step": 2086
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.663329829625536,
      "learning_rate": 5.814551455517022e-06,
      "loss": 0.4335,
      "step": 2087
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.2934737207453253,
      "learning_rate": 5.810994998470697e-06,
      "loss": 0.5568,
      "step": 2088
    },
    {
      "epoch": 0.46,
      "grad_norm": 4.2621886575668375,
      "learning_rate": 5.807438119976904e-06,
      "loss": 0.6561,
      "step": 2089
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.5844551655714016,
      "learning_rate": 5.8038808218840324e-06,
      "loss": 0.5968,
      "step": 2090
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.124942887623999,
      "learning_rate": 5.8003231060406965e-06,
      "loss": 0.615,
      "step": 2091
    },
    {
      "epoch": 0.47,
      "grad_norm": 6.676864834599061,
      "learning_rate": 5.796764974295722e-06,
      "loss": 0.5828,
      "step": 2092
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.284683614080002,
      "learning_rate": 5.793206428498156e-06,
      "loss": 0.6313,
      "step": 2093
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.152652038932239,
      "learning_rate": 5.789647470497255e-06,
      "loss": 0.4348,
      "step": 2094
    },
    {
      "epoch": 0.47,
      "grad_norm": 5.313173588979337,
      "learning_rate": 5.786088102142493e-06,
      "loss": 0.6658,
      "step": 2095
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.760021338659959,
      "learning_rate": 5.782528325283558e-06,
      "loss": 0.3714,
      "step": 2096
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.573644625356056,
      "learning_rate": 5.778968141770349e-06,
      "loss": 0.5403,
      "step": 2097
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.8965374464645017,
      "learning_rate": 5.775407553452977e-06,
      "loss": 0.6156,
      "step": 2098
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.625487262928522,
      "learning_rate": 5.771846562181761e-06,
      "loss": 0.4319,
      "step": 2099
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.576904765295792,
      "learning_rate": 5.768285169807233e-06,
      "loss": 0.5703,
      "step": 2100
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.096601938722108,
      "learning_rate": 5.764723378180131e-06,
      "loss": 0.745,
      "step": 2101
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.671183124246774,
      "learning_rate": 5.7611611891514e-06,
      "loss": 0.6287,
      "step": 2102
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.2410334794776454,
      "learning_rate": 5.757598604572193e-06,
      "loss": 0.5341,
      "step": 2103
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.103459556282967,
      "learning_rate": 5.75403562629387e-06,
      "loss": 0.5968,
      "step": 2104
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.705685999142406,
      "learning_rate": 5.7504722561679925e-06,
      "loss": 0.3951,
      "step": 2105
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.868624595624273,
      "learning_rate": 5.746908496046329e-06,
      "loss": 0.5167,
      "step": 2106
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.778745889283935,
      "learning_rate": 5.743344347780845e-06,
      "loss": 0.4545,
      "step": 2107
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.014542159491602,
      "learning_rate": 5.739779813223713e-06,
      "loss": 0.3797,
      "step": 2108
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.622917953357332,
      "learning_rate": 5.736214894227304e-06,
      "loss": 0.6501,
      "step": 2109
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.052662111471959,
      "learning_rate": 5.732649592644192e-06,
      "loss": 0.5785,
      "step": 2110
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.9942492083162753,
      "learning_rate": 5.729083910327144e-06,
      "loss": 0.6756,
      "step": 2111
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.448619398219142,
      "learning_rate": 5.725517849129129e-06,
      "loss": 0.4041,
      "step": 2112
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.4611974952652,
      "learning_rate": 5.7219514109033125e-06,
      "loss": 0.379,
      "step": 2113
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.2877095030965924,
      "learning_rate": 5.718384597503055e-06,
      "loss": 0.4201,
      "step": 2114
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.424023553823877,
      "learning_rate": 5.714817410781911e-06,
      "loss": 0.4694,
      "step": 2115
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.540535330436877,
      "learning_rate": 5.711249852593633e-06,
      "loss": 0.5218,
      "step": 2116
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.1827382213093562,
      "learning_rate": 5.707681924792162e-06,
      "loss": 0.4747,
      "step": 2117
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.0866439770416045,
      "learning_rate": 5.7041136292316325e-06,
      "loss": 0.5091,
      "step": 2118
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.0971438832046188,
      "learning_rate": 5.700544967766373e-06,
      "loss": 0.3131,
      "step": 2119
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.1561180340107615,
      "learning_rate": 5.696975942250896e-06,
      "loss": 0.5495,
      "step": 2120
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.6540383942956596,
      "learning_rate": 5.693406554539911e-06,
      "loss": 0.7037,
      "step": 2121
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.042701462018789,
      "learning_rate": 5.689836806488307e-06,
      "loss": 0.4925,
      "step": 2122
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.004774640757487,
      "learning_rate": 5.6862666999511685e-06,
      "loss": 0.7824,
      "step": 2123
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.368606274739628,
      "learning_rate": 5.68269623678376e-06,
      "loss": 0.3662,
      "step": 2124
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.067484375521469,
      "learning_rate": 5.679125418841538e-06,
      "loss": 0.7835,
      "step": 2125
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.9928708104741193,
      "learning_rate": 5.675554247980135e-06,
      "loss": 0.6088,
      "step": 2126
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.8632395532496915,
      "learning_rate": 5.6719827260553725e-06,
      "loss": 0.4964,
      "step": 2127
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.284155142482244,
      "learning_rate": 5.668410854923255e-06,
      "loss": 0.5704,
      "step": 2128
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.4195803539619662,
      "learning_rate": 5.6648386364399645e-06,
      "loss": 0.6105,
      "step": 2129
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.1373423020938978,
      "learning_rate": 5.661266072461866e-06,
      "loss": 0.2904,
      "step": 2130
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.5340141316553173,
      "learning_rate": 5.6576931648455035e-06,
      "loss": 0.544,
      "step": 2131
    },
    {
      "epoch": 0.47,
      "grad_norm": 7.296306426872246,
      "learning_rate": 5.654119915447602e-06,
      "loss": 0.7538,
      "step": 2132
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.266395611659352,
      "learning_rate": 5.650546326125059e-06,
      "loss": 0.5205,
      "step": 2133
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.575583950127639,
      "learning_rate": 5.646972398734953e-06,
      "loss": 0.5443,
      "step": 2134
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.3182344866371354,
      "learning_rate": 5.643398135134538e-06,
      "loss": 0.4262,
      "step": 2135
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.6493386017264156,
      "learning_rate": 5.639823537181237e-06,
      "loss": 0.5649,
      "step": 2136
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.704920659012035,
      "learning_rate": 5.636248606732656e-06,
      "loss": 0.7699,
      "step": 2137
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.549029268337771,
      "learning_rate": 5.632673345646565e-06,
      "loss": 0.9565,
      "step": 2138
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.7916677977785063,
      "learning_rate": 5.629097755780913e-06,
      "loss": 0.5512,
      "step": 2139
    },
    {
      "epoch": 0.48,
      "grad_norm": 6.154525340878448,
      "learning_rate": 5.625521838993815e-06,
      "loss": 0.4397,
      "step": 2140
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.341142654080703,
      "learning_rate": 5.621945597143559e-06,
      "loss": 0.6401,
      "step": 2141
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.6533463390784955,
      "learning_rate": 5.6183690320885986e-06,
      "loss": 0.5207,
      "step": 2142
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.7497821118379635,
      "learning_rate": 5.614792145687558e-06,
      "loss": 0.7016,
      "step": 2143
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.6874200720542554,
      "learning_rate": 5.611214939799228e-06,
      "loss": 0.4958,
      "step": 2144
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.116477942791686,
      "learning_rate": 5.607637416282563e-06,
      "loss": 0.8248,
      "step": 2145
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.9966187601241145,
      "learning_rate": 5.604059576996688e-06,
      "loss": 0.4015,
      "step": 2146
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.046635721607266,
      "learning_rate": 5.600481423800885e-06,
      "loss": 0.4667,
      "step": 2147
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.745468217025009,
      "learning_rate": 5.596902958554606e-06,
      "loss": 0.7117,
      "step": 2148
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.906853687883038,
      "learning_rate": 5.59332418311746e-06,
      "loss": 0.6708,
      "step": 2149
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.077805858373801,
      "learning_rate": 5.58974509934922e-06,
      "loss": 0.609,
      "step": 2150
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.120421539122867,
      "learning_rate": 5.586165709109815e-06,
      "loss": 0.6116,
      "step": 2151
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.395928751888981,
      "learning_rate": 5.582586014259341e-06,
      "loss": 0.3094,
      "step": 2152
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.609145673643183,
      "learning_rate": 5.579006016658047e-06,
      "loss": 0.5117,
      "step": 2153
    },
    {
      "epoch": 0.48,
      "grad_norm": 5.932462853787238,
      "learning_rate": 5.575425718166338e-06,
      "loss": 0.4597,
      "step": 2154
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.199897976917549,
      "learning_rate": 5.57184512064478e-06,
      "loss": 0.7346,
      "step": 2155
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.819410400312221,
      "learning_rate": 5.56826422595409e-06,
      "loss": 0.3831,
      "step": 2156
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.361627976732521,
      "learning_rate": 5.564683035955143e-06,
      "loss": 0.5614,
      "step": 2157
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.290982322931342,
      "learning_rate": 5.561101552508963e-06,
      "loss": 0.3292,
      "step": 2158
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.242536307036847,
      "learning_rate": 5.557519777476733e-06,
      "loss": 0.6353,
      "step": 2159
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.774360878269392,
      "learning_rate": 5.553937712719781e-06,
      "loss": 0.6728,
      "step": 2160
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.3588236205999635,
      "learning_rate": 5.550355360099592e-06,
      "loss": 0.6055,
      "step": 2161
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.816284711411548,
      "learning_rate": 5.546772721477793e-06,
      "loss": 0.6445,
      "step": 2162
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.1559633445146003,
      "learning_rate": 5.5431897987161665e-06,
      "loss": 0.4671,
      "step": 2163
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.8654697339012984,
      "learning_rate": 5.539606593676639e-06,
      "loss": 0.5599,
      "step": 2164
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.9963689930673745,
      "learning_rate": 5.536023108221283e-06,
      "loss": 0.6742,
      "step": 2165
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.5681376402917273,
      "learning_rate": 5.532439344212318e-06,
      "loss": 0.3487,
      "step": 2166
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.339425017611057,
      "learning_rate": 5.528855303512111e-06,
      "loss": 0.6771,
      "step": 2167
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.925031739579311,
      "learning_rate": 5.52527098798317e-06,
      "loss": 0.6682,
      "step": 2168
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.9987237613888595,
      "learning_rate": 5.521686399488145e-06,
      "loss": 0.4533,
      "step": 2169
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.599433885558517,
      "learning_rate": 5.518101539889829e-06,
      "loss": 0.5852,
      "step": 2170
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.699225030494755,
      "learning_rate": 5.514516411051156e-06,
      "loss": 0.419,
      "step": 2171
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.452941031735164,
      "learning_rate": 5.510931014835198e-06,
      "loss": 0.6065,
      "step": 2172
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.175101878141142,
      "learning_rate": 5.507345353105171e-06,
      "loss": 0.6952,
      "step": 2173
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.305788593981918,
      "learning_rate": 5.503759427724423e-06,
      "loss": 0.5592,
      "step": 2174
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.03630365366604,
      "learning_rate": 5.500173240556444e-06,
      "loss": 0.682,
      "step": 2175
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.1306827184337664,
      "learning_rate": 5.496586793464855e-06,
      "loss": 0.4145,
      "step": 2176
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.506401173387642,
      "learning_rate": 5.493000088313418e-06,
      "loss": 0.5933,
      "step": 2177
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.386432914055092,
      "learning_rate": 5.489413126966022e-06,
      "loss": 0.3948,
      "step": 2178
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.04288744183609,
      "learning_rate": 5.485825911286697e-06,
      "loss": 0.459,
      "step": 2179
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.953104578772105,
      "learning_rate": 5.482238443139598e-06,
      "loss": 0.3125,
      "step": 2180
    },
    {
      "epoch": 0.49,
      "grad_norm": 5.428554610603421,
      "learning_rate": 5.478650724389015e-06,
      "loss": 0.7525,
      "step": 2181
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.6023016526413034,
      "learning_rate": 5.47506275689937e-06,
      "loss": 0.2527,
      "step": 2182
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.641425309143463,
      "learning_rate": 5.471474542535208e-06,
      "loss": 0.516,
      "step": 2183
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.5289099142667792,
      "learning_rate": 5.467886083161211e-06,
      "loss": 0.6141,
      "step": 2184
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.384689344508163,
      "learning_rate": 5.464297380642179e-06,
      "loss": 0.5132,
      "step": 2185
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.068408345851632,
      "learning_rate": 5.460708436843045e-06,
      "loss": 0.7115,
      "step": 2186
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.185808042012343,
      "learning_rate": 5.457119253628865e-06,
      "loss": 0.5099,
      "step": 2187
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.119256769333631,
      "learning_rate": 5.45352983286482e-06,
      "loss": 0.5257,
      "step": 2188
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.8046882673705724,
      "learning_rate": 5.449940176416213e-06,
      "loss": 0.6611,
      "step": 2189
    },
    {
      "epoch": 0.49,
      "grad_norm": 7.698740277844235,
      "learning_rate": 5.446350286148472e-06,
      "loss": 0.5224,
      "step": 2190
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.436363201480017,
      "learning_rate": 5.442760163927143e-06,
      "loss": 0.4981,
      "step": 2191
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.0134062658480834,
      "learning_rate": 5.439169811617898e-06,
      "loss": 0.3171,
      "step": 2192
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.776611086742225,
      "learning_rate": 5.4355792310865226e-06,
      "loss": 0.6826,
      "step": 2193
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.755071976068074,
      "learning_rate": 5.431988424198923e-06,
      "loss": 0.6344,
      "step": 2194
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.445278545588653,
      "learning_rate": 5.428397392821127e-06,
      "loss": 0.6694,
      "step": 2195
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.431409398003163,
      "learning_rate": 5.424806138819271e-06,
      "loss": 0.66,
      "step": 2196
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.474098180499726,
      "learning_rate": 5.4212146640596156e-06,
      "loss": 0.6702,
      "step": 2197
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.06555503353774,
      "learning_rate": 5.4176229704085305e-06,
      "loss": 0.6039,
      "step": 2198
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.8498392915552953,
      "learning_rate": 5.414031059732502e-06,
      "loss": 0.4512,
      "step": 2199
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.016164371488585,
      "learning_rate": 5.410438933898128e-06,
      "loss": 0.5397,
      "step": 2200
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.8792923144585028,
      "learning_rate": 5.406846594772116e-06,
      "loss": 0.521,
      "step": 2201
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.7919727111901604,
      "learning_rate": 5.40325404422129e-06,
      "loss": 0.3299,
      "step": 2202
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.9735026214413782,
      "learning_rate": 5.399661284112577e-06,
      "loss": 0.387,
      "step": 2203
    },
    {
      "epoch": 0.49,
      "grad_norm": 6.602314444248377,
      "learning_rate": 5.396068316313022e-06,
      "loss": 0.4385,
      "step": 2204
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.44180677603376,
      "learning_rate": 5.392475142689767e-06,
      "loss": 0.4904,
      "step": 2205
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.3504649909606155,
      "learning_rate": 5.3888817651100686e-06,
      "loss": 0.4441,
      "step": 2206
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.954647637933872,
      "learning_rate": 5.385288185441288e-06,
      "loss": 0.471,
      "step": 2207
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.772868810139396,
      "learning_rate": 5.381694405550887e-06,
      "loss": 0.544,
      "step": 2208
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.23519575953119,
      "learning_rate": 5.378100427306439e-06,
      "loss": 0.6168,
      "step": 2209
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.862033220023558,
      "learning_rate": 5.374506252575613e-06,
      "loss": 0.5055,
      "step": 2210
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.280172360680294,
      "learning_rate": 5.370911883226187e-06,
      "loss": 0.7362,
      "step": 2211
    },
    {
      "epoch": 0.49,
      "grad_norm": 5.418205959800323,
      "learning_rate": 5.367317321126036e-06,
      "loss": 0.6218,
      "step": 2212
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.8342077895723197,
      "learning_rate": 5.363722568143134e-06,
      "loss": 0.4917,
      "step": 2213
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.492459181211305,
      "learning_rate": 5.360127626145556e-06,
      "loss": 0.4661,
      "step": 2214
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.382369062560657,
      "learning_rate": 5.356532497001478e-06,
      "loss": 0.5478,
      "step": 2215
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.3430261503175016,
      "learning_rate": 5.3529371825791685e-06,
      "loss": 0.3964,
      "step": 2216
    },
    {
      "epoch": 0.49,
      "grad_norm": 6.155946337506665,
      "learning_rate": 5.349341684746994e-06,
      "loss": 0.7267,
      "step": 2217
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.549761016527998,
      "learning_rate": 5.345746005373419e-06,
      "loss": 0.6893,
      "step": 2218
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.135124790434673,
      "learning_rate": 5.3421501463269976e-06,
      "loss": 0.5324,
      "step": 2219
    },
    {
      "epoch": 0.49,
      "grad_norm": 5.398755498960046,
      "learning_rate": 5.33855410947638e-06,
      "loss": 0.6257,
      "step": 2220
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.239741388437622,
      "learning_rate": 5.334957896690309e-06,
      "loss": 0.6515,
      "step": 2221
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.0961899057569773,
      "learning_rate": 5.33136150983762e-06,
      "loss": 0.6142,
      "step": 2222
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.9871605555222356,
      "learning_rate": 5.327764950787234e-06,
      "loss": 0.5511,
      "step": 2223
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.5414196814416203,
      "learning_rate": 5.324168221408167e-06,
      "loss": 0.6513,
      "step": 2224
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.409380365862259,
      "learning_rate": 5.32057132356952e-06,
      "loss": 0.6555,
      "step": 2225
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.88623830430907,
      "learning_rate": 5.316974259140483e-06,
      "loss": 0.5572,
      "step": 2226
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.608048793698103,
      "learning_rate": 5.313377029990332e-06,
      "loss": 0.7274,
      "step": 2227
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.141558050568998,
      "learning_rate": 5.309779637988428e-06,
      "loss": 0.4854,
      "step": 2228
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.434200020977968,
      "learning_rate": 5.30618208500422e-06,
      "loss": 0.603,
      "step": 2229
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.984708682761511,
      "learning_rate": 5.302584372907235e-06,
      "loss": 0.4336,
      "step": 2230
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.627280326146492,
      "learning_rate": 5.29898650356709e-06,
      "loss": 0.3597,
      "step": 2231
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.160907755164667,
      "learning_rate": 5.295388478853475e-06,
      "loss": 0.3601,
      "step": 2232
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.970997425318439,
      "learning_rate": 5.291790300636169e-06,
      "loss": 0.2424,
      "step": 2233
    },
    {
      "epoch": 0.5,
      "grad_norm": 6.096568042005046,
      "learning_rate": 5.288191970785025e-06,
      "loss": 0.6271,
      "step": 2234
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.1739973155298293,
      "learning_rate": 5.284593491169977e-06,
      "loss": 0.4713,
      "step": 2235
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.174167530583821,
      "learning_rate": 5.280994863661038e-06,
      "loss": 0.4825,
      "step": 2236
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.243571750662503,
      "learning_rate": 5.277396090128293e-06,
      "loss": 0.5044,
      "step": 2237
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.060646426936725,
      "learning_rate": 5.273797172441911e-06,
      "loss": 0.51,
      "step": 2238
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.6427761722353553,
      "learning_rate": 5.270198112472128e-06,
      "loss": 0.3227,
      "step": 2239
    },
    {
      "epoch": 0.5,
      "grad_norm": 6.916565304419998,
      "learning_rate": 5.26659891208926e-06,
      "loss": 0.675,
      "step": 2240
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.011002505954831,
      "learning_rate": 5.262999573163692e-06,
      "loss": 0.581,
      "step": 2241
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.6306527338607464,
      "learning_rate": 5.259400097565881e-06,
      "loss": 0.5758,
      "step": 2242
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.0402396307403645,
      "learning_rate": 5.2558004871663584e-06,
      "loss": 0.5096,
      "step": 2243
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.234471050238592,
      "learning_rate": 5.252200743835722e-06,
      "loss": 0.6145,
      "step": 2244
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.421207382257662,
      "learning_rate": 5.24860086944464e-06,
      "loss": 0.6598,
      "step": 2245
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.942251234468916,
      "learning_rate": 5.24500086586385e-06,
      "loss": 0.5888,
      "step": 2246
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.6584846108597,
      "learning_rate": 5.2414007349641546e-06,
      "loss": 0.6381,
      "step": 2247
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.202543457103487,
      "learning_rate": 5.237800478616426e-06,
      "loss": 0.7097,
      "step": 2248
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.341060891273834,
      "learning_rate": 5.234200098691597e-06,
      "loss": 0.4219,
      "step": 2249
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.171114179771433,
      "learning_rate": 5.230599597060666e-06,
      "loss": 0.4548,
      "step": 2250
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.379032335217355,
      "learning_rate": 5.226998975594698e-06,
      "loss": 0.4628,
      "step": 2251
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.4902062122299324,
      "learning_rate": 5.223398236164816e-06,
      "loss": 0.5936,
      "step": 2252
    },
    {
      "epoch": 0.5,
      "grad_norm": 9.017164920522207,
      "learning_rate": 5.219797380642207e-06,
      "loss": 0.5669,
      "step": 2253
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.7157543444869225,
      "learning_rate": 5.216196410898116e-06,
      "loss": 0.4961,
      "step": 2254
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.574012754880915,
      "learning_rate": 5.212595328803851e-06,
      "loss": 0.6964,
      "step": 2255
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.3370607865463833,
      "learning_rate": 5.208994136230774e-06,
      "loss": 0.4352,
      "step": 2256
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.858765098749627,
      "learning_rate": 5.205392835050307e-06,
      "loss": 0.3577,
      "step": 2257
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.8199290238351833,
      "learning_rate": 5.201791427133929e-06,
      "loss": 0.4642,
      "step": 2258
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.464864288969364,
      "learning_rate": 5.19818991435317e-06,
      "loss": 0.5942,
      "step": 2259
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.8517137485735757,
      "learning_rate": 5.194588298579624e-06,
      "loss": 0.5092,
      "step": 2260
    },
    {
      "epoch": 0.5,
      "grad_norm": 5.502593918311925,
      "learning_rate": 5.190986581684928e-06,
      "loss": 0.5167,
      "step": 2261
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.538483262025656,
      "learning_rate": 5.187384765540777e-06,
      "loss": 0.6297,
      "step": 2262
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.8138211344905617,
      "learning_rate": 5.183782852018916e-06,
      "loss": 0.3677,
      "step": 2263
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.7910720817815364,
      "learning_rate": 5.180180842991142e-06,
      "loss": 0.4653,
      "step": 2264
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.0153520558348195,
      "learning_rate": 5.176578740329301e-06,
      "loss": 0.3345,
      "step": 2265
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.890329336364142,
      "learning_rate": 5.172976545905286e-06,
      "loss": 0.402,
      "step": 2266
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.7706275085992242,
      "learning_rate": 5.1693742615910415e-06,
      "loss": 0.4203,
      "step": 2267
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.469977806642818,
      "learning_rate": 5.165771889258555e-06,
      "loss": 0.525,
      "step": 2268
    },
    {
      "epoch": 0.5,
      "grad_norm": 4.513902842494841,
      "learning_rate": 5.162169430779861e-06,
      "loss": 0.5408,
      "step": 2269
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.184798778012373,
      "learning_rate": 5.158566888027039e-06,
      "loss": 0.5634,
      "step": 2270
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.4741530576885378,
      "learning_rate": 5.154964262872212e-06,
      "loss": 0.5781,
      "step": 2271
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.9354234680837346,
      "learning_rate": 5.151361557187546e-06,
      "loss": 0.4977,
      "step": 2272
    },
    {
      "epoch": 0.51,
      "grad_norm": 6.662866724587699,
      "learning_rate": 5.147758772845249e-06,
      "loss": 0.4198,
      "step": 2273
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.9778405886669925,
      "learning_rate": 5.144155911717571e-06,
      "loss": 0.685,
      "step": 2274
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.210443579984682,
      "learning_rate": 5.140552975676799e-06,
      "loss": 0.4708,
      "step": 2275
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.925346668355724,
      "learning_rate": 5.13694996659526e-06,
      "loss": 0.3934,
      "step": 2276
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.540208832285761,
      "learning_rate": 5.133346886345321e-06,
      "loss": 0.5681,
      "step": 2277
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.9777063573704905,
      "learning_rate": 5.129743736799384e-06,
      "loss": 0.4754,
      "step": 2278
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.5424279368081044,
      "learning_rate": 5.126140519829888e-06,
      "loss": 0.6129,
      "step": 2279
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.961951676268557,
      "learning_rate": 5.122537237309305e-06,
      "loss": 0.5341,
      "step": 2280
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.335648351550392,
      "learning_rate": 5.118933891110145e-06,
      "loss": 0.682,
      "step": 2281
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.2832849341009136,
      "learning_rate": 5.115330483104946e-06,
      "loss": 0.5078,
      "step": 2282
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.285888102932942,
      "learning_rate": 5.1117270151662835e-06,
      "loss": 0.6231,
      "step": 2283
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.5949783323339535,
      "learning_rate": 5.108123489166759e-06,
      "loss": 0.574,
      "step": 2284
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.620973582413957,
      "learning_rate": 5.1045199069790075e-06,
      "loss": 0.6593,
      "step": 2285
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.588416530323046,
      "learning_rate": 5.100916270475692e-06,
      "loss": 0.6593,
      "step": 2286
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.418201225841799,
      "learning_rate": 5.097312581529506e-06,
      "loss": 0.6453,
      "step": 2287
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.926780598261913,
      "learning_rate": 5.093708842013166e-06,
      "loss": 0.531,
      "step": 2288
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.083308817356944,
      "learning_rate": 5.090105053799418e-06,
      "loss": 0.1549,
      "step": 2289
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.471917237519065,
      "learning_rate": 5.086501218761034e-06,
      "loss": 0.5886,
      "step": 2290
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.420910748623512,
      "learning_rate": 5.082897338770805e-06,
      "loss": 0.6936,
      "step": 2291
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.6034187800918454,
      "learning_rate": 5.079293415701553e-06,
      "loss": 0.6383,
      "step": 2292
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.8703113056001808,
      "learning_rate": 5.075689451426115e-06,
      "loss": 0.613,
      "step": 2293
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.592097829810742,
      "learning_rate": 5.072085447817355e-06,
      "loss": 0.599,
      "step": 2294
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.164266218822331,
      "learning_rate": 5.068481406748153e-06,
      "loss": 0.3736,
      "step": 2295
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.074416666429,
      "learning_rate": 5.064877330091417e-06,
      "loss": 0.5175,
      "step": 2296
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.193576223135057,
      "learning_rate": 5.06127321972006e-06,
      "loss": 0.4491,
      "step": 2297
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.468639171920634,
      "learning_rate": 5.057669077507024e-06,
      "loss": 0.5187,
      "step": 2298
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.720765446047992,
      "learning_rate": 5.054064905325262e-06,
      "loss": 0.849,
      "step": 2299
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.8770439761969824,
      "learning_rate": 5.050460705047742e-06,
      "loss": 0.4384,
      "step": 2300
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.014170550012598,
      "learning_rate": 5.046856478547454e-06,
      "loss": 0.5284,
      "step": 2301
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.074220330773639,
      "learning_rate": 5.043252227697389e-06,
      "loss": 0.5138,
      "step": 2302
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.3732169589062795,
      "learning_rate": 5.039647954370564e-06,
      "loss": 0.5932,
      "step": 2303
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.372052984707225,
      "learning_rate": 5.03604366044e-06,
      "loss": 0.5869,
      "step": 2304
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.8076515843970937,
      "learning_rate": 5.032439347778728e-06,
      "loss": 0.611,
      "step": 2305
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.263498510877322,
      "learning_rate": 5.028835018259792e-06,
      "loss": 0.609,
      "step": 2306
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.624640783889058,
      "learning_rate": 5.025230673756244e-06,
      "loss": 0.4797,
      "step": 2307
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.570840754997631,
      "learning_rate": 5.021626316141144e-06,
      "loss": 0.5843,
      "step": 2308
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.620341986987864,
      "learning_rate": 5.018021947287556e-06,
      "loss": 0.5742,
      "step": 2309
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.905898863961544,
      "learning_rate": 5.014417569068555e-06,
      "loss": 0.434,
      "step": 2310
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.314223299618376,
      "learning_rate": 5.010813183357217e-06,
      "loss": 0.2848,
      "step": 2311
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.531530875220016,
      "learning_rate": 5.007208792026622e-06,
      "loss": 0.7726,
      "step": 2312
    },
    {
      "epoch": 0.51,
      "grad_norm": 5.145525973379632,
      "learning_rate": 5.0036043969498535e-06,
      "loss": 0.4673,
      "step": 2313
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.7059611997434816,
      "learning_rate": 5e-06,
      "loss": 0.5891,
      "step": 2314
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.418109658461944,
      "learning_rate": 4.996395603050147e-06,
      "loss": 0.6743,
      "step": 2315
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.2544222929416393,
      "learning_rate": 4.9927912079733805e-06,
      "loss": 0.6059,
      "step": 2316
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.012985826267729,
      "learning_rate": 4.9891868166427846e-06,
      "loss": 0.5241,
      "step": 2317
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.2868804765727617,
      "learning_rate": 4.985582430931447e-06,
      "loss": 0.3746,
      "step": 2318
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.733275980956703,
      "learning_rate": 4.981978052712446e-06,
      "loss": 0.3853,
      "step": 2319
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.205103198333457,
      "learning_rate": 4.978373683858859e-06,
      "loss": 0.5574,
      "step": 2320
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.7586714100847063,
      "learning_rate": 4.974769326243757e-06,
      "loss": 0.4477,
      "step": 2321
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.728551917486272,
      "learning_rate": 4.971164981740209e-06,
      "loss": 0.6823,
      "step": 2322
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.41457989358331,
      "learning_rate": 4.9675606522212735e-06,
      "loss": 0.5526,
      "step": 2323
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.4469274231528937,
      "learning_rate": 4.963956339560002e-06,
      "loss": 0.588,
      "step": 2324
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.8917057316162698,
      "learning_rate": 4.9603520456294365e-06,
      "loss": 0.5868,
      "step": 2325
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.173396608793538,
      "learning_rate": 4.9567477723026106e-06,
      "loss": 0.4794,
      "step": 2326
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.4403074679339896,
      "learning_rate": 4.953143521452548e-06,
      "loss": 0.6935,
      "step": 2327
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.650669224877839,
      "learning_rate": 4.949539294952258e-06,
      "loss": 0.5237,
      "step": 2328
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.889198809060683,
      "learning_rate": 4.9459350946747405e-06,
      "loss": 0.7479,
      "step": 2329
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.285601849388129,
      "learning_rate": 4.942330922492976e-06,
      "loss": 0.5893,
      "step": 2330
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.216970711605799,
      "learning_rate": 4.938726780279941e-06,
      "loss": 0.54,
      "step": 2331
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.0801126025260928,
      "learning_rate": 4.9351226699085855e-06,
      "loss": 0.5623,
      "step": 2332
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.231492550758557,
      "learning_rate": 4.931518593251848e-06,
      "loss": 0.5483,
      "step": 2333
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.3014018875054196,
      "learning_rate": 4.9279145521826475e-06,
      "loss": 0.4863,
      "step": 2334
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.372578722418883,
      "learning_rate": 4.924310548573886e-06,
      "loss": 0.4691,
      "step": 2335
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.1199378046123387,
      "learning_rate": 4.920706584298449e-06,
      "loss": 0.3424,
      "step": 2336
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.173850040966149,
      "learning_rate": 4.917102661229196e-06,
      "loss": 0.4499,
      "step": 2337
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.599789321660233,
      "learning_rate": 4.9134987812389685e-06,
      "loss": 0.4606,
      "step": 2338
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.694630771316482,
      "learning_rate": 4.909894946200583e-06,
      "loss": 0.8232,
      "step": 2339
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.995716156191902,
      "learning_rate": 4.906291157986835e-06,
      "loss": 0.4668,
      "step": 2340
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.514165869375134,
      "learning_rate": 4.902687418470495e-06,
      "loss": 0.6245,
      "step": 2341
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.9114724798333773,
      "learning_rate": 4.899083729524309e-06,
      "loss": 0.4681,
      "step": 2342
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.815010619516444,
      "learning_rate": 4.895480093020995e-06,
      "loss": 0.443,
      "step": 2343
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.6513011360346823,
      "learning_rate": 4.891876510833242e-06,
      "loss": 0.5067,
      "step": 2344
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.626722128810096,
      "learning_rate": 4.888272984833718e-06,
      "loss": 0.4695,
      "step": 2345
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.178352673913389,
      "learning_rate": 4.884669516895055e-06,
      "loss": 0.5386,
      "step": 2346
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.073569769741849,
      "learning_rate": 4.881066108889857e-06,
      "loss": 0.6871,
      "step": 2347
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.6479103200348533,
      "learning_rate": 4.877462762690695e-06,
      "loss": 0.5468,
      "step": 2348
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.6733740353375373,
      "learning_rate": 4.873859480170113e-06,
      "loss": 0.6047,
      "step": 2349
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.062642145867736,
      "learning_rate": 4.870256263200616e-06,
      "loss": 0.6651,
      "step": 2350
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.606431988629606,
      "learning_rate": 4.86665311365468e-06,
      "loss": 0.5196,
      "step": 2351
    },
    {
      "epoch": 0.52,
      "grad_norm": 7.1260345472465065,
      "learning_rate": 4.8630500334047415e-06,
      "loss": 0.5844,
      "step": 2352
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.8896493812773616,
      "learning_rate": 4.859447024323203e-06,
      "loss": 0.6197,
      "step": 2353
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.03626671147127,
      "learning_rate": 4.855844088282431e-06,
      "loss": 0.5973,
      "step": 2354
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.69238755725989,
      "learning_rate": 4.8522412271547525e-06,
      "loss": 0.3878,
      "step": 2355
    },
    {
      "epoch": 0.52,
      "grad_norm": 5.346016568080106,
      "learning_rate": 4.848638442812456e-06,
      "loss": 0.489,
      "step": 2356
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.3616819215125484,
      "learning_rate": 4.845035737127789e-06,
      "loss": 0.6391,
      "step": 2357
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.0685620303311354,
      "learning_rate": 4.8414331119729625e-06,
      "loss": 0.4313,
      "step": 2358
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.100600413189327,
      "learning_rate": 4.83783056922014e-06,
      "loss": 0.5849,
      "step": 2359
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.001144871987544,
      "learning_rate": 4.834228110741447e-06,
      "loss": 0.7964,
      "step": 2360
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.457639014455315,
      "learning_rate": 4.83062573840896e-06,
      "loss": 0.5132,
      "step": 2361
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.939703028569482,
      "learning_rate": 4.827023454094715e-06,
      "loss": 0.6478,
      "step": 2362
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.143152356089519,
      "learning_rate": 4.823421259670701e-06,
      "loss": 0.4712,
      "step": 2363
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.618092549501218,
      "learning_rate": 4.81981915700886e-06,
      "loss": 0.5679,
      "step": 2364
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.136174297722236,
      "learning_rate": 4.816217147981086e-06,
      "loss": 0.312,
      "step": 2365
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.632090767642929,
      "learning_rate": 4.812615234459225e-06,
      "loss": 0.3559,
      "step": 2366
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.336555385742646,
      "learning_rate": 4.809013418315074e-06,
      "loss": 0.5571,
      "step": 2367
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.0184480399914975,
      "learning_rate": 4.805411701420378e-06,
      "loss": 0.3865,
      "step": 2368
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.290121448636158,
      "learning_rate": 4.801810085646831e-06,
      "loss": 0.5454,
      "step": 2369
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.743208539419573,
      "learning_rate": 4.7982085728660745e-06,
      "loss": 0.4026,
      "step": 2370
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.2611876525946455,
      "learning_rate": 4.794607164949694e-06,
      "loss": 0.5429,
      "step": 2371
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.976324991159662,
      "learning_rate": 4.791005863769227e-06,
      "loss": 0.4576,
      "step": 2372
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.153411881552473,
      "learning_rate": 4.787404671196151e-06,
      "loss": 0.5278,
      "step": 2373
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.5058859575254138,
      "learning_rate": 4.783803589101885e-06,
      "loss": 0.4798,
      "step": 2374
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.030073272543218,
      "learning_rate": 4.780202619357794e-06,
      "loss": 0.7129,
      "step": 2375
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.2740498202564385,
      "learning_rate": 4.7766017638351845e-06,
      "loss": 0.3966,
      "step": 2376
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.056905769405578,
      "learning_rate": 4.773001024405303e-06,
      "loss": 0.5353,
      "step": 2377
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.888461006824271,
      "learning_rate": 4.769400402939335e-06,
      "loss": 0.4957,
      "step": 2378
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.080562383117041,
      "learning_rate": 4.765799901308405e-06,
      "loss": 0.5917,
      "step": 2379
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.349439046684091,
      "learning_rate": 4.762199521383576e-06,
      "loss": 0.4145,
      "step": 2380
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.530696404412102,
      "learning_rate": 4.758599265035846e-06,
      "loss": 0.5734,
      "step": 2381
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.764131464384106,
      "learning_rate": 4.754999134136152e-06,
      "loss": 0.5954,
      "step": 2382
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.0597508055456335,
      "learning_rate": 4.751399130555362e-06,
      "loss": 0.4407,
      "step": 2383
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.080133649384226,
      "learning_rate": 4.747799256164279e-06,
      "loss": 0.6187,
      "step": 2384
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.3058122065498856,
      "learning_rate": 4.744199512833643e-06,
      "loss": 0.5609,
      "step": 2385
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.636720866496881,
      "learning_rate": 4.74059990243412e-06,
      "loss": 0.4973,
      "step": 2386
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.033388385847832,
      "learning_rate": 4.73700042683631e-06,
      "loss": 0.792,
      "step": 2387
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.041123156290637,
      "learning_rate": 4.733401087910741e-06,
      "loss": 0.5371,
      "step": 2388
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.428270108490381,
      "learning_rate": 4.729801887527872e-06,
      "loss": 0.6041,
      "step": 2389
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.283266721497726,
      "learning_rate": 4.7262028275580905e-06,
      "loss": 0.785,
      "step": 2390
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.91198168545056,
      "learning_rate": 4.722603909871709e-06,
      "loss": 0.3896,
      "step": 2391
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.679388286132552,
      "learning_rate": 4.719005136338966e-06,
      "loss": 0.4262,
      "step": 2392
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.3303960113501017,
      "learning_rate": 4.715406508830024e-06,
      "loss": 0.548,
      "step": 2393
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.9549622288872173,
      "learning_rate": 4.711808029214976e-06,
      "loss": 0.6207,
      "step": 2394
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.9227711779369594,
      "learning_rate": 4.708209699363832e-06,
      "loss": 0.677,
      "step": 2395
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.395445855532999,
      "learning_rate": 4.704611521146526e-06,
      "loss": 0.4343,
      "step": 2396
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.8424842855288843,
      "learning_rate": 4.701013496432913e-06,
      "loss": 0.5133,
      "step": 2397
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.5879050059213298,
      "learning_rate": 4.6974156270927655e-06,
      "loss": 0.5032,
      "step": 2398
    },
    {
      "epoch": 0.53,
      "grad_norm": 8.138828318709166,
      "learning_rate": 4.6938179149957815e-06,
      "loss": 0.59,
      "step": 2399
    },
    {
      "epoch": 0.53,
      "grad_norm": 7.9751003903750775,
      "learning_rate": 4.690220362011573e-06,
      "loss": 0.7137,
      "step": 2400
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.076335042009581,
      "learning_rate": 4.686622970009671e-06,
      "loss": 0.6094,
      "step": 2401
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.370747062595608,
      "learning_rate": 4.683025740859519e-06,
      "loss": 0.5905,
      "step": 2402
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.223526334853711,
      "learning_rate": 4.679428676430482e-06,
      "loss": 0.4767,
      "step": 2403
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.0375785346324595,
      "learning_rate": 4.675831778591835e-06,
      "loss": 0.3853,
      "step": 2404
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.3714718725548765,
      "learning_rate": 4.672235049212767e-06,
      "loss": 0.5568,
      "step": 2405
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.144409287748042,
      "learning_rate": 4.668638490162382e-06,
      "loss": 0.2933,
      "step": 2406
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.3148715843767578,
      "learning_rate": 4.665042103309691e-06,
      "loss": 0.4058,
      "step": 2407
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.598096785991325,
      "learning_rate": 4.661445890523621e-06,
      "loss": 0.4285,
      "step": 2408
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.665146593032486,
      "learning_rate": 4.657849853673004e-06,
      "loss": 0.6872,
      "step": 2409
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.7345161117811148,
      "learning_rate": 4.654253994626583e-06,
      "loss": 0.6424,
      "step": 2410
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.302075956350787,
      "learning_rate": 4.650658315253007e-06,
      "loss": 0.37,
      "step": 2411
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.9803889113757056,
      "learning_rate": 4.647062817420833e-06,
      "loss": 0.6367,
      "step": 2412
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.6813369792254997,
      "learning_rate": 4.643467502998524e-06,
      "loss": 0.2333,
      "step": 2413
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.14070633522632,
      "learning_rate": 4.639872373854445e-06,
      "loss": 0.4868,
      "step": 2414
    },
    {
      "epoch": 0.54,
      "grad_norm": 7.495057586477276,
      "learning_rate": 4.6362774318568695e-06,
      "loss": 0.6414,
      "step": 2415
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.860697322953268,
      "learning_rate": 4.632682678873966e-06,
      "loss": 0.5513,
      "step": 2416
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.7487992106715478,
      "learning_rate": 4.6290881167738145e-06,
      "loss": 0.6192,
      "step": 2417
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.3110804297874377,
      "learning_rate": 4.625493747424388e-06,
      "loss": 0.4341,
      "step": 2418
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.0771764997210913,
      "learning_rate": 4.621899572693564e-06,
      "loss": 0.4672,
      "step": 2419
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.5432080072127574,
      "learning_rate": 4.618305594449114e-06,
      "loss": 0.4624,
      "step": 2420
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.0366590022101745,
      "learning_rate": 4.614711814558715e-06,
      "loss": 0.505,
      "step": 2421
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.7259172732835695,
      "learning_rate": 4.611118234889932e-06,
      "loss": 0.5288,
      "step": 2422
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.580085989999279,
      "learning_rate": 4.6075248573102345e-06,
      "loss": 0.3039,
      "step": 2423
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.2357123416872415,
      "learning_rate": 4.60393168368698e-06,
      "loss": 0.5413,
      "step": 2424
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.458222801480635,
      "learning_rate": 4.600338715887423e-06,
      "loss": 0.4143,
      "step": 2425
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.246879098792403,
      "learning_rate": 4.596745955778712e-06,
      "loss": 0.7529,
      "step": 2426
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.9356422322478526,
      "learning_rate": 4.5931534052278855e-06,
      "loss": 0.4233,
      "step": 2427
    },
    {
      "epoch": 0.54,
      "grad_norm": 10.380206942627918,
      "learning_rate": 4.589561066101875e-06,
      "loss": 0.6425,
      "step": 2428
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.898025298087675,
      "learning_rate": 4.585968940267499e-06,
      "loss": 0.3436,
      "step": 2429
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.739694054404166,
      "learning_rate": 4.582377029591471e-06,
      "loss": 0.5855,
      "step": 2430
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.911825398809902,
      "learning_rate": 4.578785335940387e-06,
      "loss": 0.3522,
      "step": 2431
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.242695471856306,
      "learning_rate": 4.575193861180731e-06,
      "loss": 0.6826,
      "step": 2432
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.484097761551942,
      "learning_rate": 4.571602607178877e-06,
      "loss": 0.5466,
      "step": 2433
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.120058209783628,
      "learning_rate": 4.5680115758010775e-06,
      "loss": 0.5986,
      "step": 2434
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.814256394692209,
      "learning_rate": 4.564420768913479e-06,
      "loss": 0.6605,
      "step": 2435
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.7258811005336296,
      "learning_rate": 4.560830188382104e-06,
      "loss": 0.6592,
      "step": 2436
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.220586143709628,
      "learning_rate": 4.557239836072858e-06,
      "loss": 0.7415,
      "step": 2437
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.724910658380969,
      "learning_rate": 4.553649713851529e-06,
      "loss": 0.5306,
      "step": 2438
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.1690201939252924,
      "learning_rate": 4.550059823583788e-06,
      "loss": 0.3837,
      "step": 2439
    },
    {
      "epoch": 0.54,
      "grad_norm": 5.436865257894514,
      "learning_rate": 4.546470167135182e-06,
      "loss": 0.3493,
      "step": 2440
    },
    {
      "epoch": 0.54,
      "grad_norm": 5.586379802155369,
      "learning_rate": 4.542880746371136e-06,
      "loss": 0.3639,
      "step": 2441
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.596671942242214,
      "learning_rate": 4.539291563156958e-06,
      "loss": 0.4821,
      "step": 2442
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.3781244308282234,
      "learning_rate": 4.535702619357821e-06,
      "loss": 0.4161,
      "step": 2443
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.7209383969919405,
      "learning_rate": 4.53211391683879e-06,
      "loss": 0.5683,
      "step": 2444
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.815763646912719,
      "learning_rate": 4.528525457464793e-06,
      "loss": 0.4592,
      "step": 2445
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.168079696395561,
      "learning_rate": 4.524937243100633e-06,
      "loss": 0.3655,
      "step": 2446
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.59717291945878,
      "learning_rate": 4.521349275610985e-06,
      "loss": 0.4561,
      "step": 2447
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.2743308157247895,
      "learning_rate": 4.5177615568604034e-06,
      "loss": 0.7209,
      "step": 2448
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.675431487507694,
      "learning_rate": 4.514174088713305e-06,
      "loss": 0.4758,
      "step": 2449
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.367768311667811,
      "learning_rate": 4.510586873033979e-06,
      "loss": 0.3725,
      "step": 2450
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.293662972064793,
      "learning_rate": 4.506999911686584e-06,
      "loss": 0.4799,
      "step": 2451
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.624524699329094,
      "learning_rate": 4.503413206535146e-06,
      "loss": 0.4686,
      "step": 2452
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.3042687201483893,
      "learning_rate": 4.499826759443557e-06,
      "loss": 0.5621,
      "step": 2453
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.322574541007645,
      "learning_rate": 4.496240572275578e-06,
      "loss": 0.5572,
      "step": 2454
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.5504723111515992,
      "learning_rate": 4.492654646894831e-06,
      "loss": 0.6891,
      "step": 2455
    },
    {
      "epoch": 0.55,
      "grad_norm": 6.180828718116962,
      "learning_rate": 4.489068985164802e-06,
      "loss": 0.4638,
      "step": 2456
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.093717294248392,
      "learning_rate": 4.485483588948845e-06,
      "loss": 0.5135,
      "step": 2457
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.552068628244994,
      "learning_rate": 4.481898460110172e-06,
      "loss": 0.7056,
      "step": 2458
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.9679520808450435,
      "learning_rate": 4.478313600511856e-06,
      "loss": 0.4465,
      "step": 2459
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.901561783063222,
      "learning_rate": 4.4747290120168326e-06,
      "loss": 0.7416,
      "step": 2460
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.101560231324265,
      "learning_rate": 4.471144696487889e-06,
      "loss": 0.7094,
      "step": 2461
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.7776931068211193,
      "learning_rate": 4.4675606557876825e-06,
      "loss": 0.451,
      "step": 2462
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.389196592828891,
      "learning_rate": 4.46397689177872e-06,
      "loss": 0.597,
      "step": 2463
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.7219902338042123,
      "learning_rate": 4.460393406323364e-06,
      "loss": 0.6133,
      "step": 2464
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.505288606631275,
      "learning_rate": 4.456810201283835e-06,
      "loss": 0.4229,
      "step": 2465
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.8081793474628474,
      "learning_rate": 4.453227278522208e-06,
      "loss": 0.5182,
      "step": 2466
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.433279843831874,
      "learning_rate": 4.449644639900409e-06,
      "loss": 0.6722,
      "step": 2467
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.58239979383689,
      "learning_rate": 4.4460622872802194e-06,
      "loss": 0.4891,
      "step": 2468
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.765668335095751,
      "learning_rate": 4.442480222523269e-06,
      "loss": 0.4464,
      "step": 2469
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.1455322949796525,
      "learning_rate": 4.438898447491037e-06,
      "loss": 0.5558,
      "step": 2470
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.1127965163788724,
      "learning_rate": 4.435316964044859e-06,
      "loss": 0.4254,
      "step": 2471
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.455006996990242,
      "learning_rate": 4.4317357740459115e-06,
      "loss": 0.5728,
      "step": 2472
    },
    {
      "epoch": 0.55,
      "grad_norm": 7.4595937525790195,
      "learning_rate": 4.4281548793552225e-06,
      "loss": 0.6249,
      "step": 2473
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.1483188188083515,
      "learning_rate": 4.424574281833663e-06,
      "loss": 0.5732,
      "step": 2474
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.781906854223895,
      "learning_rate": 4.420993983341954e-06,
      "loss": 0.7267,
      "step": 2475
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.105054443856431,
      "learning_rate": 4.41741398574066e-06,
      "loss": 0.4842,
      "step": 2476
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.1565466900841654,
      "learning_rate": 4.413834290890186e-06,
      "loss": 0.6232,
      "step": 2477
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.2162404054667113,
      "learning_rate": 4.410254900650783e-06,
      "loss": 0.4051,
      "step": 2478
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.613919732728883,
      "learning_rate": 4.4066758168825414e-06,
      "loss": 0.6628,
      "step": 2479
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.580054268777161,
      "learning_rate": 4.403097041445395e-06,
      "loss": 0.7682,
      "step": 2480
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.246852220017921,
      "learning_rate": 4.399518576199116e-06,
      "loss": 0.6186,
      "step": 2481
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.925490225213275,
      "learning_rate": 4.395940423003314e-06,
      "loss": 0.2886,
      "step": 2482
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.573900434594468,
      "learning_rate": 4.392362583717437e-06,
      "loss": 0.607,
      "step": 2483
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.0669892023701566,
      "learning_rate": 4.388785060200773e-06,
      "loss": 0.5238,
      "step": 2484
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.4430559329388952,
      "learning_rate": 4.385207854312443e-06,
      "loss": 0.6037,
      "step": 2485
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.7735978719437755,
      "learning_rate": 4.381630967911403e-06,
      "loss": 0.9914,
      "step": 2486
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.8388183580966135,
      "learning_rate": 4.3780544028564435e-06,
      "loss": 0.5267,
      "step": 2487
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.9751578376004373,
      "learning_rate": 4.374478161006185e-06,
      "loss": 0.5615,
      "step": 2488
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.0566412249232995,
      "learning_rate": 4.370902244219088e-06,
      "loss": 0.5241,
      "step": 2489
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.089236567794769,
      "learning_rate": 4.367326654353436e-06,
      "loss": 0.5017,
      "step": 2490
    },
    {
      "epoch": 0.55,
      "grad_norm": 5.52949047440175,
      "learning_rate": 4.363751393267347e-06,
      "loss": 0.5473,
      "step": 2491
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.610019566194941,
      "learning_rate": 4.360176462818763e-06,
      "loss": 0.7291,
      "step": 2492
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.788642877185594,
      "learning_rate": 4.3566018648654635e-06,
      "loss": 0.5909,
      "step": 2493
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.7470403342567753,
      "learning_rate": 4.353027601265049e-06,
      "loss": 0.3813,
      "step": 2494
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.6284754123305794,
      "learning_rate": 4.349453673874942e-06,
      "loss": 0.5806,
      "step": 2495
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.894268152101858,
      "learning_rate": 4.3458800845524005e-06,
      "loss": 0.7844,
      "step": 2496
    },
    {
      "epoch": 0.56,
      "grad_norm": 5.055706645393556,
      "learning_rate": 4.3423068351544965e-06,
      "loss": 0.5286,
      "step": 2497
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.946521302514779,
      "learning_rate": 4.338733927538135e-06,
      "loss": 0.4162,
      "step": 2498
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.80843791164385,
      "learning_rate": 4.335161363560037e-06,
      "loss": 0.5289,
      "step": 2499
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.2254429677671643,
      "learning_rate": 4.331589145076746e-06,
      "loss": 0.582,
      "step": 2500
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.1852943915037333,
      "learning_rate": 4.328017273944628e-06,
      "loss": 0.435,
      "step": 2501
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.836701690652328,
      "learning_rate": 4.324445752019866e-06,
      "loss": 0.6728,
      "step": 2502
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.7454339841614743,
      "learning_rate": 4.320874581158464e-06,
      "loss": 0.4998,
      "step": 2503
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.9359396418276273,
      "learning_rate": 4.317303763216241e-06,
      "loss": 0.6312,
      "step": 2504
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.494613360119919,
      "learning_rate": 4.313733300048834e-06,
      "loss": 0.6468,
      "step": 2505
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.2285621900790247,
      "learning_rate": 4.310163193511693e-06,
      "loss": 0.3113,
      "step": 2506
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.1137887544303524,
      "learning_rate": 4.306593445460091e-06,
      "loss": 0.451,
      "step": 2507
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.9841454967064394,
      "learning_rate": 4.3030240577491046e-06,
      "loss": 0.5319,
      "step": 2508
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.883927359720265,
      "learning_rate": 4.299455032233631e-06,
      "loss": 0.4647,
      "step": 2509
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.162393474395947,
      "learning_rate": 4.2958863707683674e-06,
      "loss": 0.3168,
      "step": 2510
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.473399813989466,
      "learning_rate": 4.292318075207839e-06,
      "loss": 0.6685,
      "step": 2511
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.291752927683849,
      "learning_rate": 4.288750147406368e-06,
      "loss": 0.4092,
      "step": 2512
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.6285748192287812,
      "learning_rate": 4.28518258921809e-06,
      "loss": 0.5505,
      "step": 2513
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.641372104094847,
      "learning_rate": 4.281615402496948e-06,
      "loss": 0.6491,
      "step": 2514
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.2702571461470797,
      "learning_rate": 4.278048589096689e-06,
      "loss": 0.5409,
      "step": 2515
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.113408756659864,
      "learning_rate": 4.274482150870872e-06,
      "loss": 0.6705,
      "step": 2516
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.447756277513306,
      "learning_rate": 4.270916089672859e-06,
      "loss": 0.4622,
      "step": 2517
    },
    {
      "epoch": 0.56,
      "grad_norm": 5.3105271864195105,
      "learning_rate": 4.267350407355811e-06,
      "loss": 0.495,
      "step": 2518
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.056667830305799,
      "learning_rate": 4.263785105772696e-06,
      "loss": 0.4588,
      "step": 2519
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.6560259707147336,
      "learning_rate": 4.260220186776288e-06,
      "loss": 0.5498,
      "step": 2520
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.534738563436468,
      "learning_rate": 4.256655652219157e-06,
      "loss": 0.5475,
      "step": 2521
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.6318075563417396,
      "learning_rate": 4.253091503953674e-06,
      "loss": 0.6593,
      "step": 2522
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.4653408100780667,
      "learning_rate": 4.249527743832008e-06,
      "loss": 0.4649,
      "step": 2523
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.4200438372918645,
      "learning_rate": 4.245964373706131e-06,
      "loss": 0.3739,
      "step": 2524
    },
    {
      "epoch": 0.56,
      "grad_norm": 6.188138411994764,
      "learning_rate": 4.242401395427808e-06,
      "loss": 0.4754,
      "step": 2525
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.0628297974369696,
      "learning_rate": 4.2388388108486024e-06,
      "loss": 0.493,
      "step": 2526
    },
    {
      "epoch": 0.56,
      "grad_norm": 5.456009846822535,
      "learning_rate": 4.235276621819872e-06,
      "loss": 0.631,
      "step": 2527
    },
    {
      "epoch": 0.56,
      "grad_norm": 5.377621997956613,
      "learning_rate": 4.231714830192769e-06,
      "loss": 0.8163,
      "step": 2528
    },
    {
      "epoch": 0.56,
      "grad_norm": 6.400851655357325,
      "learning_rate": 4.22815343781824e-06,
      "loss": 0.5371,
      "step": 2529
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.3970238110069824,
      "learning_rate": 4.224592446547024e-06,
      "loss": 0.4248,
      "step": 2530
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.0184601470155465,
      "learning_rate": 4.221031858229652e-06,
      "loss": 0.7685,
      "step": 2531
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.386887826878777,
      "learning_rate": 4.2174716747164436e-06,
      "loss": 0.6166,
      "step": 2532
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.2845569028335,
      "learning_rate": 4.213911897857507e-06,
      "loss": 0.6953,
      "step": 2533
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.628716288906837,
      "learning_rate": 4.210352529502746e-06,
      "loss": 0.6993,
      "step": 2534
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.4908778610171245,
      "learning_rate": 4.206793571501846e-06,
      "loss": 0.4595,
      "step": 2535
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.967862650386645,
      "learning_rate": 4.203235025704278e-06,
      "loss": 0.6406,
      "step": 2536
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.48275646768083,
      "learning_rate": 4.199676893959304e-06,
      "loss": 0.4711,
      "step": 2537
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.547184686865994,
      "learning_rate": 4.196119178115968e-06,
      "loss": 0.5464,
      "step": 2538
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.836558376040891,
      "learning_rate": 4.192561880023099e-06,
      "loss": 0.6024,
      "step": 2539
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.220778561056512,
      "learning_rate": 4.189005001529304e-06,
      "loss": 0.6416,
      "step": 2540
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.9234114241408236,
      "learning_rate": 4.18544854448298e-06,
      "loss": 0.3826,
      "step": 2541
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.601212391501886,
      "learning_rate": 4.181892510732298e-06,
      "loss": 0.6263,
      "step": 2542
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.090738360140155,
      "learning_rate": 4.178336902125216e-06,
      "loss": 0.4584,
      "step": 2543
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.490474891648271,
      "learning_rate": 4.174781720509463e-06,
      "loss": 0.5998,
      "step": 2544
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.066270703927893,
      "learning_rate": 4.171226967732552e-06,
      "loss": 0.4855,
      "step": 2545
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.165780536538219,
      "learning_rate": 4.1676726456417695e-06,
      "loss": 0.5078,
      "step": 2546
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.5667486478092756,
      "learning_rate": 4.164118756084182e-06,
      "loss": 0.5134,
      "step": 2547
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.059721984065106,
      "learning_rate": 4.16056530090663e-06,
      "loss": 0.466,
      "step": 2548
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.935405062307079,
      "learning_rate": 4.157012281955726e-06,
      "loss": 0.6912,
      "step": 2549
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.8836354562162323,
      "learning_rate": 4.153459701077856e-06,
      "loss": 0.3848,
      "step": 2550
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.05565558158608,
      "learning_rate": 4.149907560119182e-06,
      "loss": 0.7764,
      "step": 2551
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.6264561004970037,
      "learning_rate": 4.1463558609256336e-06,
      "loss": 0.5934,
      "step": 2552
    },
    {
      "epoch": 0.57,
      "grad_norm": 5.165451491623174,
      "learning_rate": 4.142804605342914e-06,
      "loss": 0.6086,
      "step": 2553
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.025013330810022,
      "learning_rate": 4.139253795216491e-06,
      "loss": 0.3498,
      "step": 2554
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.085573962151734,
      "learning_rate": 4.135703432391604e-06,
      "loss": 0.4475,
      "step": 2555
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.1139362421477834,
      "learning_rate": 4.132153518713265e-06,
      "loss": 0.3312,
      "step": 2556
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.5384632653877883,
      "learning_rate": 4.1286040560262445e-06,
      "loss": 0.3826,
      "step": 2557
    },
    {
      "epoch": 0.57,
      "grad_norm": 6.110766416794068,
      "learning_rate": 4.125055046175081e-06,
      "loss": 0.7312,
      "step": 2558
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.2402411008780057,
      "learning_rate": 4.1215064910040795e-06,
      "loss": 0.5986,
      "step": 2559
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.320676035033436,
      "learning_rate": 4.117958392357304e-06,
      "loss": 0.8129,
      "step": 2560
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.703452615187362,
      "learning_rate": 4.114410752078589e-06,
      "loss": 0.6575,
      "step": 2561
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.447200285032997,
      "learning_rate": 4.110863572011527e-06,
      "loss": 0.4638,
      "step": 2562
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.2899448294316613,
      "learning_rate": 4.107316853999469e-06,
      "loss": 0.4077,
      "step": 2563
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.1572270964999105,
      "learning_rate": 4.103770599885527e-06,
      "loss": 0.4158,
      "step": 2564
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.3514031268709,
      "learning_rate": 4.1002248115125765e-06,
      "loss": 0.5117,
      "step": 2565
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.207914574368868,
      "learning_rate": 4.096679490723244e-06,
      "loss": 0.5429,
      "step": 2566
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.993560746700086,
      "learning_rate": 4.093134639359918e-06,
      "loss": 0.3736,
      "step": 2567
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.784811022113989,
      "learning_rate": 4.089590259264739e-06,
      "loss": 0.5756,
      "step": 2568
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.518293143098853,
      "learning_rate": 4.086046352279606e-06,
      "loss": 0.6825,
      "step": 2569
    },
    {
      "epoch": 0.57,
      "grad_norm": 5.579065523693235,
      "learning_rate": 4.082502920246174e-06,
      "loss": 0.5448,
      "step": 2570
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.408613983699997,
      "learning_rate": 4.078959965005845e-06,
      "loss": 0.5715,
      "step": 2571
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.791076226039153,
      "learning_rate": 4.075417488399777e-06,
      "loss": 0.7378,
      "step": 2572
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.736671768456835,
      "learning_rate": 4.07187549226888e-06,
      "loss": 0.7018,
      "step": 2573
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.389812187850723,
      "learning_rate": 4.068333978453811e-06,
      "loss": 0.188,
      "step": 2574
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.5057099958524476,
      "learning_rate": 4.064792948794982e-06,
      "loss": 0.7905,
      "step": 2575
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.1034533441257555,
      "learning_rate": 4.061252405132547e-06,
      "loss": 0.5416,
      "step": 2576
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.3405103787511443,
      "learning_rate": 4.05771234930641e-06,
      "loss": 0.4238,
      "step": 2577
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.9366859977841258,
      "learning_rate": 4.054172783156222e-06,
      "loss": 0.6842,
      "step": 2578
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.78128051446466,
      "learning_rate": 4.050633708521381e-06,
      "loss": 0.6406,
      "step": 2579
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.1591206337308235,
      "learning_rate": 4.047095127241026e-06,
      "loss": 0.4878,
      "step": 2580
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.3644949296644837,
      "learning_rate": 4.043557041154043e-06,
      "loss": 0.5445,
      "step": 2581
    },
    {
      "epoch": 0.57,
      "grad_norm": 7.903882270140125,
      "learning_rate": 4.040019452099056e-06,
      "loss": 0.6092,
      "step": 2582
    },
    {
      "epoch": 0.57,
      "grad_norm": 4.222201446091132,
      "learning_rate": 4.036482361914439e-06,
      "loss": 0.4041,
      "step": 2583
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.9439399853852626,
      "learning_rate": 4.0329457724382984e-06,
      "loss": 0.3491,
      "step": 2584
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.014288572400993,
      "learning_rate": 4.029409685508484e-06,
      "loss": 0.7075,
      "step": 2585
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.7949456933155012,
      "learning_rate": 4.0258741029625845e-06,
      "loss": 0.5352,
      "step": 2586
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1173219962495358,
      "learning_rate": 4.0223390266379246e-06,
      "loss": 0.4494,
      "step": 2587
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.459155033565028,
      "learning_rate": 4.01880445837157e-06,
      "loss": 0.5244,
      "step": 2588
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.367466510889465,
      "learning_rate": 4.015270400000317e-06,
      "loss": 0.6775,
      "step": 2589
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.0569965858453716,
      "learning_rate": 4.011736853360702e-06,
      "loss": 0.559,
      "step": 2590
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.8494678502312696,
      "learning_rate": 4.00820382028899e-06,
      "loss": 0.4289,
      "step": 2591
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.359523645970191,
      "learning_rate": 4.004671302621187e-06,
      "loss": 0.5732,
      "step": 2592
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.9393094030644273,
      "learning_rate": 4.001139302193024e-06,
      "loss": 0.4455,
      "step": 2593
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.2309630049744267,
      "learning_rate": 3.997607820839964e-06,
      "loss": 0.4693,
      "step": 2594
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.3553681785730687,
      "learning_rate": 3.994076860397204e-06,
      "loss": 0.4959,
      "step": 2595
    },
    {
      "epoch": 0.58,
      "grad_norm": 5.191446424288885,
      "learning_rate": 3.9905464226996655e-06,
      "loss": 0.7605,
      "step": 2596
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.790555242575203,
      "learning_rate": 3.987016509582005e-06,
      "loss": 0.5892,
      "step": 2597
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.361245946503389,
      "learning_rate": 3.983487122878601e-06,
      "loss": 0.5887,
      "step": 2598
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.601955420926984,
      "learning_rate": 3.979958264423558e-06,
      "loss": 0.4616,
      "step": 2599
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.8523722271768923,
      "learning_rate": 3.97642993605071e-06,
      "loss": 0.4995,
      "step": 2600
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.8430766965532404,
      "learning_rate": 3.972902139593613e-06,
      "loss": 0.4457,
      "step": 2601
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.081878302341253,
      "learning_rate": 3.969374876885546e-06,
      "loss": 0.5732,
      "step": 2602
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.185926727466567,
      "learning_rate": 3.965848149759513e-06,
      "loss": 0.5073,
      "step": 2603
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.6309794300158273,
      "learning_rate": 3.962321960048237e-06,
      "loss": 0.6418,
      "step": 2604
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.8944049032098875,
      "learning_rate": 3.9587963095841615e-06,
      "loss": 0.3253,
      "step": 2605
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.569133529448115,
      "learning_rate": 3.955271200199456e-06,
      "loss": 0.5242,
      "step": 2606
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.704618151918767,
      "learning_rate": 3.951746633726002e-06,
      "loss": 0.6297,
      "step": 2607
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.4465787050745424,
      "learning_rate": 3.948222611995399e-06,
      "loss": 0.7079,
      "step": 2608
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1297360351057275,
      "learning_rate": 3.944699136838965e-06,
      "loss": 0.4838,
      "step": 2609
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1193304457061277,
      "learning_rate": 3.941176210087738e-06,
      "loss": 0.5561,
      "step": 2610
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.0189008698273514,
      "learning_rate": 3.937653833572465e-06,
      "loss": 0.3964,
      "step": 2611
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.2876622504170547,
      "learning_rate": 3.93413200912361e-06,
      "loss": 0.4544,
      "step": 2612
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.313618387933123,
      "learning_rate": 3.93061073857135e-06,
      "loss": 0.6172,
      "step": 2613
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1716616392819925,
      "learning_rate": 3.927090023745571e-06,
      "loss": 0.4365,
      "step": 2614
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.004535221591216,
      "learning_rate": 3.9235698664758756e-06,
      "loss": 0.5953,
      "step": 2615
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.8508068471923025,
      "learning_rate": 3.920050268591574e-06,
      "loss": 0.6606,
      "step": 2616
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.2802098428072686,
      "learning_rate": 3.916531231921685e-06,
      "loss": 0.2969,
      "step": 2617
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.305054996422599,
      "learning_rate": 3.913012758294934e-06,
      "loss": 0.339,
      "step": 2618
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.772454652614697,
      "learning_rate": 3.909494849539761e-06,
      "loss": 0.5086,
      "step": 2619
    },
    {
      "epoch": 0.58,
      "grad_norm": 5.8035719862848225,
      "learning_rate": 3.905977507484304e-06,
      "loss": 0.6678,
      "step": 2620
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.0039391730352785,
      "learning_rate": 3.902460733956412e-06,
      "loss": 0.4767,
      "step": 2621
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.600463785739135,
      "learning_rate": 3.898944530783636e-06,
      "loss": 0.4563,
      "step": 2622
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.9696812106179657,
      "learning_rate": 3.89542889979323e-06,
      "loss": 0.6153,
      "step": 2623
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.100484022355527,
      "learning_rate": 3.891913842812155e-06,
      "loss": 0.7774,
      "step": 2624
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.5788286715440165,
      "learning_rate": 3.888399361667068e-06,
      "loss": 0.5833,
      "step": 2625
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1322647023264225,
      "learning_rate": 3.884885458184331e-06,
      "loss": 0.4528,
      "step": 2626
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.269146422127166,
      "learning_rate": 3.881372134190003e-06,
      "loss": 0.4556,
      "step": 2627
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.544538497038943,
      "learning_rate": 3.877859391509844e-06,
      "loss": 0.4346,
      "step": 2628
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.831509149519186,
      "learning_rate": 3.874347231969312e-06,
      "loss": 0.5854,
      "step": 2629
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.95650896184644,
      "learning_rate": 3.870835657393558e-06,
      "loss": 0.3964,
      "step": 2630
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.972971246319547,
      "learning_rate": 3.867324669607435e-06,
      "loss": 0.5212,
      "step": 2631
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.2842584373817623,
      "learning_rate": 3.8638142704354855e-06,
      "loss": 0.4406,
      "step": 2632
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.5029938816712045,
      "learning_rate": 3.860304461701951e-06,
      "loss": 0.5692,
      "step": 2633
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.7526567850324857,
      "learning_rate": 3.856795245230764e-06,
      "loss": 0.4862,
      "step": 2634
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.7163937236875735,
      "learning_rate": 3.853286622845546e-06,
      "loss": 0.2485,
      "step": 2635
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.328583923077455,
      "learning_rate": 3.8497785963696145e-06,
      "loss": 0.563,
      "step": 2636
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.74372555677006,
      "learning_rate": 3.846271167625978e-06,
      "loss": 0.8406,
      "step": 2637
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.636509153553545,
      "learning_rate": 3.842764338437329e-06,
      "loss": 0.6431,
      "step": 2638
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.9021215271654413,
      "learning_rate": 3.839258110626053e-06,
      "loss": 0.391,
      "step": 2639
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.846843988555651,
      "learning_rate": 3.835752486014221e-06,
      "loss": 0.4654,
      "step": 2640
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.283085778215872,
      "learning_rate": 3.83224746642359e-06,
      "loss": 0.5972,
      "step": 2641
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.275820261770564,
      "learning_rate": 3.828743053675605e-06,
      "loss": 0.6825,
      "step": 2642
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.7028469636177372,
      "learning_rate": 3.825239249591394e-06,
      "loss": 0.587,
      "step": 2643
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.87231094147803,
      "learning_rate": 3.821736055991768e-06,
      "loss": 0.5436,
      "step": 2644
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.703756764827884,
      "learning_rate": 3.818233474697221e-06,
      "loss": 0.5171,
      "step": 2645
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.053885443160573,
      "learning_rate": 3.814731507527933e-06,
      "loss": 0.4955,
      "step": 2646
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.026557594147971,
      "learning_rate": 3.811230156303759e-06,
      "loss": 0.3421,
      "step": 2647
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.5949795328755214,
      "learning_rate": 3.8077294228442362e-06,
      "loss": 0.4963,
      "step": 2648
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.9192639917036445,
      "learning_rate": 3.8042293089685813e-06,
      "loss": 0.5078,
      "step": 2649
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.948230248514325,
      "learning_rate": 3.8007298164956867e-06,
      "loss": 0.3668,
      "step": 2650
    },
    {
      "epoch": 0.59,
      "grad_norm": 5.0092519671388605,
      "learning_rate": 3.797230947244127e-06,
      "loss": 0.5131,
      "step": 2651
    },
    {
      "epoch": 0.59,
      "grad_norm": 7.191231885633044,
      "learning_rate": 3.7937327030321482e-06,
      "loss": 0.6952,
      "step": 2652
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.0995187313141646,
      "learning_rate": 3.7902350856776715e-06,
      "loss": 0.5985,
      "step": 2653
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.182110329502489,
      "learning_rate": 3.7867380969982938e-06,
      "loss": 0.4222,
      "step": 2654
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.757265392783126,
      "learning_rate": 3.7832417388112886e-06,
      "loss": 0.5521,
      "step": 2655
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.115319018949167,
      "learning_rate": 3.7797460129335972e-06,
      "loss": 0.5279,
      "step": 2656
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.657409734860219,
      "learning_rate": 3.7762509211818316e-06,
      "loss": 0.5185,
      "step": 2657
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.348511836972801,
      "learning_rate": 3.772756465372277e-06,
      "loss": 0.5407,
      "step": 2658
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.346637576235711,
      "learning_rate": 3.769262647320886e-06,
      "loss": 0.655,
      "step": 2659
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.260136791120636,
      "learning_rate": 3.7657694688432846e-06,
      "loss": 0.5179,
      "step": 2660
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.053839703120852,
      "learning_rate": 3.7622769317547612e-06,
      "loss": 0.5643,
      "step": 2661
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.7085688393810603,
      "learning_rate": 3.7587850378702723e-06,
      "loss": 0.5565,
      "step": 2662
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.900885047641064,
      "learning_rate": 3.75529378900444e-06,
      "loss": 0.5058,
      "step": 2663
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.84378892195689,
      "learning_rate": 3.7518031869715533e-06,
      "loss": 0.3822,
      "step": 2664
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.8917485304290818,
      "learning_rate": 3.748313233585562e-06,
      "loss": 0.3957,
      "step": 2665
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.6456278725981055,
      "learning_rate": 3.7448239306600812e-06,
      "loss": 0.4595,
      "step": 2666
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.0131094244116605,
      "learning_rate": 3.741335280008387e-06,
      "loss": 0.455,
      "step": 2667
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.2120591477952476,
      "learning_rate": 3.737847283443414e-06,
      "loss": 0.5189,
      "step": 2668
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.001412290749345,
      "learning_rate": 3.7343599427777634e-06,
      "loss": 0.698,
      "step": 2669
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.8182924017105764,
      "learning_rate": 3.7308732598236902e-06,
      "loss": 0.4467,
      "step": 2670
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.8602294864346485,
      "learning_rate": 3.7273872363931084e-06,
      "loss": 0.7062,
      "step": 2671
    },
    {
      "epoch": 0.59,
      "grad_norm": 5.9143767748908225,
      "learning_rate": 3.72390187429759e-06,
      "loss": 0.8258,
      "step": 2672
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.8387359981328935,
      "learning_rate": 3.720417175348364e-06,
      "loss": 0.6752,
      "step": 2673
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.917239871433308,
      "learning_rate": 3.7169331413563143e-06,
      "loss": 0.5007,
      "step": 2674
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.8921021559457265,
      "learning_rate": 3.7134497741319773e-06,
      "loss": 0.563,
      "step": 2675
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.5623111544866273,
      "learning_rate": 3.709967075485546e-06,
      "loss": 0.5041,
      "step": 2676
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.2079330463558535,
      "learning_rate": 3.706485047226863e-06,
      "loss": 0.5113,
      "step": 2677
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.446083860594236,
      "learning_rate": 3.7030036911654254e-06,
      "loss": 0.631,
      "step": 2678
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.7650216499708047,
      "learning_rate": 3.69952300911038e-06,
      "loss": 0.7469,
      "step": 2679
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.2645480807662106,
      "learning_rate": 3.696043002870522e-06,
      "loss": 0.4374,
      "step": 2680
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.563684640465666,
      "learning_rate": 3.6925636742542947e-06,
      "loss": 0.5847,
      "step": 2681
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.09260890534671,
      "learning_rate": 3.689085025069794e-06,
      "loss": 0.573,
      "step": 2682
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.14739690171471,
      "learning_rate": 3.6856070571247595e-06,
      "loss": 0.631,
      "step": 2683
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.73354119163819,
      "learning_rate": 3.6821297722265752e-06,
      "loss": 0.8199,
      "step": 2684
    },
    {
      "epoch": 0.6,
      "grad_norm": 5.386954831353003,
      "learning_rate": 3.6786531721822726e-06,
      "loss": 0.6331,
      "step": 2685
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.9399251171141283,
      "learning_rate": 3.675177258798526e-06,
      "loss": 0.5476,
      "step": 2686
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.222263142294255,
      "learning_rate": 3.671702033881655e-06,
      "loss": 0.5952,
      "step": 2687
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.62281229818281,
      "learning_rate": 3.6682274992376188e-06,
      "loss": 0.3989,
      "step": 2688
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.9318018381063022,
      "learning_rate": 3.6647536566720186e-06,
      "loss": 0.7059,
      "step": 2689
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.455537104522306,
      "learning_rate": 3.661280507990096e-06,
      "loss": 0.6698,
      "step": 2690
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.8015431292941413,
      "learning_rate": 3.6578080549967343e-06,
      "loss": 0.4631,
      "step": 2691
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.390133582795555,
      "learning_rate": 3.654336299496452e-06,
      "loss": 0.5999,
      "step": 2692
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.411770876618154,
      "learning_rate": 3.6508652432934066e-06,
      "loss": 0.5252,
      "step": 2693
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.9613666525658964,
      "learning_rate": 3.647394888191391e-06,
      "loss": 0.4723,
      "step": 2694
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.730041837709039,
      "learning_rate": 3.643925235993835e-06,
      "loss": 0.5933,
      "step": 2695
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.26054971371359,
      "learning_rate": 3.6404562885038046e-06,
      "loss": 0.3687,
      "step": 2696
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.3111013327965,
      "learning_rate": 3.636988047523997e-06,
      "loss": 0.6739,
      "step": 2697
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.423973068883768,
      "learning_rate": 3.633520514856744e-06,
      "loss": 0.3257,
      "step": 2698
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.9787518343842336,
      "learning_rate": 3.630053692304005e-06,
      "loss": 0.3613,
      "step": 2699
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.7199584736284272,
      "learning_rate": 3.626587581667379e-06,
      "loss": 0.4332,
      "step": 2700
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.7653898893599194,
      "learning_rate": 3.6231221847480865e-06,
      "loss": 0.4674,
      "step": 2701
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.624417993174577,
      "learning_rate": 3.619657503346981e-06,
      "loss": 0.6098,
      "step": 2702
    },
    {
      "epoch": 0.6,
      "grad_norm": 5.763818240028231,
      "learning_rate": 3.6161935392645442e-06,
      "loss": 0.5342,
      "step": 2703
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.541099603388376,
      "learning_rate": 3.612730294300882e-06,
      "loss": 0.5512,
      "step": 2704
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.36656074702178,
      "learning_rate": 3.6092677702557346e-06,
      "loss": 0.5674,
      "step": 2705
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.876569899869181,
      "learning_rate": 3.605805968928457e-06,
      "loss": 0.4816,
      "step": 2706
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.240109458262152,
      "learning_rate": 3.6023448921180357e-06,
      "loss": 0.4772,
      "step": 2707
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.187914809273393,
      "learning_rate": 3.5988845416230763e-06,
      "loss": 0.604,
      "step": 2708
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.7602771339641743,
      "learning_rate": 3.5954249192418133e-06,
      "loss": 0.5019,
      "step": 2709
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.3360315661736957,
      "learning_rate": 3.5919660267720967e-06,
      "loss": 0.4371,
      "step": 2710
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.478120560917298,
      "learning_rate": 3.5885078660114e-06,
      "loss": 0.4301,
      "step": 2711
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.8528868927146545,
      "learning_rate": 3.5850504387568152e-06,
      "loss": 0.6829,
      "step": 2712
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.524575929550704,
      "learning_rate": 3.581593746805053e-06,
      "loss": 0.6043,
      "step": 2713
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.060371827976687,
      "learning_rate": 3.578137791952444e-06,
      "loss": 0.4741,
      "step": 2714
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.470758467618798,
      "learning_rate": 3.5746825759949345e-06,
      "loss": 0.4439,
      "step": 2715
    },
    {
      "epoch": 0.6,
      "grad_norm": 5.482773347486656,
      "learning_rate": 3.571228100728086e-06,
      "loss": 0.6162,
      "step": 2716
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.4830544310339393,
      "learning_rate": 3.5677743679470733e-06,
      "loss": 0.4984,
      "step": 2717
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.5395633845747367,
      "learning_rate": 3.5643213794466935e-06,
      "loss": 0.6876,
      "step": 2718
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.9787288894284845,
      "learning_rate": 3.560869137021349e-06,
      "loss": 0.5775,
      "step": 2719
    },
    {
      "epoch": 0.61,
      "grad_norm": 6.225196043040264,
      "learning_rate": 3.5574176424650557e-06,
      "loss": 0.553,
      "step": 2720
    },
    {
      "epoch": 0.61,
      "grad_norm": 5.180600255164022,
      "learning_rate": 3.5539668975714443e-06,
      "loss": 0.4371,
      "step": 2721
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.0961387995586716,
      "learning_rate": 3.5505169041337482e-06,
      "loss": 0.7199,
      "step": 2722
    },
    {
      "epoch": 0.61,
      "grad_norm": 5.375600501067269,
      "learning_rate": 3.547067663944822e-06,
      "loss": 0.6681,
      "step": 2723
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.775787146408015,
      "learning_rate": 3.5436191787971196e-06,
      "loss": 0.6173,
      "step": 2724
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.635216877120214,
      "learning_rate": 3.5401714504827067e-06,
      "loss": 0.4766,
      "step": 2725
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.665384388313822,
      "learning_rate": 3.536724480793252e-06,
      "loss": 0.4786,
      "step": 2726
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.1731969993407745,
      "learning_rate": 3.533278271520035e-06,
      "loss": 0.4095,
      "step": 2727
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.317773666147461,
      "learning_rate": 3.529832824453938e-06,
      "loss": 0.738,
      "step": 2728
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.537737882794376,
      "learning_rate": 3.526388141385444e-06,
      "loss": 0.5308,
      "step": 2729
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.488077426739844,
      "learning_rate": 3.5229442241046434e-06,
      "loss": 0.5754,
      "step": 2730
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.874279422205593,
      "learning_rate": 3.519501074401225e-06,
      "loss": 0.4785,
      "step": 2731
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.943591581928612,
      "learning_rate": 3.5160586940644837e-06,
      "loss": 0.5907,
      "step": 2732
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.686386884885995,
      "learning_rate": 3.5126170848833103e-06,
      "loss": 0.6891,
      "step": 2733
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.697851517598541,
      "learning_rate": 3.5091762486461955e-06,
      "loss": 0.5612,
      "step": 2734
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.1245034839197743,
      "learning_rate": 3.5057361871412286e-06,
      "loss": 0.4644,
      "step": 2735
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.8189807385701178,
      "learning_rate": 3.5022969021560983e-06,
      "loss": 0.4264,
      "step": 2736
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.2516252039266966,
      "learning_rate": 3.498858395478086e-06,
      "loss": 0.3795,
      "step": 2737
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.4594222489985555,
      "learning_rate": 3.495420668894073e-06,
      "loss": 0.5991,
      "step": 2738
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.7575962087516928,
      "learning_rate": 3.4919837241905308e-06,
      "loss": 0.4349,
      "step": 2739
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.561172396508531,
      "learning_rate": 3.488547563153526e-06,
      "loss": 0.5358,
      "step": 2740
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.0851499856513724,
      "learning_rate": 3.4851121875687222e-06,
      "loss": 0.3746,
      "step": 2741
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.814786901268655,
      "learning_rate": 3.4816775992213685e-06,
      "loss": 0.6502,
      "step": 2742
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.8212875506389823,
      "learning_rate": 3.4782437998963093e-06,
      "loss": 0.3964,
      "step": 2743
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.0567986871317405,
      "learning_rate": 3.4748107913779737e-06,
      "loss": 0.3606,
      "step": 2744
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.014808740354347,
      "learning_rate": 3.471378575450388e-06,
      "loss": 0.4819,
      "step": 2745
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.314488214759009,
      "learning_rate": 3.467947153897161e-06,
      "loss": 0.4509,
      "step": 2746
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.5055877463791396,
      "learning_rate": 3.464516528501489e-06,
      "loss": 0.5334,
      "step": 2747
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.4633475138144703,
      "learning_rate": 3.461086701046156e-06,
      "loss": 0.4382,
      "step": 2748
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.389671878515452,
      "learning_rate": 3.4576576733135284e-06,
      "loss": 0.5838,
      "step": 2749
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.6245163109704697,
      "learning_rate": 3.454229447085563e-06,
      "loss": 0.5516,
      "step": 2750
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.298504506824935,
      "learning_rate": 3.450802024143794e-06,
      "loss": 0.4675,
      "step": 2751
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.0221921405429697,
      "learning_rate": 3.447375406269341e-06,
      "loss": 0.4816,
      "step": 2752
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.487471870559057,
      "learning_rate": 3.443949595242903e-06,
      "loss": 0.3535,
      "step": 2753
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.6706141227759637,
      "learning_rate": 3.440524592844767e-06,
      "loss": 0.513,
      "step": 2754
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.848755720975388,
      "learning_rate": 3.437100400854789e-06,
      "loss": 0.9241,
      "step": 2755
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.196534766056673,
      "learning_rate": 3.433677021052411e-06,
      "loss": 0.6713,
      "step": 2756
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.9263982778971807,
      "learning_rate": 3.4302544552166508e-06,
      "loss": 0.6088,
      "step": 2757
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.605933196589947,
      "learning_rate": 3.426832705126102e-06,
      "loss": 0.5792,
      "step": 2758
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.658804739705906,
      "learning_rate": 3.4234117725589385e-06,
      "loss": 0.5901,
      "step": 2759
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.184267236850002,
      "learning_rate": 3.4199916592929063e-06,
      "loss": 0.4491,
      "step": 2760
    },
    {
      "epoch": 0.61,
      "grad_norm": 4.419944321895054,
      "learning_rate": 3.416572367105324e-06,
      "loss": 0.511,
      "step": 2761
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.5000775324612725,
      "learning_rate": 3.413153897773086e-06,
      "loss": 0.5864,
      "step": 2762
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.9493922809222326,
      "learning_rate": 3.409736253072661e-06,
      "loss": 0.4546,
      "step": 2763
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.7814260230559023,
      "learning_rate": 3.4063194347800833e-06,
      "loss": 0.4989,
      "step": 2764
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.327201031667562,
      "learning_rate": 3.4029034446709643e-06,
      "loss": 0.4725,
      "step": 2765
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.876277652013073,
      "learning_rate": 3.399488284520479e-06,
      "loss": 0.673,
      "step": 2766
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.4338446582912012,
      "learning_rate": 3.396073956103374e-06,
      "loss": 0.4386,
      "step": 2767
    },
    {
      "epoch": 0.62,
      "grad_norm": 4.070978121311967,
      "learning_rate": 3.392660461193966e-06,
      "loss": 0.5985,
      "step": 2768
    },
    {
      "epoch": 0.62,
      "grad_norm": 4.657274258154581,
      "learning_rate": 3.3892478015661362e-06,
      "loss": 0.6473,
      "step": 2769
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.815285731510835,
      "learning_rate": 3.3858359789933313e-06,
      "loss": 0.4567,
      "step": 2770
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.7035435232571197,
      "learning_rate": 3.38242499524856e-06,
      "loss": 0.5403,
      "step": 2771
    },
    {
      "epoch": 0.62,
      "grad_norm": 4.04968069824453,
      "learning_rate": 3.379014852104403e-06,
      "loss": 0.6258,
      "step": 2772
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.911412092336469,
      "learning_rate": 3.375605551332998e-06,
      "loss": 0.5388,
      "step": 2773
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.47744970485609,
      "learning_rate": 3.372197094706047e-06,
      "loss": 0.386,
      "step": 2774
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.868109892618957,
      "learning_rate": 3.368789483994813e-06,
      "loss": 0.7042,
      "step": 2775
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.0279541316404415,
      "learning_rate": 3.3653827209701183e-06,
      "loss": 0.4844,
      "step": 2776
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.3886475094556805,
      "learning_rate": 3.3619768074023474e-06,
      "loss": 0.6389,
      "step": 2777
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.474274844722977,
      "learning_rate": 3.3585717450614406e-06,
      "loss": 0.4307,
      "step": 2778
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.3146485668249728,
      "learning_rate": 3.355167535716897e-06,
      "loss": 0.569,
      "step": 2779
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.151222164781173,
      "learning_rate": 3.3517641811377714e-06,
      "loss": 0.5413,
      "step": 2780
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.1789505610722966,
      "learning_rate": 3.348361683092679e-06,
      "loss": 0.4273,
      "step": 2781
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.9754475410159738,
      "learning_rate": 3.3449600433497833e-06,
      "loss": 0.7143,
      "step": 2782
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.172724848811727,
      "learning_rate": 3.3415592636768056e-06,
      "loss": 0.4636,
      "step": 2783
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.0287983100696296,
      "learning_rate": 3.33815934584102e-06,
      "loss": 0.5412,
      "step": 2784
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.5940747222142697,
      "learning_rate": 3.3347602916092503e-06,
      "loss": 0.5275,
      "step": 2785
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.454772107266587,
      "learning_rate": 3.331362102747875e-06,
      "loss": 0.5082,
      "step": 2786
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.5557126970817183,
      "learning_rate": 3.327964781022821e-06,
      "loss": 0.4358,
      "step": 2787
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.4991231161999305,
      "learning_rate": 3.3245683281995654e-06,
      "loss": 0.599,
      "step": 2788
    },
    {
      "epoch": 0.62,
      "grad_norm": 35.320592926914784,
      "learning_rate": 3.321172746043131e-06,
      "loss": 0.5693,
      "step": 2789
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.4211913834228147,
      "learning_rate": 3.317778036318093e-06,
      "loss": 0.574,
      "step": 2790
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.4746475162119412,
      "learning_rate": 3.314384200788569e-06,
      "loss": 0.4822,
      "step": 2791
    },
    {
      "epoch": 0.62,
      "grad_norm": 4.297224061039895,
      "learning_rate": 3.3109912412182245e-06,
      "loss": 0.4762,
      "step": 2792
    },
    {
      "epoch": 0.62,
      "grad_norm": 4.431441010420297,
      "learning_rate": 3.307599159370269e-06,
      "loss": 0.5383,
      "step": 2793
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.0615538709895187,
      "learning_rate": 3.3042079570074535e-06,
      "loss": 0.4419,
      "step": 2794
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.045595333199762,
      "learning_rate": 3.3008176358920798e-06,
      "loss": 0.6032,
      "step": 2795
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.286461975735299,
      "learning_rate": 3.2974281977859836e-06,
      "loss": 0.3594,
      "step": 2796
    },
    {
      "epoch": 0.62,
      "grad_norm": 4.690215796252129,
      "learning_rate": 3.294039644450544e-06,
      "loss": 0.5148,
      "step": 2797
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.756910039908251,
      "learning_rate": 3.2906519776466807e-06,
      "loss": 0.6211,
      "step": 2798
    },
    {
      "epoch": 0.62,
      "grad_norm": 5.485404848257498,
      "learning_rate": 3.2872651991348548e-06,
      "loss": 0.4158,
      "step": 2799
    },
    {
      "epoch": 0.62,
      "grad_norm": 6.097177367819183,
      "learning_rate": 3.2838793106750625e-06,
      "loss": 0.6844,
      "step": 2800
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.6527573174492804,
      "learning_rate": 3.2804943140268396e-06,
      "loss": 0.5771,
      "step": 2801
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.8280894430782597,
      "learning_rate": 3.277110210949257e-06,
      "loss": 0.6853,
      "step": 2802
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.8285397579049687,
      "learning_rate": 3.2737270032009216e-06,
      "loss": 0.5074,
      "step": 2803
    },
    {
      "epoch": 0.62,
      "grad_norm": 6.028048630397693,
      "learning_rate": 3.270344692539977e-06,
      "loss": 0.5167,
      "step": 2804
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.1092997950764607,
      "learning_rate": 3.2669632807240976e-06,
      "loss": 0.47,
      "step": 2805
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.9987515522378767,
      "learning_rate": 3.263582769510493e-06,
      "loss": 0.5419,
      "step": 2806
    },
    {
      "epoch": 0.62,
      "grad_norm": 5.132459398066509,
      "learning_rate": 3.2602031606559006e-06,
      "loss": 0.7822,
      "step": 2807
    },
    {
      "epoch": 0.62,
      "grad_norm": 5.023799810845621,
      "learning_rate": 3.256824455916597e-06,
      "loss": 0.5868,
      "step": 2808
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.027003873275723,
      "learning_rate": 3.253446657048382e-06,
      "loss": 0.6923,
      "step": 2809
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.2994559984165823,
      "learning_rate": 3.2500697658065866e-06,
      "loss": 0.6922,
      "step": 2810
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.419427880695094,
      "learning_rate": 3.2466937839460703e-06,
      "loss": 0.4732,
      "step": 2811
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.197324338268579,
      "learning_rate": 3.2433187132212195e-06,
      "loss": 0.6692,
      "step": 2812
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.2121577370918475,
      "learning_rate": 3.239944555385949e-06,
      "loss": 0.4115,
      "step": 2813
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.2142695583975778,
      "learning_rate": 3.236571312193697e-06,
      "loss": 0.52,
      "step": 2814
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.339203275248962,
      "learning_rate": 3.2331989853974277e-06,
      "loss": 0.5056,
      "step": 2815
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.874401407771375,
      "learning_rate": 3.2298275767496255e-06,
      "loss": 0.4608,
      "step": 2816
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.7479360693767516,
      "learning_rate": 3.226457088002306e-06,
      "loss": 0.446,
      "step": 2817
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.8162812088244538,
      "learning_rate": 3.223087520906999e-06,
      "loss": 0.4976,
      "step": 2818
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.7314686088898865,
      "learning_rate": 3.2197188772147593e-06,
      "loss": 0.6039,
      "step": 2819
    },
    {
      "epoch": 0.63,
      "grad_norm": 5.3728943673406935,
      "learning_rate": 3.216351158676157e-06,
      "loss": 0.7362,
      "step": 2820
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.660621813348631,
      "learning_rate": 3.2129843670412854e-06,
      "loss": 0.7121,
      "step": 2821
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.378207991284866,
      "learning_rate": 3.209618504059758e-06,
      "loss": 0.6048,
      "step": 2822
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.419884054871997,
      "learning_rate": 3.206253571480703e-06,
      "loss": 0.5369,
      "step": 2823
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.7216734489171843,
      "learning_rate": 3.2028895710527645e-06,
      "loss": 0.6835,
      "step": 2824
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.1393749414032674,
      "learning_rate": 3.199526504524102e-06,
      "loss": 0.4334,
      "step": 2825
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.670395641686849,
      "learning_rate": 3.196164373642393e-06,
      "loss": 0.5597,
      "step": 2826
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.627581550680372,
      "learning_rate": 3.192803180154825e-06,
      "loss": 0.4548,
      "step": 2827
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.4464581622578345,
      "learning_rate": 3.1894429258081013e-06,
      "loss": 0.5718,
      "step": 2828
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.308268116283345,
      "learning_rate": 3.186083612348434e-06,
      "loss": 0.5529,
      "step": 2829
    },
    {
      "epoch": 0.63,
      "grad_norm": 5.098449429160599,
      "learning_rate": 3.1827252415215457e-06,
      "loss": 0.6032,
      "step": 2830
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.0158809954892245,
      "learning_rate": 3.1793678150726782e-06,
      "loss": 0.5181,
      "step": 2831
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.607735662155194,
      "learning_rate": 3.176011334746571e-06,
      "loss": 0.543,
      "step": 2832
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.06279419429009,
      "learning_rate": 3.1726558022874776e-06,
      "loss": 0.5288,
      "step": 2833
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.752224608921137,
      "learning_rate": 3.169301219439158e-06,
      "loss": 0.5307,
      "step": 2834
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.338425339849208,
      "learning_rate": 3.165947587944879e-06,
      "loss": 0.5132,
      "step": 2835
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.134392044747943,
      "learning_rate": 3.1625949095474133e-06,
      "loss": 0.6806,
      "step": 2836
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.126961327378452,
      "learning_rate": 3.159243185989037e-06,
      "loss": 0.5558,
      "step": 2837
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.351838333876727,
      "learning_rate": 3.155892419011531e-06,
      "loss": 0.6286,
      "step": 2838
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.969061604666274,
      "learning_rate": 3.1525426103561774e-06,
      "loss": 0.7716,
      "step": 2839
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.9469325272191593,
      "learning_rate": 3.149193761763764e-06,
      "loss": 0.8064,
      "step": 2840
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.756739059482673,
      "learning_rate": 3.145845874974577e-06,
      "loss": 0.4316,
      "step": 2841
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.511105379758327,
      "learning_rate": 3.1424989517284027e-06,
      "loss": 0.4524,
      "step": 2842
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.7279575383588366,
      "learning_rate": 3.1391529937645247e-06,
      "loss": 0.6082,
      "step": 2843
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.641648773183741,
      "learning_rate": 3.135808002821733e-06,
      "loss": 0.377,
      "step": 2844
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.397875962638651,
      "learning_rate": 3.132463980638306e-06,
      "loss": 0.5565,
      "step": 2845
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.3279108243002824,
      "learning_rate": 3.1291209289520235e-06,
      "loss": 0.5714,
      "step": 2846
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.265782730907276,
      "learning_rate": 3.125778849500159e-06,
      "loss": 0.4852,
      "step": 2847
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.1021873751617286,
      "learning_rate": 3.1224377440194797e-06,
      "loss": 0.6503,
      "step": 2848
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.809795453403471,
      "learning_rate": 3.119097614246252e-06,
      "loss": 0.43,
      "step": 2849
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.5501523240312203,
      "learning_rate": 3.1157584619162295e-06,
      "loss": 0.6222,
      "step": 2850
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.252903443615665,
      "learning_rate": 3.1124202887646602e-06,
      "loss": 0.6972,
      "step": 2851
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.59552778097845,
      "learning_rate": 3.109083096526283e-06,
      "loss": 0.579,
      "step": 2852
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.8685785929483147,
      "learning_rate": 3.1057468869353275e-06,
      "loss": 0.468,
      "step": 2853
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.0666956749293495,
      "learning_rate": 3.1024116617255125e-06,
      "loss": 0.4941,
      "step": 2854
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.2724978767452733,
      "learning_rate": 3.0990774226300444e-06,
      "loss": 0.5309,
      "step": 2855
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.914967761332098,
      "learning_rate": 3.0957441713816185e-06,
      "loss": 0.6536,
      "step": 2856
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.646854074857807,
      "learning_rate": 3.092411909712413e-06,
      "loss": 0.4764,
      "step": 2857
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.3344434810178165,
      "learning_rate": 3.0890806393540995e-06,
      "loss": 0.5511,
      "step": 2858
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.1378138270368128,
      "learning_rate": 3.0857503620378284e-06,
      "loss": 0.5666,
      "step": 2859
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.0311090693328264,
      "learning_rate": 3.082421079494234e-06,
      "loss": 0.4076,
      "step": 2860
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.818042019304131,
      "learning_rate": 3.079092793453436e-06,
      "loss": 0.4771,
      "step": 2861
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.539267005873997,
      "learning_rate": 3.075765505645034e-06,
      "loss": 0.5849,
      "step": 2862
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.816705704464082,
      "learning_rate": 3.0724392177981133e-06,
      "loss": 0.5398,
      "step": 2863
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.514347836623633,
      "learning_rate": 3.0691139316412342e-06,
      "loss": 0.6591,
      "step": 2864
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.3277248599417293,
      "learning_rate": 3.065789648902439e-06,
      "loss": 0.5967,
      "step": 2865
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.26851516989841,
      "learning_rate": 3.0624663713092462e-06,
      "loss": 0.5824,
      "step": 2866
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.2386404170996155,
      "learning_rate": 3.059144100588659e-06,
      "loss": 0.4141,
      "step": 2867
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.037960272037263,
      "learning_rate": 3.0558228384671506e-06,
      "loss": 0.5678,
      "step": 2868
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.747413471711251,
      "learning_rate": 3.052502586670669e-06,
      "loss": 0.4558,
      "step": 2869
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.601455701244901,
      "learning_rate": 3.0491833469246435e-06,
      "loss": 0.6134,
      "step": 2870
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.7838778198713565,
      "learning_rate": 3.045865120953969e-06,
      "loss": 0.4006,
      "step": 2871
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.65107476510641,
      "learning_rate": 3.042547910483025e-06,
      "loss": 0.4665,
      "step": 2872
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.687474912349907,
      "learning_rate": 3.0392317172356533e-06,
      "loss": 0.7398,
      "step": 2873
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.7091638163220924,
      "learning_rate": 3.035916542935171e-06,
      "loss": 0.635,
      "step": 2874
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.337880404249683,
      "learning_rate": 3.0326023893043653e-06,
      "loss": 0.4078,
      "step": 2875
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.8874742963493105,
      "learning_rate": 3.0292892580654944e-06,
      "loss": 0.5278,
      "step": 2876
    },
    {
      "epoch": 0.64,
      "grad_norm": 7.304020023716853,
      "learning_rate": 3.0259771509402818e-06,
      "loss": 0.6115,
      "step": 2877
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.557449533466075,
      "learning_rate": 3.022666069649922e-06,
      "loss": 0.4284,
      "step": 2878
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.774220986067131,
      "learning_rate": 3.0193560159150747e-06,
      "loss": 0.6071,
      "step": 2879
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.6274417899868205,
      "learning_rate": 3.0160469914558654e-06,
      "loss": 0.5185,
      "step": 2880
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.5196379446238093,
      "learning_rate": 3.0127389979918873e-06,
      "loss": 0.5392,
      "step": 2881
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.1035783891066164,
      "learning_rate": 3.0094320372421955e-06,
      "loss": 0.4703,
      "step": 2882
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.793424396272425,
      "learning_rate": 3.0061261109253093e-06,
      "loss": 0.6355,
      "step": 2883
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.6520979669381846,
      "learning_rate": 3.002821220759206e-06,
      "loss": 0.6577,
      "step": 2884
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.073927994212442,
      "learning_rate": 2.9995173684613345e-06,
      "loss": 0.4588,
      "step": 2885
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.525726081775665,
      "learning_rate": 2.9962145557485943e-06,
      "loss": 0.372,
      "step": 2886
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.464879601554206,
      "learning_rate": 2.9929127843373507e-06,
      "loss": 0.4021,
      "step": 2887
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.5465779670002275,
      "learning_rate": 2.9896120559434257e-06,
      "loss": 0.7321,
      "step": 2888
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.423413775764526,
      "learning_rate": 2.986312372282097e-06,
      "loss": 0.474,
      "step": 2889
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.624767140064655,
      "learning_rate": 2.9830137350681053e-06,
      "loss": 0.4533,
      "step": 2890
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.016565177016581,
      "learning_rate": 2.979716146015642e-06,
      "loss": 0.6757,
      "step": 2891
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.7945790006800824,
      "learning_rate": 2.9764196068383565e-06,
      "loss": 0.598,
      "step": 2892
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.8466422210334836,
      "learning_rate": 2.97312411924935e-06,
      "loss": 0.4323,
      "step": 2893
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.9398701227519095,
      "learning_rate": 2.969829684961183e-06,
      "loss": 0.4541,
      "step": 2894
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.4493837473921376,
      "learning_rate": 2.9665363056858627e-06,
      "loss": 0.4995,
      "step": 2895
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.713253070701244,
      "learning_rate": 2.9632439831348505e-06,
      "loss": 0.4609,
      "step": 2896
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.733380000605207,
      "learning_rate": 2.959952719019058e-06,
      "loss": 0.6694,
      "step": 2897
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.636998739995884,
      "learning_rate": 2.956662515048846e-06,
      "loss": 0.6319,
      "step": 2898
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.34590979914579,
      "learning_rate": 2.9533733729340274e-06,
      "loss": 0.479,
      "step": 2899
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.011488075167188,
      "learning_rate": 2.950085294383861e-06,
      "loss": 0.4896,
      "step": 2900
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.146440206976212,
      "learning_rate": 2.946798281107052e-06,
      "loss": 0.7226,
      "step": 2901
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.111169912823776,
      "learning_rate": 2.9435123348117544e-06,
      "loss": 0.5385,
      "step": 2902
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.990973654479638,
      "learning_rate": 2.9402274572055666e-06,
      "loss": 0.4789,
      "step": 2903
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.477725685484905,
      "learning_rate": 2.9369436499955306e-06,
      "loss": 0.7569,
      "step": 2904
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.0655986042170285,
      "learning_rate": 2.933660914888135e-06,
      "loss": 0.545,
      "step": 2905
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.8014700428881283,
      "learning_rate": 2.930379253589308e-06,
      "loss": 0.339,
      "step": 2906
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.9223664337269164,
      "learning_rate": 2.927098667804419e-06,
      "loss": 0.5185,
      "step": 2907
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.658988179636442,
      "learning_rate": 2.923819159238286e-06,
      "loss": 0.4452,
      "step": 2908
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.3678218160565034,
      "learning_rate": 2.920540729595159e-06,
      "loss": 0.5034,
      "step": 2909
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.5430206180065973,
      "learning_rate": 2.91726338057873e-06,
      "loss": 0.4752,
      "step": 2910
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.2742202441624957,
      "learning_rate": 2.9139871138921295e-06,
      "loss": 0.5356,
      "step": 2911
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.456754992447006,
      "learning_rate": 2.9107119312379257e-06,
      "loss": 0.5796,
      "step": 2912
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.287939353860379,
      "learning_rate": 2.9074378343181262e-06,
      "loss": 0.5664,
      "step": 2913
    },
    {
      "epoch": 0.65,
      "grad_norm": 5.244673073817144,
      "learning_rate": 2.9041648248341673e-06,
      "loss": 0.9497,
      "step": 2914
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.7211916209098375,
      "learning_rate": 2.9008929044869293e-06,
      "loss": 0.4828,
      "step": 2915
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.84872727388183,
      "learning_rate": 2.897622074976717e-06,
      "loss": 0.598,
      "step": 2916
    },
    {
      "epoch": 0.65,
      "grad_norm": 5.067177262180337,
      "learning_rate": 2.894352338003275e-06,
      "loss": 0.7034,
      "step": 2917
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.869261103371663,
      "learning_rate": 2.8910836952657807e-06,
      "loss": 0.358,
      "step": 2918
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.841647729356504,
      "learning_rate": 2.8878161484628364e-06,
      "loss": 0.4536,
      "step": 2919
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.91908039044055,
      "learning_rate": 2.8845496992924805e-06,
      "loss": 0.762,
      "step": 2920
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.6456909080130564,
      "learning_rate": 2.8812843494521815e-06,
      "loss": 0.5032,
      "step": 2921
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.785767166302218,
      "learning_rate": 2.878020100638831e-06,
      "loss": 0.3261,
      "step": 2922
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.6855187185322724,
      "learning_rate": 2.874756954548755e-06,
      "loss": 0.6707,
      "step": 2923
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.0446535501761653,
      "learning_rate": 2.871494912877699e-06,
      "loss": 0.577,
      "step": 2924
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.9340419111729403,
      "learning_rate": 2.8682339773208436e-06,
      "loss": 0.3065,
      "step": 2925
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.719773533863056,
      "learning_rate": 2.8649741495727868e-06,
      "loss": 0.5793,
      "step": 2926
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.755739299113149,
      "learning_rate": 2.8617154313275576e-06,
      "loss": 0.465,
      "step": 2927
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.8531429102707047,
      "learning_rate": 2.858457824278601e-06,
      "loss": 0.3468,
      "step": 2928
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.5140357825561193,
      "learning_rate": 2.8552013301187898e-06,
      "loss": 0.3474,
      "step": 2929
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.5841138097199305,
      "learning_rate": 2.851945950540419e-06,
      "loss": 0.6508,
      "step": 2930
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.5261418250459267,
      "learning_rate": 2.848691687235199e-06,
      "loss": 0.4203,
      "step": 2931
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.9033162237667764,
      "learning_rate": 2.8454385418942676e-06,
      "loss": 0.4042,
      "step": 2932
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.21014850274939,
      "learning_rate": 2.842186516208173e-06,
      "loss": 0.4816,
      "step": 2933
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.927712029123142,
      "learning_rate": 2.838935611866889e-06,
      "loss": 0.7061,
      "step": 2934
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.8049763295237975,
      "learning_rate": 2.8356858305598044e-06,
      "loss": 0.6283,
      "step": 2935
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.8574099165984816,
      "learning_rate": 2.8324371739757216e-06,
      "loss": 0.5872,
      "step": 2936
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.8964070737315883,
      "learning_rate": 2.8291896438028633e-06,
      "loss": 0.5136,
      "step": 2937
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.1507187149728217,
      "learning_rate": 2.825943241728859e-06,
      "loss": 0.56,
      "step": 2938
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.3025587344557574,
      "learning_rate": 2.8226979694407657e-06,
      "loss": 0.478,
      "step": 2939
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.0728436438848608,
      "learning_rate": 2.8194538286250384e-06,
      "loss": 0.4941,
      "step": 2940
    },
    {
      "epoch": 0.65,
      "grad_norm": 8.0293297184157,
      "learning_rate": 2.8162108209675536e-06,
      "loss": 0.5119,
      "step": 2941
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.204121569531118,
      "learning_rate": 2.8129689481535933e-06,
      "loss": 0.6294,
      "step": 2942
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.5486509944788094,
      "learning_rate": 2.8097282118678538e-06,
      "loss": 0.2078,
      "step": 2943
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.340880686718468,
      "learning_rate": 2.8064886137944413e-06,
      "loss": 0.607,
      "step": 2944
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.394044424897511,
      "learning_rate": 2.8032501556168645e-06,
      "loss": 0.4564,
      "step": 2945
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.4054801027050816,
      "learning_rate": 2.8000128390180477e-06,
      "loss": 0.542,
      "step": 2946
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.1736922510575027,
      "learning_rate": 2.796776665680312e-06,
      "loss": 0.5965,
      "step": 2947
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.393780894475994,
      "learning_rate": 2.793541637285399e-06,
      "loss": 0.6457,
      "step": 2948
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.7503108790187394,
      "learning_rate": 2.790307755514442e-06,
      "loss": 0.3842,
      "step": 2949
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.162401879031415,
      "learning_rate": 2.7870750220479812e-06,
      "loss": 0.4858,
      "step": 2950
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.4756621578067843,
      "learning_rate": 2.7838434385659672e-06,
      "loss": 0.5317,
      "step": 2951
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.695242734346935,
      "learning_rate": 2.7806130067477404e-06,
      "loss": 0.3363,
      "step": 2952
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.508312624030615,
      "learning_rate": 2.7773837282720582e-06,
      "loss": 0.7376,
      "step": 2953
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.902268689097755,
      "learning_rate": 2.7741556048170657e-06,
      "loss": 0.8509,
      "step": 2954
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.824224076161369,
      "learning_rate": 2.7709286380603163e-06,
      "loss": 0.6661,
      "step": 2955
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.5086219856755823,
      "learning_rate": 2.7677028296787535e-06,
      "loss": 0.6207,
      "step": 2956
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.4906413259420006,
      "learning_rate": 2.764478181348727e-06,
      "loss": 0.5763,
      "step": 2957
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.2472956720287174,
      "learning_rate": 2.7612546947459827e-06,
      "loss": 0.4872,
      "step": 2958
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.973794076674849,
      "learning_rate": 2.7580323715456564e-06,
      "loss": 0.4066,
      "step": 2959
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.804331689194084,
      "learning_rate": 2.754811213422288e-06,
      "loss": 0.4419,
      "step": 2960
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.266915726959384,
      "learning_rate": 2.751591222049801e-06,
      "loss": 0.5739,
      "step": 2961
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.2898801192510945,
      "learning_rate": 2.7483723991015277e-06,
      "loss": 0.4988,
      "step": 2962
    },
    {
      "epoch": 0.66,
      "grad_norm": 6.409689947218782,
      "learning_rate": 2.7451547462501783e-06,
      "loss": 0.539,
      "step": 2963
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.5560343613611116,
      "learning_rate": 2.741938265167866e-06,
      "loss": 0.3928,
      "step": 2964
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.790779447302883,
      "learning_rate": 2.738722957526086e-06,
      "loss": 0.4041,
      "step": 2965
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.4992563373473966,
      "learning_rate": 2.7355088249957297e-06,
      "loss": 0.5707,
      "step": 2966
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.8918095820834115,
      "learning_rate": 2.7322958692470793e-06,
      "loss": 0.4823,
      "step": 2967
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.082384845210956,
      "learning_rate": 2.729084091949796e-06,
      "loss": 0.612,
      "step": 2968
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.3257400767230143,
      "learning_rate": 2.7258734947729428e-06,
      "loss": 0.4158,
      "step": 2969
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.2953275425256914,
      "learning_rate": 2.722664079384954e-06,
      "loss": 0.4303,
      "step": 2970
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.4836310053591064,
      "learning_rate": 2.7194558474536615e-06,
      "loss": 0.5988,
      "step": 2971
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.7696272051431206,
      "learning_rate": 2.7162488006462793e-06,
      "loss": 0.637,
      "step": 2972
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.295743962977068,
      "learning_rate": 2.7130429406294006e-06,
      "loss": 0.5703,
      "step": 2973
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.962841903283335,
      "learning_rate": 2.7098382690690074e-06,
      "loss": 0.3855,
      "step": 2974
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.562486508461258,
      "learning_rate": 2.706634787630462e-06,
      "loss": 0.5958,
      "step": 2975
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.248248599261613,
      "learning_rate": 2.7034324979785114e-06,
      "loss": 0.6458,
      "step": 2976
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.094633911219023,
      "learning_rate": 2.700231401777276e-06,
      "loss": 0.5811,
      "step": 2977
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.459753672635969,
      "learning_rate": 2.6970315006902638e-06,
      "loss": 0.3637,
      "step": 2978
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.652073878530796,
      "learning_rate": 2.6938327963803545e-06,
      "loss": 0.4409,
      "step": 2979
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.4352613493003674,
      "learning_rate": 2.6906352905098122e-06,
      "loss": 0.6185,
      "step": 2980
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.1886281251558057,
      "learning_rate": 2.687438984740278e-06,
      "loss": 0.3667,
      "step": 2981
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.0879677922358,
      "learning_rate": 2.6842438807327614e-06,
      "loss": 0.385,
      "step": 2982
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.044541335752322,
      "learning_rate": 2.6810499801476563e-06,
      "loss": 0.5548,
      "step": 2983
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.272060192139431,
      "learning_rate": 2.6778572846447304e-06,
      "loss": 0.4176,
      "step": 2984
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.382049581605944,
      "learning_rate": 2.674665795883118e-06,
      "loss": 0.4922,
      "step": 2985
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.695694791953717,
      "learning_rate": 2.6714755155213344e-06,
      "loss": 0.3952,
      "step": 2986
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.3408541830403187,
      "learning_rate": 2.6682864452172608e-06,
      "loss": 0.4479,
      "step": 2987
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.9140979947083085,
      "learning_rate": 2.6650985866281536e-06,
      "loss": 0.5201,
      "step": 2988
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.4405264847584687,
      "learning_rate": 2.6619119414106385e-06,
      "loss": 0.7109,
      "step": 2989
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.588300749641135,
      "learning_rate": 2.6587265112207124e-06,
      "loss": 0.752,
      "step": 2990
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.6300065722830803,
      "learning_rate": 2.655542297713734e-06,
      "loss": 0.4204,
      "step": 2991
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.063443288108947,
      "learning_rate": 2.6523593025444374e-06,
      "loss": 0.5794,
      "step": 2992
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.182284738817986,
      "learning_rate": 2.649177527366923e-06,
      "loss": 0.4541,
      "step": 2993
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.908573219557829,
      "learning_rate": 2.645996973834649e-06,
      "loss": 0.5094,
      "step": 2994
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.4082749151960785,
      "learning_rate": 2.6428176436004503e-06,
      "loss": 0.7278,
      "step": 2995
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.279604506291558,
      "learning_rate": 2.6396395383165165e-06,
      "loss": 0.485,
      "step": 2996
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.119285559386201,
      "learning_rate": 2.6364626596344055e-06,
      "loss": 0.6599,
      "step": 2997
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.4264722688689107,
      "learning_rate": 2.63328700920504e-06,
      "loss": 0.3549,
      "step": 2998
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.1432346388434946,
      "learning_rate": 2.6301125886786965e-06,
      "loss": 0.6021,
      "step": 2999
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.082987521342137,
      "learning_rate": 2.6269393997050208e-06,
      "loss": 0.5702,
      "step": 3000
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.009706282569262,
      "learning_rate": 2.6237674439330097e-06,
      "loss": 0.6545,
      "step": 3001
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.174306817473133,
      "learning_rate": 2.620596723011033e-06,
      "loss": 0.6044,
      "step": 3002
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.3868671979964002,
      "learning_rate": 2.617427238586802e-06,
      "loss": 0.3522,
      "step": 3003
    },
    {
      "epoch": 0.67,
      "grad_norm": 7.0482773246506305,
      "learning_rate": 2.6142589923074e-06,
      "loss": 0.7041,
      "step": 3004
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.8816486600393922,
      "learning_rate": 2.6110919858192557e-06,
      "loss": 0.506,
      "step": 3005
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.58088399342949,
      "learning_rate": 2.60792622076816e-06,
      "loss": 0.634,
      "step": 3006
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.615105221443428,
      "learning_rate": 2.6047616987992597e-06,
      "loss": 0.4376,
      "step": 3007
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.2796726415338298,
      "learning_rate": 2.601598421557048e-06,
      "loss": 0.3972,
      "step": 3008
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.643054592547297,
      "learning_rate": 2.5984363906853814e-06,
      "loss": 0.486,
      "step": 3009
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.5489031111306826,
      "learning_rate": 2.5952756078274577e-06,
      "loss": 0.6688,
      "step": 3010
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.134276248135419,
      "learning_rate": 2.5921160746258377e-06,
      "loss": 0.6417,
      "step": 3011
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.571299920688755,
      "learning_rate": 2.588957792722424e-06,
      "loss": 0.7585,
      "step": 3012
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.722683108673821,
      "learning_rate": 2.5858007637584737e-06,
      "loss": 0.4365,
      "step": 3013
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.5800962871227178,
      "learning_rate": 2.5826449893745903e-06,
      "loss": 0.5365,
      "step": 3014
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.953139676068336,
      "learning_rate": 2.5794904712107218e-06,
      "loss": 0.4572,
      "step": 3015
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.1724307627925037,
      "learning_rate": 2.5763372109061756e-06,
      "loss": 0.5207,
      "step": 3016
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.531682919027025,
      "learning_rate": 2.5731852100995913e-06,
      "loss": 0.5347,
      "step": 3017
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.801886352082773,
      "learning_rate": 2.570034470428965e-06,
      "loss": 0.6184,
      "step": 3018
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.1986963793167886,
      "learning_rate": 2.566884993531628e-06,
      "loss": 0.5303,
      "step": 3019
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.5163695627261164,
      "learning_rate": 2.5637367810442626e-06,
      "loss": 0.5239,
      "step": 3020
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.7570934352996135,
      "learning_rate": 2.5605898346028925e-06,
      "loss": 0.462,
      "step": 3021
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.622211436607869,
      "learning_rate": 2.5574441558428787e-06,
      "loss": 0.4253,
      "step": 3022
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.894222193377654,
      "learning_rate": 2.5542997463989317e-06,
      "loss": 0.5783,
      "step": 3023
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.4364601849234786,
      "learning_rate": 2.551156607905092e-06,
      "loss": 0.6091,
      "step": 3024
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.315995303558287,
      "learning_rate": 2.5480147419947534e-06,
      "loss": 0.5878,
      "step": 3025
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.2022097572810657,
      "learning_rate": 2.544874150300633e-06,
      "loss": 0.4292,
      "step": 3026
    },
    {
      "epoch": 0.67,
      "grad_norm": 5.182344600790251,
      "learning_rate": 2.5417348344547988e-06,
      "loss": 0.6213,
      "step": 3027
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.396392565718964,
      "learning_rate": 2.538596796088645e-06,
      "loss": 0.5002,
      "step": 3028
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.802396483609995,
      "learning_rate": 2.5354600368329108e-06,
      "loss": 0.5832,
      "step": 3029
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.62892971046369,
      "learning_rate": 2.532324558317667e-06,
      "loss": 0.5716,
      "step": 3030
    },
    {
      "epoch": 0.67,
      "grad_norm": 9.629779493488295,
      "learning_rate": 2.5291903621723156e-06,
      "loss": 0.4462,
      "step": 3031
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.589468878486904,
      "learning_rate": 2.5260574500255997e-06,
      "loss": 0.7108,
      "step": 3032
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.2804920006072225,
      "learning_rate": 2.522925823505587e-06,
      "loss": 0.5487,
      "step": 3033
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.573065451676507,
      "learning_rate": 2.5197954842396825e-06,
      "loss": 0.6387,
      "step": 3034
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.772048364204919,
      "learning_rate": 2.5166664338546233e-06,
      "loss": 0.5977,
      "step": 3035
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.3180813247089236,
      "learning_rate": 2.513538673976469e-06,
      "loss": 0.5085,
      "step": 3036
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.716976178547558,
      "learning_rate": 2.5104122062306167e-06,
      "loss": 0.4814,
      "step": 3037
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.9299218237034705,
      "learning_rate": 2.5072870322417886e-06,
      "loss": 0.4973,
      "step": 3038
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.6218319537276256,
      "learning_rate": 2.5041631536340374e-06,
      "loss": 0.4884,
      "step": 3039
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.7933203170891017,
      "learning_rate": 2.5010405720307355e-06,
      "loss": 0.6838,
      "step": 3040
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.1583803241442063,
      "learning_rate": 2.4979192890545907e-06,
      "loss": 0.4836,
      "step": 3041
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.8795935465086977,
      "learning_rate": 2.4947993063276273e-06,
      "loss": 0.4715,
      "step": 3042
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.9993064518580326,
      "learning_rate": 2.4916806254711995e-06,
      "loss": 0.1905,
      "step": 3043
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.922310502361728,
      "learning_rate": 2.4885632481059853e-06,
      "loss": 0.5777,
      "step": 3044
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.9153544484037446,
      "learning_rate": 2.4854471758519793e-06,
      "loss": 0.5516,
      "step": 3045
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.570913376450831,
      "learning_rate": 2.4823324103285048e-06,
      "loss": 0.4826,
      "step": 3046
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.724943972343994,
      "learning_rate": 2.479218953154204e-06,
      "loss": 0.4987,
      "step": 3047
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.2901132681615786,
      "learning_rate": 2.476106805947035e-06,
      "loss": 0.6295,
      "step": 3048
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.121752498435799,
      "learning_rate": 2.472995970324282e-06,
      "loss": 0.4085,
      "step": 3049
    },
    {
      "epoch": 0.68,
      "grad_norm": 5.5044977131675425,
      "learning_rate": 2.4698864479025406e-06,
      "loss": 0.3712,
      "step": 3050
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.8486234984716052,
      "learning_rate": 2.4667782402977296e-06,
      "loss": 0.4403,
      "step": 3051
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.442649480221455,
      "learning_rate": 2.4636713491250826e-06,
      "loss": 0.5324,
      "step": 3052
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.2138767868884073,
      "learning_rate": 2.4605657759991497e-06,
      "loss": 0.7704,
      "step": 3053
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.9816412159926617,
      "learning_rate": 2.4574615225337927e-06,
      "loss": 0.6525,
      "step": 3054
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.3107152328321576,
      "learning_rate": 2.4543585903421912e-06,
      "loss": 0.4591,
      "step": 3055
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.4095625355519426,
      "learning_rate": 2.45125698103684e-06,
      "loss": 0.5152,
      "step": 3056
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.2219044830854164,
      "learning_rate": 2.4481566962295385e-06,
      "loss": 0.548,
      "step": 3057
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.628440372167504,
      "learning_rate": 2.4450577375314077e-06,
      "loss": 0.4173,
      "step": 3058
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.230677594511576,
      "learning_rate": 2.4419601065528703e-06,
      "loss": 0.4257,
      "step": 3059
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.752957446978538,
      "learning_rate": 2.438863804903666e-06,
      "loss": 0.6538,
      "step": 3060
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.896349069124154,
      "learning_rate": 2.435768834192841e-06,
      "loss": 0.595,
      "step": 3061
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.7032236014772115,
      "learning_rate": 2.4326751960287515e-06,
      "loss": 0.4449,
      "step": 3062
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.268057814608037,
      "learning_rate": 2.429582892019057e-06,
      "loss": 0.5962,
      "step": 3063
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.644680559417778,
      "learning_rate": 2.4264919237707246e-06,
      "loss": 0.5329,
      "step": 3064
    },
    {
      "epoch": 0.68,
      "grad_norm": 5.951418685945958,
      "learning_rate": 2.4234022928900345e-06,
      "loss": 0.5567,
      "step": 3065
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.873971758866935,
      "learning_rate": 2.420314000982562e-06,
      "loss": 0.5577,
      "step": 3066
    },
    {
      "epoch": 0.68,
      "grad_norm": 6.897481619984401,
      "learning_rate": 2.417227049653194e-06,
      "loss": 0.8258,
      "step": 3067
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.538283680771877,
      "learning_rate": 2.4141414405061148e-06,
      "loss": 0.5882,
      "step": 3068
    },
    {
      "epoch": 0.68,
      "grad_norm": 5.3636635792351735,
      "learning_rate": 2.4110571751448154e-06,
      "loss": 0.7239,
      "step": 3069
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.5117716420390344,
      "learning_rate": 2.407974255172089e-06,
      "loss": 0.4062,
      "step": 3070
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.501989455508063,
      "learning_rate": 2.4048926821900246e-06,
      "loss": 0.6075,
      "step": 3071
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.5288567969192672,
      "learning_rate": 2.4018124578000186e-06,
      "loss": 0.4476,
      "step": 3072
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.6604811515422035,
      "learning_rate": 2.398733583602756e-06,
      "loss": 0.3965,
      "step": 3073
    },
    {
      "epoch": 0.68,
      "grad_norm": 5.192752897996144,
      "learning_rate": 2.3956560611982336e-06,
      "loss": 0.482,
      "step": 3074
    },
    {
      "epoch": 0.68,
      "grad_norm": 5.47732820857953,
      "learning_rate": 2.3925798921857345e-06,
      "loss": 0.3747,
      "step": 3075
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.1039645624353795,
      "learning_rate": 2.3895050781638464e-06,
      "loss": 0.4242,
      "step": 3076
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.756762552111304,
      "learning_rate": 2.3864316207304444e-06,
      "loss": 0.5069,
      "step": 3077
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.943121528017002,
      "learning_rate": 2.3833595214827054e-06,
      "loss": 0.5745,
      "step": 3078
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.195331842038541,
      "learning_rate": 2.3802887820171012e-06,
      "loss": 0.6981,
      "step": 3079
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.746723233715295,
      "learning_rate": 2.37721940392939e-06,
      "loss": 0.5721,
      "step": 3080
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.374968945408899,
      "learning_rate": 2.3741513888146313e-06,
      "loss": 0.5285,
      "step": 3081
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.6627746708173192,
      "learning_rate": 2.3710847382671664e-06,
      "loss": 0.6976,
      "step": 3082
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.170492046712363,
      "learning_rate": 2.368019453880636e-06,
      "loss": 0.5482,
      "step": 3083
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.0191726998915653,
      "learning_rate": 2.3649555372479695e-06,
      "loss": 0.4121,
      "step": 3084
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.16641387765145,
      "learning_rate": 2.3618929899613795e-06,
      "loss": 0.4979,
      "step": 3085
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.6747653434840517,
      "learning_rate": 2.3588318136123763e-06,
      "loss": 0.3432,
      "step": 3086
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.779109651819978,
      "learning_rate": 2.3557720097917454e-06,
      "loss": 0.5974,
      "step": 3087
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.378460854422488,
      "learning_rate": 2.3527135800895747e-06,
      "loss": 0.4081,
      "step": 3088
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.314202486759125,
      "learning_rate": 2.349656526095224e-06,
      "loss": 0.5327,
      "step": 3089
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.067037298001719,
      "learning_rate": 2.346600849397348e-06,
      "loss": 0.5155,
      "step": 3090
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.2196816446105587,
      "learning_rate": 2.3435465515838773e-06,
      "loss": 0.4331,
      "step": 3091
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.2447224182251135,
      "learning_rate": 2.340493634242032e-06,
      "loss": 0.6201,
      "step": 3092
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.7722668103856787,
      "learning_rate": 2.337442098958315e-06,
      "loss": 0.4024,
      "step": 3093
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.149513586870469,
      "learning_rate": 2.3343919473185057e-06,
      "loss": 0.563,
      "step": 3094
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.5164575087653107,
      "learning_rate": 2.3313431809076707e-06,
      "loss": 0.5985,
      "step": 3095
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.3560025578551804,
      "learning_rate": 2.328295801310151e-06,
      "loss": 0.3703,
      "step": 3096
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.6464418693836964,
      "learning_rate": 2.3252498101095703e-06,
      "loss": 0.4837,
      "step": 3097
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.198718968982127,
      "learning_rate": 2.322205208888833e-06,
      "loss": 0.8126,
      "step": 3098
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.4210939764176835,
      "learning_rate": 2.3191619992301144e-06,
      "loss": 0.6769,
      "step": 3099
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.605480876018836,
      "learning_rate": 2.316120182714873e-06,
      "loss": 0.3757,
      "step": 3100
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.8512216250956612,
      "learning_rate": 2.31307976092384e-06,
      "loss": 0.3802,
      "step": 3101
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.1840536149993177,
      "learning_rate": 2.3100407354370245e-06,
      "loss": 0.3656,
      "step": 3102
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.260919020644056,
      "learning_rate": 2.3070031078337058e-06,
      "loss": 0.7417,
      "step": 3103
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.3594939033692635,
      "learning_rate": 2.3039668796924424e-06,
      "loss": 0.4054,
      "step": 3104
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.4473044266522512,
      "learning_rate": 2.3009320525910584e-06,
      "loss": 0.561,
      "step": 3105
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.512437628847055,
      "learning_rate": 2.2978986281066556e-06,
      "loss": 0.4975,
      "step": 3106
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.6692953788004683,
      "learning_rate": 2.2948666078156067e-06,
      "loss": 0.4557,
      "step": 3107
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.3955850049982415,
      "learning_rate": 2.29183599329355e-06,
      "loss": 0.3922,
      "step": 3108
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.3684249204264765,
      "learning_rate": 2.2888067861153983e-06,
      "loss": 0.4919,
      "step": 3109
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.861380759661143,
      "learning_rate": 2.2857789878553312e-06,
      "loss": 0.6812,
      "step": 3110
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.23706526728638,
      "learning_rate": 2.2827526000867967e-06,
      "loss": 0.5989,
      "step": 3111
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.193835421550427,
      "learning_rate": 2.2797276243825084e-06,
      "loss": 0.6802,
      "step": 3112
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.510073579567932,
      "learning_rate": 2.2767040623144443e-06,
      "loss": 0.3827,
      "step": 3113
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.237114612487895,
      "learning_rate": 2.2736819154538526e-06,
      "loss": 0.5268,
      "step": 3114
    },
    {
      "epoch": 0.69,
      "grad_norm": 5.419483066419936,
      "learning_rate": 2.270661185371244e-06,
      "loss": 0.4055,
      "step": 3115
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.2855291740858124,
      "learning_rate": 2.2676418736363943e-06,
      "loss": 0.7284,
      "step": 3116
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.7387966610148493,
      "learning_rate": 2.2646239818183363e-06,
      "loss": 0.4757,
      "step": 3117
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.900198710476066,
      "learning_rate": 2.2616075114853727e-06,
      "loss": 0.6747,
      "step": 3118
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.025099085759573,
      "learning_rate": 2.2585924642050638e-06,
      "loss": 0.5327,
      "step": 3119
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.8691598059829966,
      "learning_rate": 2.255578841544229e-06,
      "loss": 0.6151,
      "step": 3120
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.8344270250046653,
      "learning_rate": 2.2525666450689513e-06,
      "loss": 0.4792,
      "step": 3121
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.7779797012638734,
      "learning_rate": 2.249555876344568e-06,
      "loss": 0.6193,
      "step": 3122
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.4086554254871007,
      "learning_rate": 2.246546536935677e-06,
      "loss": 0.7091,
      "step": 3123
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.3044904808671896,
      "learning_rate": 2.2435386284061347e-06,
      "loss": 0.6003,
      "step": 3124
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.048048129787112,
      "learning_rate": 2.2405321523190533e-06,
      "loss": 0.4662,
      "step": 3125
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.4233817755801565,
      "learning_rate": 2.2375271102367957e-06,
      "loss": 0.5637,
      "step": 3126
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.5126249116934916,
      "learning_rate": 2.234523503720986e-06,
      "loss": 0.2611,
      "step": 3127
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.3693876261455484,
      "learning_rate": 2.231521334332502e-06,
      "loss": 0.7651,
      "step": 3128
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.9963314642936005,
      "learning_rate": 2.2285206036314684e-06,
      "loss": 0.598,
      "step": 3129
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.917026126209503,
      "learning_rate": 2.2255213131772703e-06,
      "loss": 0.5665,
      "step": 3130
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.079862981733923,
      "learning_rate": 2.222523464528536e-06,
      "loss": 0.5705,
      "step": 3131
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.683713018292704,
      "learning_rate": 2.2195270592431523e-06,
      "loss": 0.6323,
      "step": 3132
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.234056763920575,
      "learning_rate": 2.2165320988782534e-06,
      "loss": 0.5281,
      "step": 3133
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.9486317951926058,
      "learning_rate": 2.2135385849902186e-06,
      "loss": 0.5001,
      "step": 3134
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.182759358990242,
      "learning_rate": 2.210546519134682e-06,
      "loss": 0.6026,
      "step": 3135
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.256619523286139,
      "learning_rate": 2.2075559028665174e-06,
      "loss": 0.3269,
      "step": 3136
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.3632069330353906,
      "learning_rate": 2.2045667377398557e-06,
      "loss": 0.5416,
      "step": 3137
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.3791673211556454,
      "learning_rate": 2.2015790253080636e-06,
      "loss": 0.4983,
      "step": 3138
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.7461828487647084,
      "learning_rate": 2.1985927671237605e-06,
      "loss": 0.4076,
      "step": 3139
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.7890338369963548,
      "learning_rate": 2.1956079647388028e-06,
      "loss": 0.5174,
      "step": 3140
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.465760057136971,
      "learning_rate": 2.1926246197042965e-06,
      "loss": 0.5599,
      "step": 3141
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.2156605319635156,
      "learning_rate": 2.18964273357059e-06,
      "loss": 0.5517,
      "step": 3142
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.6777479893222,
      "learning_rate": 2.1866623078872674e-06,
      "loss": 0.6544,
      "step": 3143
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.94879454568651,
      "learning_rate": 2.183683344203162e-06,
      "loss": 0.5706,
      "step": 3144
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.7664190373087307,
      "learning_rate": 2.1807058440663398e-06,
      "loss": 0.5668,
      "step": 3145
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.9086278088159636,
      "learning_rate": 2.177729809024111e-06,
      "loss": 0.5863,
      "step": 3146
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.3484770770298704,
      "learning_rate": 2.1747552406230264e-06,
      "loss": 0.4722,
      "step": 3147
    },
    {
      "epoch": 0.7,
      "grad_norm": 5.850432818501027,
      "learning_rate": 2.1717821404088667e-06,
      "loss": 0.5641,
      "step": 3148
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.8492988429757244,
      "learning_rate": 2.168810509926659e-06,
      "loss": 0.3589,
      "step": 3149
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.5674300905873793,
      "learning_rate": 2.1658403507206553e-06,
      "loss": 0.4505,
      "step": 3150
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.272335024948154,
      "learning_rate": 2.162871664334359e-06,
      "loss": 0.5475,
      "step": 3151
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.422557938424265,
      "learning_rate": 2.1599044523104917e-06,
      "loss": 0.6112,
      "step": 3152
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.732880417221688,
      "learning_rate": 2.156938716191021e-06,
      "loss": 0.6162,
      "step": 3153
    },
    {
      "epoch": 0.7,
      "grad_norm": 6.750688172870649,
      "learning_rate": 2.1539744575171378e-06,
      "loss": 0.5217,
      "step": 3154
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.547581479969881,
      "learning_rate": 2.151011677829273e-06,
      "loss": 0.5738,
      "step": 3155
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.135774571261372,
      "learning_rate": 2.148050378667087e-06,
      "loss": 0.3664,
      "step": 3156
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.404149995222926,
      "learning_rate": 2.1450905615694657e-06,
      "loss": 0.373,
      "step": 3157
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.1448742128482845,
      "learning_rate": 2.142132228074533e-06,
      "loss": 0.5913,
      "step": 3158
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.98781205886371,
      "learning_rate": 2.1391753797196328e-06,
      "loss": 0.4396,
      "step": 3159
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.9145586403969475,
      "learning_rate": 2.1362200180413483e-06,
      "loss": 0.6208,
      "step": 3160
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.959913795315733,
      "learning_rate": 2.133266144575481e-06,
      "loss": 0.4271,
      "step": 3161
    },
    {
      "epoch": 0.7,
      "grad_norm": 5.447439802495095,
      "learning_rate": 2.1303137608570594e-06,
      "loss": 0.3527,
      "step": 3162
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.46465116653535,
      "learning_rate": 2.1273628684203436e-06,
      "loss": 0.5314,
      "step": 3163
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.367975367567427,
      "learning_rate": 2.124413468798814e-06,
      "loss": 0.473,
      "step": 3164
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.5255829393024545,
      "learning_rate": 2.121465563525179e-06,
      "loss": 0.4966,
      "step": 3165
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.01486540133784,
      "learning_rate": 2.118519154131365e-06,
      "loss": 0.5498,
      "step": 3166
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.531367110770696,
      "learning_rate": 2.115574242148527e-06,
      "loss": 0.5286,
      "step": 3167
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.535430495751213,
      "learning_rate": 2.1126308291070364e-06,
      "loss": 0.5992,
      "step": 3168
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.3929448499701245,
      "learning_rate": 2.1096889165364894e-06,
      "loss": 0.6216,
      "step": 3169
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.1628540715985873,
      "learning_rate": 2.1067485059657033e-06,
      "loss": 0.2422,
      "step": 3170
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.188302573095504,
      "learning_rate": 2.10380959892271e-06,
      "loss": 0.4195,
      "step": 3171
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.962874936974589,
      "learning_rate": 2.1008721969347636e-06,
      "loss": 0.4997,
      "step": 3172
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.977874925020809,
      "learning_rate": 2.097936301528336e-06,
      "loss": 0.4871,
      "step": 3173
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.6172520781009165,
      "learning_rate": 2.095001914229118e-06,
      "loss": 0.3683,
      "step": 3174
    },
    {
      "epoch": 0.71,
      "grad_norm": 5.241250590193064,
      "learning_rate": 2.0920690365620095e-06,
      "loss": 0.4079,
      "step": 3175
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.488730785812672,
      "learning_rate": 2.089137670051135e-06,
      "loss": 0.3569,
      "step": 3176
    },
    {
      "epoch": 0.71,
      "grad_norm": 6.358795551669043,
      "learning_rate": 2.0862078162198267e-06,
      "loss": 0.6172,
      "step": 3177
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.409189818859407,
      "learning_rate": 2.083279476590634e-06,
      "loss": 0.2583,
      "step": 3178
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.0338246523973433,
      "learning_rate": 2.0803526526853206e-06,
      "loss": 0.3344,
      "step": 3179
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.262031443706735,
      "learning_rate": 2.077427346024858e-06,
      "loss": 0.5,
      "step": 3180
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.1566822851692153,
      "learning_rate": 2.074503558129433e-06,
      "loss": 0.437,
      "step": 3181
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.7187763185689224,
      "learning_rate": 2.0715812905184446e-06,
      "loss": 0.6197,
      "step": 3182
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.3075261923799375,
      "learning_rate": 2.0686605447104957e-06,
      "loss": 0.3871,
      "step": 3183
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.6985920163433836,
      "learning_rate": 2.065741322223405e-06,
      "loss": 0.3795,
      "step": 3184
    },
    {
      "epoch": 0.71,
      "grad_norm": 6.023800182773629,
      "learning_rate": 2.0628236245741936e-06,
      "loss": 0.5264,
      "step": 3185
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.9148387676261427,
      "learning_rate": 2.0599074532790946e-06,
      "loss": 0.5997,
      "step": 3186
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.069082999683933,
      "learning_rate": 2.0569928098535462e-06,
      "loss": 0.541,
      "step": 3187
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.3268749104423465,
      "learning_rate": 2.0540796958121954e-06,
      "loss": 0.5958,
      "step": 3188
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.5406120251999056,
      "learning_rate": 2.0511681126688883e-06,
      "loss": 0.5416,
      "step": 3189
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.482483001952749,
      "learning_rate": 2.0482580619366797e-06,
      "loss": 0.4642,
      "step": 3190
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.055164612884293,
      "learning_rate": 2.0453495451278306e-06,
      "loss": 0.5291,
      "step": 3191
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.0354887126893577,
      "learning_rate": 2.042442563753797e-06,
      "loss": 0.4387,
      "step": 3192
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.039686078782896,
      "learning_rate": 2.0395371193252456e-06,
      "loss": 0.4932,
      "step": 3193
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.6772740958099597,
      "learning_rate": 2.0366332133520377e-06,
      "loss": 0.4757,
      "step": 3194
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.0989965509161808,
      "learning_rate": 2.0337308473432384e-06,
      "loss": 0.3271,
      "step": 3195
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.8473918063692745,
      "learning_rate": 2.0308300228071144e-06,
      "loss": 0.6957,
      "step": 3196
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.327765421669783,
      "learning_rate": 2.0279307412511255e-06,
      "loss": 0.8187,
      "step": 3197
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.079595525347682,
      "learning_rate": 2.0250330041819367e-06,
      "loss": 0.4081,
      "step": 3198
    },
    {
      "epoch": 0.71,
      "grad_norm": 6.451521270263685,
      "learning_rate": 2.022136813105401e-06,
      "loss": 0.6282,
      "step": 3199
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.4934862559448043,
      "learning_rate": 2.0192421695265814e-06,
      "loss": 0.5184,
      "step": 3200
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.682573706245336,
      "learning_rate": 2.0163490749497234e-06,
      "loss": 0.4362,
      "step": 3201
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.501985714770008,
      "learning_rate": 2.0134575308782768e-06,
      "loss": 0.6654,
      "step": 3202
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.008958957429526,
      "learning_rate": 2.0105675388148788e-06,
      "loss": 0.4148,
      "step": 3203
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.5914540531244277,
      "learning_rate": 2.0076791002613654e-06,
      "loss": 0.5005,
      "step": 3204
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.800806444724069,
      "learning_rate": 2.0047922167187646e-06,
      "loss": 0.364,
      "step": 3205
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.5119433116422276,
      "learning_rate": 2.001906889687291e-06,
      "loss": 0.3717,
      "step": 3206
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.652093190242125,
      "learning_rate": 1.99902312066636e-06,
      "loss": 0.7496,
      "step": 3207
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.911972638979221,
      "learning_rate": 1.9961409111545633e-06,
      "loss": 0.6298,
      "step": 3208
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.452539725872558,
      "learning_rate": 1.9932602626496994e-06,
      "loss": 0.4815,
      "step": 3209
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.780498574671214,
      "learning_rate": 1.990381176648743e-06,
      "loss": 0.6566,
      "step": 3210
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.1148298044922935,
      "learning_rate": 1.987503654647858e-06,
      "loss": 0.7664,
      "step": 3211
    },
    {
      "epoch": 0.71,
      "grad_norm": 10.315034999605059,
      "learning_rate": 1.9846276981424035e-06,
      "loss": 0.6409,
      "step": 3212
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.128480890747345,
      "learning_rate": 1.9817533086269126e-06,
      "loss": 0.5607,
      "step": 3213
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.2987709039084767,
      "learning_rate": 1.9788804875951184e-06,
      "loss": 0.6156,
      "step": 3214
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.874153495920228,
      "learning_rate": 1.976009236539927e-06,
      "loss": 0.3895,
      "step": 3215
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.696956261573432,
      "learning_rate": 1.973139556953437e-06,
      "loss": 0.3304,
      "step": 3216
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.460775085613497,
      "learning_rate": 1.970271450326922e-06,
      "loss": 0.4126,
      "step": 3217
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.6708564125428915,
      "learning_rate": 1.9674049181508454e-06,
      "loss": 0.54,
      "step": 3218
    },
    {
      "epoch": 0.72,
      "grad_norm": 5.973157864470097,
      "learning_rate": 1.9645399619148515e-06,
      "loss": 0.7404,
      "step": 3219
    },
    {
      "epoch": 0.72,
      "grad_norm": 5.689712397396668,
      "learning_rate": 1.9616765831077605e-06,
      "loss": 0.4815,
      "step": 3220
    },
    {
      "epoch": 0.72,
      "grad_norm": 5.198545810688661,
      "learning_rate": 1.9588147832175796e-06,
      "loss": 0.5093,
      "step": 3221
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.036695834818117,
      "learning_rate": 1.955954563731487e-06,
      "loss": 0.4534,
      "step": 3222
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.6160853284813035,
      "learning_rate": 1.9530959261358525e-06,
      "loss": 0.3279,
      "step": 3223
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.9311631573191335,
      "learning_rate": 1.95023887191621e-06,
      "loss": 0.4118,
      "step": 3224
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.694614391475362,
      "learning_rate": 1.9473834025572807e-06,
      "loss": 0.4152,
      "step": 3225
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.6967366797296717,
      "learning_rate": 1.9445295195429547e-06,
      "loss": 0.417,
      "step": 3226
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.163271611761613,
      "learning_rate": 1.941677224356303e-06,
      "loss": 0.4591,
      "step": 3227
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.7795048871346126,
      "learning_rate": 1.9388265184795717e-06,
      "loss": 0.6001,
      "step": 3228
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.2090768990053493,
      "learning_rate": 1.9359774033941757e-06,
      "loss": 0.5104,
      "step": 3229
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.1214076352851583,
      "learning_rate": 1.93312988058071e-06,
      "loss": 0.4799,
      "step": 3230
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.7303308971207088,
      "learning_rate": 1.930283951518934e-06,
      "loss": 0.4364,
      "step": 3231
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.7380393233991964,
      "learning_rate": 1.927439617687787e-06,
      "loss": 0.424,
      "step": 3232
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.2804571971624035,
      "learning_rate": 1.9245968805653766e-06,
      "loss": 0.4294,
      "step": 3233
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.054991963242955,
      "learning_rate": 1.921755741628977e-06,
      "loss": 0.5117,
      "step": 3234
    },
    {
      "epoch": 0.72,
      "grad_norm": 5.020560300302348,
      "learning_rate": 1.9189162023550356e-06,
      "loss": 0.5564,
      "step": 3235
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.7792931392908815,
      "learning_rate": 1.916078264219169e-06,
      "loss": 0.557,
      "step": 3236
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.265880441404936,
      "learning_rate": 1.9132419286961618e-06,
      "loss": 0.4577,
      "step": 3237
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.010781797288385,
      "learning_rate": 1.9104071972599605e-06,
      "loss": 0.4882,
      "step": 3238
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.992555608835906,
      "learning_rate": 1.9075740713836854e-06,
      "loss": 0.4829,
      "step": 3239
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.260913628114222,
      "learning_rate": 1.9047425525396162e-06,
      "loss": 0.6506,
      "step": 3240
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.684776371795862,
      "learning_rate": 1.9019126421992019e-06,
      "loss": 0.5423,
      "step": 3241
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.8044434234847895,
      "learning_rate": 1.8990843418330552e-06,
      "loss": 0.4526,
      "step": 3242
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.83904100126424,
      "learning_rate": 1.8962576529109472e-06,
      "loss": 0.4376,
      "step": 3243
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.914210210624818,
      "learning_rate": 1.893432576901818e-06,
      "loss": 0.5867,
      "step": 3244
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.3236745348388834,
      "learning_rate": 1.8906091152737681e-06,
      "loss": 0.7156,
      "step": 3245
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.3112096335873304,
      "learning_rate": 1.887787269494054e-06,
      "loss": 0.5726,
      "step": 3246
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.8139562197454966,
      "learning_rate": 1.8849670410291004e-06,
      "loss": 0.6691,
      "step": 3247
    },
    {
      "epoch": 0.72,
      "grad_norm": 5.681988686961984,
      "learning_rate": 1.8821484313444838e-06,
      "loss": 0.4747,
      "step": 3248
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.424666883398333,
      "learning_rate": 1.8793314419049446e-06,
      "loss": 0.5781,
      "step": 3249
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.185329877025356,
      "learning_rate": 1.8765160741743793e-06,
      "loss": 0.4753,
      "step": 3250
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.559465005315502,
      "learning_rate": 1.8737023296158447e-06,
      "loss": 0.7229,
      "step": 3251
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.6751290603407836,
      "learning_rate": 1.870890209691547e-06,
      "loss": 0.3275,
      "step": 3252
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.4882141236926447,
      "learning_rate": 1.8680797158628555e-06,
      "loss": 0.6119,
      "step": 3253
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.8737099926806873,
      "learning_rate": 1.8652708495902928e-06,
      "loss": 0.6391,
      "step": 3254
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.9708515444017913,
      "learning_rate": 1.86246361233353e-06,
      "loss": 0.5289,
      "step": 3255
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.6324404289535,
      "learning_rate": 1.8596580055514013e-06,
      "loss": 0.6621,
      "step": 3256
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.758254830146932,
      "learning_rate": 1.8568540307018833e-06,
      "loss": 0.4996,
      "step": 3257
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.248881090385788,
      "learning_rate": 1.8540516892421129e-06,
      "loss": 0.5038,
      "step": 3258
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.602636730957238,
      "learning_rate": 1.8512509826283752e-06,
      "loss": 0.5763,
      "step": 3259
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.780063792516641,
      "learning_rate": 1.8484519123161032e-06,
      "loss": 0.2978,
      "step": 3260
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.762863606789369,
      "learning_rate": 1.8456544797598846e-06,
      "loss": 0.3982,
      "step": 3261
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.4376944139442136,
      "learning_rate": 1.8428586864134485e-06,
      "loss": 0.5233,
      "step": 3262
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.651886957380748,
      "learning_rate": 1.8400645337296835e-06,
      "loss": 0.4507,
      "step": 3263
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.5439456222372563,
      "learning_rate": 1.837272023160614e-06,
      "loss": 0.477,
      "step": 3264
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.527120084167711,
      "learning_rate": 1.8344811561574188e-06,
      "loss": 0.5789,
      "step": 3265
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.513350797486137,
      "learning_rate": 1.8316919341704177e-06,
      "loss": 0.3332,
      "step": 3266
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.809513660590813,
      "learning_rate": 1.8289043586490785e-06,
      "loss": 0.5172,
      "step": 3267
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.6983719195064375,
      "learning_rate": 1.8261184310420143e-06,
      "loss": 0.7057,
      "step": 3268
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.978543965985543,
      "learning_rate": 1.8233341527969777e-06,
      "loss": 0.6935,
      "step": 3269
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.604662161218937,
      "learning_rate": 1.820551525360869e-06,
      "loss": 0.6851,
      "step": 3270
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.248406953531714,
      "learning_rate": 1.8177705501797244e-06,
      "loss": 0.6357,
      "step": 3271
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.207208987776961,
      "learning_rate": 1.814991228698731e-06,
      "loss": 0.6464,
      "step": 3272
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.6361427016929846,
      "learning_rate": 1.8122135623622062e-06,
      "loss": 0.4621,
      "step": 3273
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.7512401494357928,
      "learning_rate": 1.809437552613616e-06,
      "loss": 0.5394,
      "step": 3274
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.262272852861456,
      "learning_rate": 1.8066632008955587e-06,
      "loss": 0.2557,
      "step": 3275
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.7333142553526195,
      "learning_rate": 1.803890508649771e-06,
      "loss": 0.5326,
      "step": 3276
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.7591740388513655,
      "learning_rate": 1.801119477317137e-06,
      "loss": 0.4517,
      "step": 3277
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.961093214681389,
      "learning_rate": 1.7983501083376653e-06,
      "loss": 0.4956,
      "step": 3278
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.9624316576366057,
      "learning_rate": 1.7955824031505097e-06,
      "loss": 0.3241,
      "step": 3279
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.488877265520705,
      "learning_rate": 1.792816363193952e-06,
      "loss": 0.4462,
      "step": 3280
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.4763507622419714,
      "learning_rate": 1.790051989905414e-06,
      "loss": 0.4542,
      "step": 3281
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.214181328936099,
      "learning_rate": 1.7872892847214517e-06,
      "loss": 0.5053,
      "step": 3282
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.126828087680157,
      "learning_rate": 1.7845282490777482e-06,
      "loss": 0.585,
      "step": 3283
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.061385143653456,
      "learning_rate": 1.781768884409128e-06,
      "loss": 0.3456,
      "step": 3284
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.378524137421679,
      "learning_rate": 1.7790111921495352e-06,
      "loss": 0.3567,
      "step": 3285
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.26698033437848,
      "learning_rate": 1.7762551737320598e-06,
      "loss": 0.5374,
      "step": 3286
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.898334990350139,
      "learning_rate": 1.7735008305889095e-06,
      "loss": 0.4271,
      "step": 3287
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.099604686340259,
      "learning_rate": 1.7707481641514284e-06,
      "loss": 0.5561,
      "step": 3288
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.983526100254995,
      "learning_rate": 1.7679971758500836e-06,
      "loss": 0.5641,
      "step": 3289
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.2721119926246995,
      "learning_rate": 1.7652478671144758e-06,
      "loss": 0.6872,
      "step": 3290
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.760635602813697,
      "learning_rate": 1.762500239373331e-06,
      "loss": 0.6659,
      "step": 3291
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.753977289261944,
      "learning_rate": 1.7597542940544988e-06,
      "loss": 0.7608,
      "step": 3292
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.7223447307863364,
      "learning_rate": 1.75701003258496e-06,
      "loss": 0.5763,
      "step": 3293
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.205806663651921,
      "learning_rate": 1.754267456390813e-06,
      "loss": 0.4373,
      "step": 3294
    },
    {
      "epoch": 0.73,
      "grad_norm": 4.381599647610319,
      "learning_rate": 1.7515265668972869e-06,
      "loss": 0.6646,
      "step": 3295
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.225178193317077,
      "learning_rate": 1.7487873655287342e-06,
      "loss": 0.4124,
      "step": 3296
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.6618816314094067,
      "learning_rate": 1.7460498537086235e-06,
      "loss": 0.3656,
      "step": 3297
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.61241650137122,
      "learning_rate": 1.7433140328595516e-06,
      "loss": 0.5599,
      "step": 3298
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.550328376958086,
      "learning_rate": 1.7405799044032356e-06,
      "loss": 0.3086,
      "step": 3299
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.4800864341410986,
      "learning_rate": 1.737847469760513e-06,
      "loss": 0.4752,
      "step": 3300
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.5261041540946425,
      "learning_rate": 1.7351167303513377e-06,
      "loss": 0.3302,
      "step": 3301
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.9179754092740797,
      "learning_rate": 1.732387687594788e-06,
      "loss": 0.4817,
      "step": 3302
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.9621294841231647,
      "learning_rate": 1.7296603429090553e-06,
      "loss": 0.4875,
      "step": 3303
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.3584295040215,
      "learning_rate": 1.726934697711452e-06,
      "loss": 0.5485,
      "step": 3304
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.031762940715472,
      "learning_rate": 1.7242107534184087e-06,
      "loss": 0.8494,
      "step": 3305
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.8276252031647604,
      "learning_rate": 1.721488511445466e-06,
      "loss": 0.5948,
      "step": 3306
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.30472814759974,
      "learning_rate": 1.7187679732072848e-06,
      "loss": 0.6217,
      "step": 3307
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.1854013542394406,
      "learning_rate": 1.7160491401176426e-06,
      "loss": 0.4941,
      "step": 3308
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.824400387015855,
      "learning_rate": 1.7133320135894233e-06,
      "loss": 0.5556,
      "step": 3309
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.6318516816280764,
      "learning_rate": 1.7106165950346321e-06,
      "loss": 0.5197,
      "step": 3310
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.2423689178520085,
      "learning_rate": 1.7079028858643787e-06,
      "loss": 0.3595,
      "step": 3311
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.324101207578373,
      "learning_rate": 1.7051908874888918e-06,
      "loss": 0.5695,
      "step": 3312
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.7694730940155385,
      "learning_rate": 1.7024806013175061e-06,
      "loss": 0.6209,
      "step": 3313
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.016483647878739,
      "learning_rate": 1.6997720287586717e-06,
      "loss": 0.5294,
      "step": 3314
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.5483923982873606,
      "learning_rate": 1.6970651712199404e-06,
      "loss": 0.5515,
      "step": 3315
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.6486634483307645,
      "learning_rate": 1.6943600301079794e-06,
      "loss": 0.3947,
      "step": 3316
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.895847128301909,
      "learning_rate": 1.6916566068285627e-06,
      "loss": 0.5391,
      "step": 3317
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.622192080996121,
      "learning_rate": 1.688954902786568e-06,
      "loss": 0.4765,
      "step": 3318
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.106351222686228,
      "learning_rate": 1.686254919385985e-06,
      "loss": 0.3696,
      "step": 3319
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.43360919461219,
      "learning_rate": 1.6835566580299034e-06,
      "loss": 0.5202,
      "step": 3320
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.387755667081843,
      "learning_rate": 1.6808601201205227e-06,
      "loss": 0.465,
      "step": 3321
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.108583042222433,
      "learning_rate": 1.6781653070591446e-06,
      "loss": 0.4983,
      "step": 3322
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.418374334413724,
      "learning_rate": 1.6754722202461775e-06,
      "loss": 0.471,
      "step": 3323
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.152888123260268,
      "learning_rate": 1.672780861081128e-06,
      "loss": 0.457,
      "step": 3324
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.7153510888341312,
      "learning_rate": 1.6700912309626032e-06,
      "loss": 0.5331,
      "step": 3325
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.9898909318578357,
      "learning_rate": 1.667403331288323e-06,
      "loss": 0.37,
      "step": 3326
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.5458601652803083,
      "learning_rate": 1.6647171634550958e-06,
      "loss": 0.5692,
      "step": 3327
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.0914582019083148,
      "learning_rate": 1.6620327288588373e-06,
      "loss": 0.4809,
      "step": 3328
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.4382766895396046,
      "learning_rate": 1.6593500288945574e-06,
      "loss": 0.3693,
      "step": 3329
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.502165379865056,
      "learning_rate": 1.6566690649563683e-06,
      "loss": 0.3173,
      "step": 3330
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.911550121733211,
      "learning_rate": 1.6539898384374808e-06,
      "loss": 0.6426,
      "step": 3331
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.497729186133156,
      "learning_rate": 1.6513123507301982e-06,
      "loss": 0.5334,
      "step": 3332
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.743326558287433,
      "learning_rate": 1.6486366032259254e-06,
      "loss": 0.7714,
      "step": 3333
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.074919282977719,
      "learning_rate": 1.6459625973151555e-06,
      "loss": 0.5284,
      "step": 3334
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.5946563602108785,
      "learning_rate": 1.6432903343874889e-06,
      "loss": 0.5567,
      "step": 3335
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.758299697643193,
      "learning_rate": 1.6406198158316072e-06,
      "loss": 0.292,
      "step": 3336
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.467644129126317,
      "learning_rate": 1.6379510430352952e-06,
      "loss": 0.5722,
      "step": 3337
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.4171124387832204,
      "learning_rate": 1.6352840173854245e-06,
      "loss": 0.3919,
      "step": 3338
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.241610675197702,
      "learning_rate": 1.6326187402679577e-06,
      "loss": 0.5057,
      "step": 3339
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.177922222002239,
      "learning_rate": 1.629955213067958e-06,
      "loss": 0.3927,
      "step": 3340
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.15438500910062,
      "learning_rate": 1.627293437169568e-06,
      "loss": 0.6403,
      "step": 3341
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.825802798164217,
      "learning_rate": 1.6246334139560288e-06,
      "loss": 0.6438,
      "step": 3342
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.3640594399621953,
      "learning_rate": 1.6219751448096637e-06,
      "loss": 0.7127,
      "step": 3343
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.8942813727637904,
      "learning_rate": 1.6193186311118897e-06,
      "loss": 0.4389,
      "step": 3344
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.876739120689419,
      "learning_rate": 1.6166638742432117e-06,
      "loss": 0.3724,
      "step": 3345
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.2550718441704705,
      "learning_rate": 1.614010875583215e-06,
      "loss": 0.5426,
      "step": 3346
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.202636172659585,
      "learning_rate": 1.611359636510581e-06,
      "loss": 0.7921,
      "step": 3347
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.5735816787104318,
      "learning_rate": 1.6087101584030657e-06,
      "loss": 0.4505,
      "step": 3348
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.760092590152863,
      "learning_rate": 1.6060624426375222e-06,
      "loss": 0.5943,
      "step": 3349
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.601878291105649,
      "learning_rate": 1.603416490589877e-06,
      "loss": 0.4873,
      "step": 3350
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.67033309696007,
      "learning_rate": 1.600772303635148e-06,
      "loss": 0.7352,
      "step": 3351
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.8773684297018125,
      "learning_rate": 1.5981298831474279e-06,
      "loss": 0.4155,
      "step": 3352
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.8875130825821724,
      "learning_rate": 1.5954892304998986e-06,
      "loss": 0.575,
      "step": 3353
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.222151943656527,
      "learning_rate": 1.5928503470648222e-06,
      "loss": 0.5671,
      "step": 3354
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.7475833864730186,
      "learning_rate": 1.5902132342135361e-06,
      "loss": 0.3816,
      "step": 3355
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.8758566480018084,
      "learning_rate": 1.5875778933164642e-06,
      "loss": 0.5801,
      "step": 3356
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.220544167728564,
      "learning_rate": 1.5849443257431041e-06,
      "loss": 0.6652,
      "step": 3357
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.996360258005134,
      "learning_rate": 1.5823125328620354e-06,
      "loss": 0.6858,
      "step": 3358
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.5834108409881518,
      "learning_rate": 1.5796825160409168e-06,
      "loss": 0.3723,
      "step": 3359
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.327681563781206,
      "learning_rate": 1.5770542766464774e-06,
      "loss": 0.4932,
      "step": 3360
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.0495861645450195,
      "learning_rate": 1.5744278160445298e-06,
      "loss": 0.3538,
      "step": 3361
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.726867463038855,
      "learning_rate": 1.571803135599958e-06,
      "loss": 0.5233,
      "step": 3362
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.30115648512898,
      "learning_rate": 1.5691802366767245e-06,
      "loss": 0.5257,
      "step": 3363
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.938220279075469,
      "learning_rate": 1.5665591206378606e-06,
      "loss": 0.5316,
      "step": 3364
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.558204767549308,
      "learning_rate": 1.5639397888454777e-06,
      "loss": 0.5219,
      "step": 3365
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.209371430249595,
      "learning_rate": 1.5613222426607528e-06,
      "loss": 0.6056,
      "step": 3366
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.894109562029857,
      "learning_rate": 1.5587064834439403e-06,
      "loss": 0.554,
      "step": 3367
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.2415563535280585,
      "learning_rate": 1.5560925125543659e-06,
      "loss": 0.6441,
      "step": 3368
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.272836781845677,
      "learning_rate": 1.5534803313504215e-06,
      "loss": 0.5746,
      "step": 3369
    },
    {
      "epoch": 0.75,
      "grad_norm": 16.438468286456928,
      "learning_rate": 1.550869941189574e-06,
      "loss": 0.4015,
      "step": 3370
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.246304649314529,
      "learning_rate": 1.5482613434283568e-06,
      "loss": 0.4789,
      "step": 3371
    },
    {
      "epoch": 0.75,
      "grad_norm": 6.473133610746779,
      "learning_rate": 1.5456545394223739e-06,
      "loss": 0.4593,
      "step": 3372
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.0567206596096663,
      "learning_rate": 1.5430495305262944e-06,
      "loss": 0.3305,
      "step": 3373
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.529371817573426,
      "learning_rate": 1.5404463180938544e-06,
      "loss": 0.5482,
      "step": 3374
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.311424827135873,
      "learning_rate": 1.5378449034778592e-06,
      "loss": 0.4716,
      "step": 3375
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.215086803482717,
      "learning_rate": 1.5352452880301795e-06,
      "loss": 0.41,
      "step": 3376
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.4310553428879316,
      "learning_rate": 1.5326474731017504e-06,
      "loss": 0.4904,
      "step": 3377
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.025347247908433,
      "learning_rate": 1.5300514600425686e-06,
      "loss": 0.3921,
      "step": 3378
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.152820622687187,
      "learning_rate": 1.5274572502016982e-06,
      "loss": 0.4202,
      "step": 3379
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.2544369890711025,
      "learning_rate": 1.5248648449272662e-06,
      "loss": 0.4584,
      "step": 3380
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.8414394794509423,
      "learning_rate": 1.522274245566458e-06,
      "loss": 0.4211,
      "step": 3381
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.1961749090914715,
      "learning_rate": 1.5196854534655258e-06,
      "loss": 0.5084,
      "step": 3382
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.8769094374669484,
      "learning_rate": 1.517098469969776e-06,
      "loss": 0.5833,
      "step": 3383
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.388376566317102,
      "learning_rate": 1.514513296423582e-06,
      "loss": 0.4988,
      "step": 3384
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.516246730567225,
      "learning_rate": 1.5119299341703725e-06,
      "loss": 0.6409,
      "step": 3385
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.823301207577575,
      "learning_rate": 1.509348384552638e-06,
      "loss": 0.4566,
      "step": 3386
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.23241119451207,
      "learning_rate": 1.5067686489119238e-06,
      "loss": 0.498,
      "step": 3387
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.7701455151430183,
      "learning_rate": 1.5041907285888297e-06,
      "loss": 0.3298,
      "step": 3388
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.434566128408751,
      "learning_rate": 1.5016146249230229e-06,
      "loss": 0.4978,
      "step": 3389
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.7491649342839235,
      "learning_rate": 1.499040339253216e-06,
      "loss": 0.4036,
      "step": 3390
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.2013769638048584,
      "learning_rate": 1.4964678729171829e-06,
      "loss": 0.562,
      "step": 3391
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.67420208136536,
      "learning_rate": 1.493897227251747e-06,
      "loss": 0.5387,
      "step": 3392
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.2914221607729908,
      "learning_rate": 1.4913284035927905e-06,
      "loss": 0.4995,
      "step": 3393
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.362816877267654,
      "learning_rate": 1.488761403275248e-06,
      "loss": 0.5678,
      "step": 3394
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.391557731599407,
      "learning_rate": 1.4861962276331015e-06,
      "loss": 0.501,
      "step": 3395
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.3997513203268603,
      "learning_rate": 1.483632877999392e-06,
      "loss": 0.5403,
      "step": 3396
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.6089507426489136,
      "learning_rate": 1.481071355706204e-06,
      "loss": 0.4177,
      "step": 3397
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.1549831694936845,
      "learning_rate": 1.4785116620846824e-06,
      "loss": 0.4193,
      "step": 3398
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.510794958187142,
      "learning_rate": 1.4759537984650114e-06,
      "loss": 0.4313,
      "step": 3399
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.6298201190821326,
      "learning_rate": 1.473397766176431e-06,
      "loss": 0.5493,
      "step": 3400
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.877290519885153,
      "learning_rate": 1.4708435665472254e-06,
      "loss": 0.4704,
      "step": 3401
    },
    {
      "epoch": 0.76,
      "grad_norm": 6.190548405999723,
      "learning_rate": 1.468291200904729e-06,
      "loss": 0.5909,
      "step": 3402
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.985925584436698,
      "learning_rate": 1.4657406705753242e-06,
      "loss": 0.1414,
      "step": 3403
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.9409921544166275,
      "learning_rate": 1.4631919768844345e-06,
      "loss": 0.4956,
      "step": 3404
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.295059895229598,
      "learning_rate": 1.4606451211565358e-06,
      "loss": 0.4992,
      "step": 3405
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.35503538178325,
      "learning_rate": 1.4581001047151427e-06,
      "loss": 0.6966,
      "step": 3406
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.5072218089641543,
      "learning_rate": 1.455556928882817e-06,
      "loss": 0.3434,
      "step": 3407
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.333753380546729,
      "learning_rate": 1.4530155949811665e-06,
      "loss": 0.5512,
      "step": 3408
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.049162350836539,
      "learning_rate": 1.4504761043308346e-06,
      "loss": 0.2963,
      "step": 3409
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.9168562480059324,
      "learning_rate": 1.4479384582515155e-06,
      "loss": 0.4927,
      "step": 3410
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.8807089941438178,
      "learning_rate": 1.4454026580619351e-06,
      "loss": 0.5984,
      "step": 3411
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.7593083403597363,
      "learning_rate": 1.4428687050798723e-06,
      "loss": 0.5419,
      "step": 3412
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.955489201713138,
      "learning_rate": 1.4403366006221336e-06,
      "loss": 0.5071,
      "step": 3413
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.956356564810339,
      "learning_rate": 1.437806346004575e-06,
      "loss": 0.6434,
      "step": 3414
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.9652546941309446,
      "learning_rate": 1.4352779425420827e-06,
      "loss": 0.4006,
      "step": 3415
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.391367097767699,
      "learning_rate": 1.4327513915485864e-06,
      "loss": 0.5374,
      "step": 3416
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.24085367810608,
      "learning_rate": 1.430226694337054e-06,
      "loss": 0.3782,
      "step": 3417
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.768847791274007,
      "learning_rate": 1.4277038522194841e-06,
      "loss": 0.7038,
      "step": 3418
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.7365374246174596,
      "learning_rate": 1.425182866506918e-06,
      "loss": 0.5226,
      "step": 3419
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.016379749759777,
      "learning_rate": 1.422663738509425e-06,
      "loss": 0.5665,
      "step": 3420
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.389832362279337,
      "learning_rate": 1.4201464695361184e-06,
      "loss": 0.3938,
      "step": 3421
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.3878159412188245,
      "learning_rate": 1.4176310608951383e-06,
      "loss": 0.6453,
      "step": 3422
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.532626365584496,
      "learning_rate": 1.415117513893658e-06,
      "loss": 0.5923,
      "step": 3423
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.2118565396969494,
      "learning_rate": 1.4126058298378864e-06,
      "loss": 0.5991,
      "step": 3424
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.713808991927719,
      "learning_rate": 1.4100960100330635e-06,
      "loss": 0.4585,
      "step": 3425
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.4411571137087953,
      "learning_rate": 1.4075880557834621e-06,
      "loss": 0.393,
      "step": 3426
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.189926786587595,
      "learning_rate": 1.4050819683923805e-06,
      "loss": 0.5247,
      "step": 3427
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.918579838591738,
      "learning_rate": 1.4025777491621528e-06,
      "loss": 0.5585,
      "step": 3428
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.320227190483174,
      "learning_rate": 1.4000753993941369e-06,
      "loss": 0.6401,
      "step": 3429
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.198268440959887,
      "learning_rate": 1.397574920388723e-06,
      "loss": 0.6219,
      "step": 3430
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.005949407012509,
      "learning_rate": 1.3950763134453294e-06,
      "loss": 0.4722,
      "step": 3431
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.2348528744029657,
      "learning_rate": 1.392579579862397e-06,
      "loss": 0.4097,
      "step": 3432
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.141182548001028,
      "learning_rate": 1.390084720937398e-06,
      "loss": 0.4543,
      "step": 3433
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.41598622943784,
      "learning_rate": 1.3875917379668287e-06,
      "loss": 0.4136,
      "step": 3434
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.2513617376054014,
      "learning_rate": 1.3851006322462114e-06,
      "loss": 0.2318,
      "step": 3435
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.6530065936796183,
      "learning_rate": 1.3826114050700912e-06,
      "loss": 0.4323,
      "step": 3436
    },
    {
      "epoch": 0.76,
      "grad_norm": 4.856528297729755,
      "learning_rate": 1.3801240577320358e-06,
      "loss": 0.5574,
      "step": 3437
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.862567248309575,
      "learning_rate": 1.3776385915246398e-06,
      "loss": 0.618,
      "step": 3438
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.051446293016397,
      "learning_rate": 1.3751550077395181e-06,
      "loss": 0.6508,
      "step": 3439
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.659347397812878,
      "learning_rate": 1.3726733076673087e-06,
      "loss": 0.4789,
      "step": 3440
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.9996748593324876,
      "learning_rate": 1.3701934925976679e-06,
      "loss": 0.5026,
      "step": 3441
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.796064677175922,
      "learning_rate": 1.367715563819274e-06,
      "loss": 0.1475,
      "step": 3442
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.534835710978217,
      "learning_rate": 1.3652395226198283e-06,
      "loss": 0.4639,
      "step": 3443
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.937260326688674,
      "learning_rate": 1.362765370286044e-06,
      "loss": 0.5845,
      "step": 3444
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.4645080370944905,
      "learning_rate": 1.3602931081036602e-06,
      "loss": 0.5558,
      "step": 3445
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.58290073242684,
      "learning_rate": 1.3578227373574277e-06,
      "loss": 0.4778,
      "step": 3446
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.4898426156504683,
      "learning_rate": 1.3553542593311174e-06,
      "loss": 0.4476,
      "step": 3447
    },
    {
      "epoch": 0.77,
      "grad_norm": 6.007664415397085,
      "learning_rate": 1.3528876753075181e-06,
      "loss": 0.6315,
      "step": 3448
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.1438741166890964,
      "learning_rate": 1.3504229865684326e-06,
      "loss": 0.5752,
      "step": 3449
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.7967654717452963,
      "learning_rate": 1.3479601943946763e-06,
      "loss": 0.6889,
      "step": 3450
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.3123064378342475,
      "learning_rate": 1.345499300066082e-06,
      "loss": 0.5787,
      "step": 3451
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.154904411946971,
      "learning_rate": 1.3430403048614988e-06,
      "loss": 0.526,
      "step": 3452
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.095181710564982,
      "learning_rate": 1.3405832100587818e-06,
      "loss": 0.5833,
      "step": 3453
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.2758353009644834,
      "learning_rate": 1.338128016934805e-06,
      "loss": 0.5264,
      "step": 3454
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.835986405278684,
      "learning_rate": 1.3356747267654497e-06,
      "loss": 0.7958,
      "step": 3455
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.4691260563023714,
      "learning_rate": 1.3332233408256106e-06,
      "loss": 0.4994,
      "step": 3456
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.6672063098359975,
      "learning_rate": 1.3307738603891956e-06,
      "loss": 0.5325,
      "step": 3457
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.926181949683789,
      "learning_rate": 1.3283262867291146e-06,
      "loss": 0.7217,
      "step": 3458
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.267173684828546,
      "learning_rate": 1.3258806211172954e-06,
      "loss": 0.51,
      "step": 3459
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.230257412021064,
      "learning_rate": 1.3234368648246643e-06,
      "loss": 0.4677,
      "step": 3460
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.899476154673461,
      "learning_rate": 1.3209950191211685e-06,
      "loss": 0.5008,
      "step": 3461
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.9563631371968997,
      "learning_rate": 1.31855508527575e-06,
      "loss": 0.4321,
      "step": 3462
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.8203820982361667,
      "learning_rate": 1.3161170645563658e-06,
      "loss": 0.508,
      "step": 3463
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.1133687523263514,
      "learning_rate": 1.3136809582299715e-06,
      "loss": 0.4293,
      "step": 3464
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.6611000486459457,
      "learning_rate": 1.3112467675625334e-06,
      "loss": 0.5784,
      "step": 3465
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.3140338661373123,
      "learning_rate": 1.3088144938190218e-06,
      "loss": 0.4109,
      "step": 3466
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.4790752737304382,
      "learning_rate": 1.3063841382634062e-06,
      "loss": 0.4607,
      "step": 3467
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.7819441657196595,
      "learning_rate": 1.3039557021586664e-06,
      "loss": 0.4814,
      "step": 3468
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.0829876405655945,
      "learning_rate": 1.3015291867667757e-06,
      "loss": 0.7026,
      "step": 3469
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.053757948307364,
      "learning_rate": 1.2991045933487212e-06,
      "loss": 0.5192,
      "step": 3470
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.26225543153798,
      "learning_rate": 1.2966819231644806e-06,
      "loss": 0.4985,
      "step": 3471
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.440554771713713,
      "learning_rate": 1.2942611774730352e-06,
      "loss": 0.5352,
      "step": 3472
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.895471621582739,
      "learning_rate": 1.2918423575323692e-06,
      "loss": 0.6404,
      "step": 3473
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.8748228608643767,
      "learning_rate": 1.2894254645994608e-06,
      "loss": 0.4856,
      "step": 3474
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.030121913560297,
      "learning_rate": 1.2870104999302946e-06,
      "loss": 0.5697,
      "step": 3475
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.4941845934329536,
      "learning_rate": 1.2845974647798442e-06,
      "loss": 0.6071,
      "step": 3476
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.8573070760386257,
      "learning_rate": 1.2821863604020885e-06,
      "loss": 0.3571,
      "step": 3477
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.1714424713548777,
      "learning_rate": 1.2797771880499953e-06,
      "loss": 0.3408,
      "step": 3478
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.079612373823104,
      "learning_rate": 1.2773699489755343e-06,
      "loss": 0.6049,
      "step": 3479
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.061954960710543,
      "learning_rate": 1.2749646444296703e-06,
      "loss": 0.4634,
      "step": 3480
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.563664540973144,
      "learning_rate": 1.2725612756623579e-06,
      "loss": 0.4732,
      "step": 3481
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.83813310675021,
      "learning_rate": 1.2701598439225515e-06,
      "loss": 0.3446,
      "step": 3482
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.612028542278495,
      "learning_rate": 1.2677603504581926e-06,
      "loss": 0.4515,
      "step": 3483
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.940852681022355,
      "learning_rate": 1.2653627965162246e-06,
      "loss": 0.3902,
      "step": 3484
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.193975324423234,
      "learning_rate": 1.262967183342575e-06,
      "loss": 0.622,
      "step": 3485
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.322134004563211,
      "learning_rate": 1.2605735121821632e-06,
      "loss": 0.5599,
      "step": 3486
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.8586201475253468,
      "learning_rate": 1.2581817842789035e-06,
      "loss": 0.5642,
      "step": 3487
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.7707762348066884,
      "learning_rate": 1.255792000875698e-06,
      "loss": 0.4556,
      "step": 3488
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.723956559615345,
      "learning_rate": 1.2534041632144407e-06,
      "loss": 0.4196,
      "step": 3489
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.1887874759100896,
      "learning_rate": 1.2510182725360088e-06,
      "loss": 0.5597,
      "step": 3490
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.9198901475221684,
      "learning_rate": 1.2486343300802744e-06,
      "loss": 0.4428,
      "step": 3491
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.09474443248736,
      "learning_rate": 1.2462523370860912e-06,
      "loss": 0.355,
      "step": 3492
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.653521857159467,
      "learning_rate": 1.2438722947913045e-06,
      "loss": 0.4979,
      "step": 3493
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.938251916971357,
      "learning_rate": 1.2414942044327456e-06,
      "loss": 0.4751,
      "step": 3494
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.526847071822683,
      "learning_rate": 1.239118067246227e-06,
      "loss": 0.5471,
      "step": 3495
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.640107668551006,
      "learning_rate": 1.2367438844665503e-06,
      "loss": 0.5201,
      "step": 3496
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.874351065836771,
      "learning_rate": 1.2343716573275006e-06,
      "loss": 0.6394,
      "step": 3497
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.9653414404359504,
      "learning_rate": 1.232001387061848e-06,
      "loss": 0.5848,
      "step": 3498
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.497702558694938,
      "learning_rate": 1.2296330749013408e-06,
      "loss": 0.4607,
      "step": 3499
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.074685550162878,
      "learning_rate": 1.2272667220767159e-06,
      "loss": 0.498,
      "step": 3500
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.264394841803973,
      "learning_rate": 1.224902329817687e-06,
      "loss": 0.4803,
      "step": 3501
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.447178701693987,
      "learning_rate": 1.2225398993529524e-06,
      "loss": 0.7082,
      "step": 3502
    },
    {
      "epoch": 0.78,
      "grad_norm": 5.20261341076557,
      "learning_rate": 1.2201794319101907e-06,
      "loss": 0.5715,
      "step": 3503
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.405382978192752,
      "learning_rate": 1.217820928716056e-06,
      "loss": 0.4316,
      "step": 3504
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.533828570271819,
      "learning_rate": 1.2154643909961872e-06,
      "loss": 0.5377,
      "step": 3505
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.1472156384518044,
      "learning_rate": 1.2131098199752011e-06,
      "loss": 0.6836,
      "step": 3506
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.380037437298351,
      "learning_rate": 1.2107572168766873e-06,
      "loss": 0.5593,
      "step": 3507
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.5459390178373624,
      "learning_rate": 1.20840658292322e-06,
      "loss": 0.5712,
      "step": 3508
    },
    {
      "epoch": 0.78,
      "grad_norm": 6.854238455633002,
      "learning_rate": 1.2060579193363431e-06,
      "loss": 0.4886,
      "step": 3509
    },
    {
      "epoch": 0.78,
      "grad_norm": 7.4008084032767245,
      "learning_rate": 1.203711227336582e-06,
      "loss": 0.5155,
      "step": 3510
    },
    {
      "epoch": 0.78,
      "grad_norm": 5.138094507656097,
      "learning_rate": 1.2013665081434345e-06,
      "loss": 0.7103,
      "step": 3511
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.7056909644423532,
      "learning_rate": 1.1990237629753765e-06,
      "loss": 0.3896,
      "step": 3512
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.9108630898349475,
      "learning_rate": 1.1966829930498519e-06,
      "loss": 0.4524,
      "step": 3513
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.546234578768866,
      "learning_rate": 1.194344199583285e-06,
      "loss": 0.5393,
      "step": 3514
    },
    {
      "epoch": 0.78,
      "grad_norm": 7.422688094507699,
      "learning_rate": 1.1920073837910695e-06,
      "loss": 0.5269,
      "step": 3515
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.3098099454414545,
      "learning_rate": 1.1896725468875702e-06,
      "loss": 0.4807,
      "step": 3516
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.58285206116857,
      "learning_rate": 1.1873396900861278e-06,
      "loss": 0.4764,
      "step": 3517
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.802951835818328,
      "learning_rate": 1.1850088145990478e-06,
      "loss": 0.5173,
      "step": 3518
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.208591162514427,
      "learning_rate": 1.1826799216376128e-06,
      "loss": 0.6153,
      "step": 3519
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.8420972211508735,
      "learning_rate": 1.1803530124120715e-06,
      "loss": 0.4447,
      "step": 3520
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.558735758382619,
      "learning_rate": 1.1780280881316402e-06,
      "loss": 0.6602,
      "step": 3521
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.461741087385518,
      "learning_rate": 1.175705150004509e-06,
      "loss": 0.6139,
      "step": 3522
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.0094653713998,
      "learning_rate": 1.1733841992378276e-06,
      "loss": 0.7151,
      "step": 3523
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.5451397753383853,
      "learning_rate": 1.1710652370377236e-06,
      "loss": 0.4101,
      "step": 3524
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.074094401234547,
      "learning_rate": 1.168748264609282e-06,
      "loss": 0.3122,
      "step": 3525
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.320244606520187,
      "learning_rate": 1.1664332831565589e-06,
      "loss": 0.482,
      "step": 3526
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.4680093274372075,
      "learning_rate": 1.164120293882572e-06,
      "loss": 0.4851,
      "step": 3527
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.5121716549376787,
      "learning_rate": 1.1618092979893076e-06,
      "loss": 0.376,
      "step": 3528
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.987296632676692,
      "learning_rate": 1.1595002966777152e-06,
      "loss": 0.424,
      "step": 3529
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.046713877604066,
      "learning_rate": 1.1571932911477052e-06,
      "loss": 0.3953,
      "step": 3530
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.9981663936274345,
      "learning_rate": 1.154888282598154e-06,
      "loss": 0.455,
      "step": 3531
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.3788693680578294,
      "learning_rate": 1.1525852722268948e-06,
      "loss": 0.7862,
      "step": 3532
    },
    {
      "epoch": 0.79,
      "grad_norm": 5.795560334653565,
      "learning_rate": 1.1502842612307335e-06,
      "loss": 0.6947,
      "step": 3533
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.123739120958261,
      "learning_rate": 1.1479852508054258e-06,
      "loss": 0.6028,
      "step": 3534
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.890495102844718,
      "learning_rate": 1.1456882421456912e-06,
      "loss": 0.489,
      "step": 3535
    },
    {
      "epoch": 0.79,
      "grad_norm": 5.779163218476187,
      "learning_rate": 1.1433932364452117e-06,
      "loss": 0.7345,
      "step": 3536
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.1309306332574427,
      "learning_rate": 1.1411002348966227e-06,
      "loss": 0.3701,
      "step": 3537
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.224300628816552,
      "learning_rate": 1.138809238691528e-06,
      "loss": 0.439,
      "step": 3538
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.352742637673633,
      "learning_rate": 1.136520249020478e-06,
      "loss": 0.5639,
      "step": 3539
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.923207851919508,
      "learning_rate": 1.1342332670729884e-06,
      "loss": 0.4567,
      "step": 3540
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.1412415471248485,
      "learning_rate": 1.1319482940375259e-06,
      "loss": 0.5874,
      "step": 3541
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.841044859022035,
      "learning_rate": 1.1296653311015176e-06,
      "loss": 0.4809,
      "step": 3542
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.7826706529462357,
      "learning_rate": 1.1273843794513461e-06,
      "loss": 0.4654,
      "step": 3543
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.7702905137961635,
      "learning_rate": 1.1251054402723432e-06,
      "loss": 0.4755,
      "step": 3544
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.037844132002774,
      "learning_rate": 1.122828514748802e-06,
      "loss": 0.3962,
      "step": 3545
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.4545814174952767,
      "learning_rate": 1.1205536040639626e-06,
      "loss": 0.3831,
      "step": 3546
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.0914234087745065,
      "learning_rate": 1.1182807094000259e-06,
      "loss": 0.4382,
      "step": 3547
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.6907449636458733,
      "learning_rate": 1.1160098319381368e-06,
      "loss": 0.4497,
      "step": 3548
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.3282961220699954,
      "learning_rate": 1.113740972858398e-06,
      "loss": 0.4101,
      "step": 3549
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.373240628937255,
      "learning_rate": 1.1114741333398594e-06,
      "loss": 0.3854,
      "step": 3550
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.676695205491266,
      "learning_rate": 1.1092093145605236e-06,
      "loss": 0.4898,
      "step": 3551
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.7387927511867436,
      "learning_rate": 1.1069465176973442e-06,
      "loss": 0.5865,
      "step": 3552
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.189998583099638,
      "learning_rate": 1.1046857439262198e-06,
      "loss": 0.6461,
      "step": 3553
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.0733891542531127,
      "learning_rate": 1.102426994422003e-06,
      "loss": 0.4535,
      "step": 3554
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.7051676095041546,
      "learning_rate": 1.1001702703584883e-06,
      "loss": 0.4858,
      "step": 3555
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.9679829462896565,
      "learning_rate": 1.0979155729084234e-06,
      "loss": 0.4129,
      "step": 3556
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.1641441149377565,
      "learning_rate": 1.0956629032435018e-06,
      "loss": 0.5342,
      "step": 3557
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.007732909114045,
      "learning_rate": 1.0934122625343586e-06,
      "loss": 0.4793,
      "step": 3558
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.5887023593117884,
      "learning_rate": 1.0911636519505791e-06,
      "loss": 0.6595,
      "step": 3559
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.722577282408635,
      "learning_rate": 1.0889170726606935e-06,
      "loss": 0.3684,
      "step": 3560
    },
    {
      "epoch": 0.79,
      "grad_norm": 5.155657802515899,
      "learning_rate": 1.0866725258321765e-06,
      "loss": 0.7648,
      "step": 3561
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.63748361806454,
      "learning_rate": 1.084430012631441e-06,
      "loss": 0.7475,
      "step": 3562
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.804827219332675,
      "learning_rate": 1.0821895342238519e-06,
      "loss": 0.4292,
      "step": 3563
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.5718749971575225,
      "learning_rate": 1.0799510917737093e-06,
      "loss": 0.5978,
      "step": 3564
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.799915103459391,
      "learning_rate": 1.0777146864442588e-06,
      "loss": 0.5575,
      "step": 3565
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.038518148434365,
      "learning_rate": 1.0754803193976894e-06,
      "loss": 0.5638,
      "step": 3566
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.258803608233732,
      "learning_rate": 1.0732479917951243e-06,
      "loss": 0.3711,
      "step": 3567
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.4056730088572746,
      "learning_rate": 1.0710177047966324e-06,
      "loss": 0.602,
      "step": 3568
    },
    {
      "epoch": 0.79,
      "grad_norm": 5.0350248014054,
      "learning_rate": 1.068789459561223e-06,
      "loss": 0.5683,
      "step": 3569
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.675480057254915,
      "learning_rate": 1.0665632572468382e-06,
      "loss": 0.6337,
      "step": 3570
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.689752589967186,
      "learning_rate": 1.0643390990103658e-06,
      "loss": 0.3814,
      "step": 3571
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.895075600338428,
      "learning_rate": 1.062116986007624e-06,
      "loss": 0.4919,
      "step": 3572
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.638727433803174,
      "learning_rate": 1.0598969193933745e-06,
      "loss": 0.6326,
      "step": 3573
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.118664343057554,
      "learning_rate": 1.0576789003213122e-06,
      "loss": 0.5847,
      "step": 3574
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.518224780041637,
      "learning_rate": 1.0554629299440699e-06,
      "loss": 0.5676,
      "step": 3575
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.6453225263040614,
      "learning_rate": 1.053249009413213e-06,
      "loss": 0.3385,
      "step": 3576
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.925975465101388,
      "learning_rate": 1.051037139879244e-06,
      "loss": 0.5736,
      "step": 3577
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.4519317128831744,
      "learning_rate": 1.0488273224916002e-06,
      "loss": 0.3463,
      "step": 3578
    },
    {
      "epoch": 0.8,
      "grad_norm": 5.173569860797949,
      "learning_rate": 1.0466195583986487e-06,
      "loss": 0.4508,
      "step": 3579
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.682783933984551,
      "learning_rate": 1.0444138487476946e-06,
      "loss": 0.5193,
      "step": 3580
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.465884343069905,
      "learning_rate": 1.0422101946849694e-06,
      "loss": 0.5045,
      "step": 3581
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.141065960870969,
      "learning_rate": 1.0400085973556424e-06,
      "loss": 0.4252,
      "step": 3582
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.570447414666271,
      "learning_rate": 1.0378090579038114e-06,
      "loss": 0.3154,
      "step": 3583
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.5957514936734003,
      "learning_rate": 1.0356115774725034e-06,
      "loss": 0.3644,
      "step": 3584
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.4494185062174165,
      "learning_rate": 1.0334161572036784e-06,
      "loss": 0.4742,
      "step": 3585
    },
    {
      "epoch": 0.8,
      "grad_norm": 7.509693326617769,
      "learning_rate": 1.0312227982382211e-06,
      "loss": 0.5028,
      "step": 3586
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.999594032411287,
      "learning_rate": 1.029031501715953e-06,
      "loss": 0.4368,
      "step": 3587
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.934165711156786,
      "learning_rate": 1.0268422687756152e-06,
      "loss": 0.3104,
      "step": 3588
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.564885495566654,
      "learning_rate": 1.024655100554882e-06,
      "loss": 0.5452,
      "step": 3589
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.743685909183785,
      "learning_rate": 1.0224699981903518e-06,
      "loss": 0.4054,
      "step": 3590
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.824267311498809,
      "learning_rate": 1.0202869628175504e-06,
      "loss": 0.6021,
      "step": 3591
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.1306950134489595,
      "learning_rate": 1.0181059955709316e-06,
      "loss": 0.5388,
      "step": 3592
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.053649982791458,
      "learning_rate": 1.0159270975838702e-06,
      "loss": 0.4028,
      "step": 3593
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.5125934568269086,
      "learning_rate": 1.0137502699886698e-06,
      "loss": 0.4947,
      "step": 3594
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.0056292900456607,
      "learning_rate": 1.0115755139165523e-06,
      "loss": 0.5362,
      "step": 3595
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.012435093881917,
      "learning_rate": 1.0094028304976726e-06,
      "loss": 0.6244,
      "step": 3596
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.3546903373029897,
      "learning_rate": 1.0072322208610997e-06,
      "loss": 0.5098,
      "step": 3597
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.7884242728290927,
      "learning_rate": 1.005063686134829e-06,
      "loss": 0.4597,
      "step": 3598
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.507538842852195,
      "learning_rate": 1.002897227445777e-06,
      "loss": 0.4649,
      "step": 3599
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.221550294386511,
      "learning_rate": 1.0007328459197779e-06,
      "loss": 0.4762,
      "step": 3600
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.774030730868366,
      "learning_rate": 9.98570542681595e-07,
      "loss": 0.5254,
      "step": 3601
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.9983860814428174,
      "learning_rate": 9.96410318854903e-07,
      "loss": 0.5701,
      "step": 3602
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.3094911510249254,
      "learning_rate": 9.942521755623007e-07,
      "loss": 0.5625,
      "step": 3603
    },
    {
      "epoch": 0.8,
      "grad_norm": 5.251107445967312,
      "learning_rate": 9.920961139253022e-07,
      "loss": 0.4656,
      "step": 3604
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.166114699107686,
      "learning_rate": 9.899421350643435e-07,
      "loss": 0.5371,
      "step": 3605
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.751370438535963,
      "learning_rate": 9.877902400987783e-07,
      "loss": 0.5529,
      "step": 3606
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.868031277529438,
      "learning_rate": 9.85640430146872e-07,
      "loss": 0.6114,
      "step": 3607
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.6782300338066993,
      "learning_rate": 9.834927063258138e-07,
      "loss": 0.6349,
      "step": 3608
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.1111372612810078,
      "learning_rate": 9.813470697517009e-07,
      "loss": 0.5153,
      "step": 3609
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.826905407839874,
      "learning_rate": 9.792035215395556e-07,
      "loss": 0.5402,
      "step": 3610
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.750756537435212,
      "learning_rate": 9.770620628033057e-07,
      "loss": 0.5405,
      "step": 3611
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.9522470133580736,
      "learning_rate": 9.749226946557993e-07,
      "loss": 0.569,
      "step": 3612
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.195454625660243,
      "learning_rate": 9.72785418208793e-07,
      "loss": 0.6111,
      "step": 3613
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.7760691489044476,
      "learning_rate": 9.706502345729612e-07,
      "loss": 0.4234,
      "step": 3614
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.399993729996046,
      "learning_rate": 9.6851714485789e-07,
      "loss": 0.5,
      "step": 3615
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.896951812148864,
      "learning_rate": 9.663861501720723e-07,
      "loss": 0.4465,
      "step": 3616
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.9115208892734437,
      "learning_rate": 9.642572516229197e-07,
      "loss": 0.556,
      "step": 3617
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.9290916750710294,
      "learning_rate": 9.621304503167484e-07,
      "loss": 0.5786,
      "step": 3618
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.7205445975909233,
      "learning_rate": 9.600057473587876e-07,
      "loss": 0.4541,
      "step": 3619
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.8613730708349703,
      "learning_rate": 9.578831438531777e-07,
      "loss": 0.7349,
      "step": 3620
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.257052463913748,
      "learning_rate": 9.55762640902963e-07,
      "loss": 0.7112,
      "step": 3621
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.797916728517376,
      "learning_rate": 9.536442396101009e-07,
      "loss": 0.5102,
      "step": 3622
    },
    {
      "epoch": 0.81,
      "grad_norm": 5.291978248702201,
      "learning_rate": 9.515279410754552e-07,
      "loss": 0.6532,
      "step": 3623
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.155748780829684,
      "learning_rate": 9.494137463987974e-07,
      "loss": 0.4154,
      "step": 3624
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.814859956667347,
      "learning_rate": 9.473016566788029e-07,
      "loss": 0.4709,
      "step": 3625
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.9621810450398303,
      "learning_rate": 9.451916730130578e-07,
      "loss": 0.4103,
      "step": 3626
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.710861034155784,
      "learning_rate": 9.430837964980483e-07,
      "loss": 0.4926,
      "step": 3627
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.3127712370372566,
      "learning_rate": 9.409780282291708e-07,
      "loss": 0.3496,
      "step": 3628
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.6365833780292327,
      "learning_rate": 9.388743693007247e-07,
      "loss": 0.5084,
      "step": 3629
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.088768854438895,
      "learning_rate": 9.367728208059102e-07,
      "loss": 0.5952,
      "step": 3630
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.092105482204685,
      "learning_rate": 9.346733838368339e-07,
      "loss": 0.7243,
      "step": 3631
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.799324011289781,
      "learning_rate": 9.325760594845051e-07,
      "loss": 0.5403,
      "step": 3632
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.795523285224899,
      "learning_rate": 9.304808488388334e-07,
      "loss": 0.5099,
      "step": 3633
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.137442802996991,
      "learning_rate": 9.28387752988632e-07,
      "loss": 0.5644,
      "step": 3634
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.5879260062176623,
      "learning_rate": 9.262967730216127e-07,
      "loss": 0.5021,
      "step": 3635
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.7179962520621572,
      "learning_rate": 9.242079100243889e-07,
      "loss": 0.4928,
      "step": 3636
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.7042070267196325,
      "learning_rate": 9.221211650824757e-07,
      "loss": 0.5199,
      "step": 3637
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.527989638975876,
      "learning_rate": 9.200365392802862e-07,
      "loss": 0.6039,
      "step": 3638
    },
    {
      "epoch": 0.81,
      "grad_norm": 5.229252411515068,
      "learning_rate": 9.1795403370113e-07,
      "loss": 0.6171,
      "step": 3639
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.036437577524063,
      "learning_rate": 9.15873649427218e-07,
      "loss": 0.3836,
      "step": 3640
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.807280961984952,
      "learning_rate": 9.137953875396588e-07,
      "loss": 0.4298,
      "step": 3641
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.6890323516474357,
      "learning_rate": 9.11719249118454e-07,
      "loss": 0.4051,
      "step": 3642
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.724186377576503,
      "learning_rate": 9.096452352425072e-07,
      "loss": 0.5165,
      "step": 3643
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.851122243291393,
      "learning_rate": 9.07573346989613e-07,
      "loss": 0.5462,
      "step": 3644
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.52123756791373,
      "learning_rate": 9.055035854364652e-07,
      "loss": 0.4507,
      "step": 3645
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.9271432006294225,
      "learning_rate": 9.034359516586505e-07,
      "loss": 0.4969,
      "step": 3646
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.776515020426074,
      "learning_rate": 9.013704467306517e-07,
      "loss": 0.3997,
      "step": 3647
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.428418164159399,
      "learning_rate": 8.993070717258423e-07,
      "loss": 0.6088,
      "step": 3648
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.1162825695312724,
      "learning_rate": 8.972458277164886e-07,
      "loss": 0.4551,
      "step": 3649
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.252039318199715,
      "learning_rate": 8.951867157737559e-07,
      "loss": 0.7391,
      "step": 3650
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.652795795061584,
      "learning_rate": 8.931297369676934e-07,
      "loss": 0.5307,
      "step": 3651
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.2905578786255334,
      "learning_rate": 8.910748923672485e-07,
      "loss": 0.5985,
      "step": 3652
    },
    {
      "epoch": 0.81,
      "grad_norm": 5.3709155767059045,
      "learning_rate": 8.890221830402529e-07,
      "loss": 0.5537,
      "step": 3653
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.396603198415253,
      "learning_rate": 8.869716100534348e-07,
      "loss": 0.6711,
      "step": 3654
    },
    {
      "epoch": 0.81,
      "grad_norm": 5.5844419628908,
      "learning_rate": 8.849231744724102e-07,
      "loss": 0.4361,
      "step": 3655
    },
    {
      "epoch": 0.81,
      "grad_norm": 5.268370778977744,
      "learning_rate": 8.828768773616808e-07,
      "loss": 0.5328,
      "step": 3656
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.449179795364588,
      "learning_rate": 8.808327197846434e-07,
      "loss": 0.2176,
      "step": 3657
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.287398846994689,
      "learning_rate": 8.787907028035753e-07,
      "loss": 0.4601,
      "step": 3658
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.3939680300213135,
      "learning_rate": 8.76750827479651e-07,
      "loss": 0.4222,
      "step": 3659
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.5960981427773944,
      "learning_rate": 8.747130948729226e-07,
      "loss": 0.3048,
      "step": 3660
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.2365335983164005,
      "learning_rate": 8.726775060423354e-07,
      "loss": 0.6696,
      "step": 3661
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.3657263989090382,
      "learning_rate": 8.706440620457163e-07,
      "loss": 0.4615,
      "step": 3662
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.278412848505313,
      "learning_rate": 8.686127639397795e-07,
      "loss": 0.5227,
      "step": 3663
    },
    {
      "epoch": 0.82,
      "grad_norm": 5.400195851121,
      "learning_rate": 8.665836127801259e-07,
      "loss": 0.6213,
      "step": 3664
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.5558048472043633,
      "learning_rate": 8.645566096212354e-07,
      "loss": 0.5196,
      "step": 3665
    },
    {
      "epoch": 0.82,
      "grad_norm": 5.143968700472958,
      "learning_rate": 8.625317555164787e-07,
      "loss": 0.363,
      "step": 3666
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.582078550766757,
      "learning_rate": 8.60509051518103e-07,
      "loss": 0.6131,
      "step": 3667
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.8625293797504114,
      "learning_rate": 8.584884986772418e-07,
      "loss": 0.3697,
      "step": 3668
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.534152927491195,
      "learning_rate": 8.564700980439122e-07,
      "loss": 0.5881,
      "step": 3669
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.325764234910655,
      "learning_rate": 8.544538506670074e-07,
      "loss": 0.6936,
      "step": 3670
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.9276907332056705,
      "learning_rate": 8.524397575943083e-07,
      "loss": 0.6334,
      "step": 3671
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.162000497591381,
      "learning_rate": 8.504278198724686e-07,
      "loss": 0.4952,
      "step": 3672
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.88136930106893,
      "learning_rate": 8.484180385470315e-07,
      "loss": 0.3861,
      "step": 3673
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.855974316169981,
      "learning_rate": 8.464104146624103e-07,
      "loss": 0.4871,
      "step": 3674
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.387685371988086,
      "learning_rate": 8.444049492619038e-07,
      "loss": 0.2737,
      "step": 3675
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.433011479329033,
      "learning_rate": 8.424016433876841e-07,
      "loss": 0.6818,
      "step": 3676
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.1473016062991293,
      "learning_rate": 8.404004980808051e-07,
      "loss": 0.6358,
      "step": 3677
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.704217386731806,
      "learning_rate": 8.384015143811974e-07,
      "loss": 0.3175,
      "step": 3678
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.633226302619806,
      "learning_rate": 8.364046933276642e-07,
      "loss": 0.5808,
      "step": 3679
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.7807942962024743,
      "learning_rate": 8.344100359578905e-07,
      "loss": 0.6116,
      "step": 3680
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.4464516746343317,
      "learning_rate": 8.32417543308432e-07,
      "loss": 0.4839,
      "step": 3681
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.144224967028341,
      "learning_rate": 8.304272164147232e-07,
      "loss": 0.4672,
      "step": 3682
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.821373526135226,
      "learning_rate": 8.284390563110717e-07,
      "loss": 0.6618,
      "step": 3683
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.0133586371318306,
      "learning_rate": 8.264530640306579e-07,
      "loss": 0.5505,
      "step": 3684
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.242141373932747,
      "learning_rate": 8.244692406055377e-07,
      "loss": 0.313,
      "step": 3685
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.629447897062392,
      "learning_rate": 8.224875870666382e-07,
      "loss": 0.6458,
      "step": 3686
    },
    {
      "epoch": 0.82,
      "grad_norm": 5.519996236419322,
      "learning_rate": 8.205081044437618e-07,
      "loss": 0.6506,
      "step": 3687
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.945884202124088,
      "learning_rate": 8.185307937655774e-07,
      "loss": 0.3664,
      "step": 3688
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.4535118633306325,
      "learning_rate": 8.165556560596316e-07,
      "loss": 0.5709,
      "step": 3689
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.7591007653636397,
      "learning_rate": 8.145826923523359e-07,
      "loss": 0.3639,
      "step": 3690
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.357713118278253,
      "learning_rate": 8.126119036689755e-07,
      "loss": 0.6122,
      "step": 3691
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.303291026851346,
      "learning_rate": 8.10643291033707e-07,
      "loss": 0.5949,
      "step": 3692
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.623495667370507,
      "learning_rate": 8.086768554695501e-07,
      "loss": 0.3857,
      "step": 3693
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.40544954883176,
      "learning_rate": 8.06712597998398e-07,
      "loss": 0.4532,
      "step": 3694
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.694780775002682,
      "learning_rate": 8.047505196410115e-07,
      "loss": 0.3902,
      "step": 3695
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.4334120075213295,
      "learning_rate": 8.027906214170194e-07,
      "loss": 0.4025,
      "step": 3696
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.8079891014649974,
      "learning_rate": 8.008329043449148e-07,
      "loss": 0.386,
      "step": 3697
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.1910264832266666,
      "learning_rate": 7.988773694420582e-07,
      "loss": 0.5467,
      "step": 3698
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.179777087461702,
      "learning_rate": 7.969240177246779e-07,
      "loss": 0.5453,
      "step": 3699
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.45218550278553,
      "learning_rate": 7.949728502078669e-07,
      "loss": 0.8139,
      "step": 3700
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.0492643637004084,
      "learning_rate": 7.930238679055835e-07,
      "loss": 0.4077,
      "step": 3701
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.7704198097193995,
      "learning_rate": 7.910770718306476e-07,
      "loss": 0.4662,
      "step": 3702
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.343972092838962,
      "learning_rate": 7.891324629947466e-07,
      "loss": 0.5252,
      "step": 3703
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.363164192474161,
      "learning_rate": 7.871900424084311e-07,
      "loss": 0.5027,
      "step": 3704
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.248505070085944,
      "learning_rate": 7.852498110811108e-07,
      "loss": 0.4976,
      "step": 3705
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.3417304644120365,
      "learning_rate": 7.83311770021063e-07,
      "loss": 0.5543,
      "step": 3706
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.1064662139953256,
      "learning_rate": 7.813759202354204e-07,
      "loss": 0.5394,
      "step": 3707
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.050173672945703,
      "learning_rate": 7.794422627301828e-07,
      "loss": 0.5687,
      "step": 3708
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.663843084705494,
      "learning_rate": 7.775107985102087e-07,
      "loss": 0.529,
      "step": 3709
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.5226796018254087,
      "learning_rate": 7.755815285792173e-07,
      "loss": 0.6637,
      "step": 3710
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.467282870506623,
      "learning_rate": 7.736544539397839e-07,
      "loss": 0.6809,
      "step": 3711
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.1538046625491765,
      "learning_rate": 7.717295755933485e-07,
      "loss": 0.5161,
      "step": 3712
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.4997656248548865,
      "learning_rate": 7.698068945402071e-07,
      "loss": 0.428,
      "step": 3713
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.1813788410196193,
      "learning_rate": 7.678864117795121e-07,
      "loss": 0.3606,
      "step": 3714
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.9739326986101515,
      "learning_rate": 7.659681283092779e-07,
      "loss": 0.6004,
      "step": 3715
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.5353810570476787,
      "learning_rate": 7.640520451263706e-07,
      "loss": 0.618,
      "step": 3716
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.98488967235697,
      "learning_rate": 7.621381632265168e-07,
      "loss": 0.6322,
      "step": 3717
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.262200929709532,
      "learning_rate": 7.602264836043e-07,
      "loss": 0.5612,
      "step": 3718
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.602738834468916,
      "learning_rate": 7.583170072531543e-07,
      "loss": 0.5181,
      "step": 3719
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.853827563246429,
      "learning_rate": 7.564097351653743e-07,
      "loss": 0.8358,
      "step": 3720
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.3250997164344325,
      "learning_rate": 7.545046683321033e-07,
      "loss": 0.5365,
      "step": 3721
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.5572960951612225,
      "learning_rate": 7.526018077433467e-07,
      "loss": 0.4374,
      "step": 3722
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.465639585956975,
      "learning_rate": 7.50701154387955e-07,
      "loss": 0.5923,
      "step": 3723
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.991097072489783,
      "learning_rate": 7.488027092536382e-07,
      "loss": 0.6524,
      "step": 3724
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.927909860126423,
      "learning_rate": 7.469064733269527e-07,
      "loss": 0.5757,
      "step": 3725
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.121005943463814,
      "learning_rate": 7.450124475933112e-07,
      "loss": 0.4855,
      "step": 3726
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.105203584508203,
      "learning_rate": 7.431206330369789e-07,
      "loss": 0.4919,
      "step": 3727
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.5218055847188268,
      "learning_rate": 7.412310306410664e-07,
      "loss": 0.5477,
      "step": 3728
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.646827903400347,
      "learning_rate": 7.393436413875411e-07,
      "loss": 0.5421,
      "step": 3729
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.697255306869182,
      "learning_rate": 7.374584662572143e-07,
      "loss": 0.4838,
      "step": 3730
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.9635417218867794,
      "learning_rate": 7.355755062297504e-07,
      "loss": 0.4009,
      "step": 3731
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.676534102114772,
      "learning_rate": 7.336947622836644e-07,
      "loss": 0.4697,
      "step": 3732
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.747836531112414,
      "learning_rate": 7.318162353963137e-07,
      "loss": 0.5609,
      "step": 3733
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.9662542616728005,
      "learning_rate": 7.299399265439095e-07,
      "loss": 0.4429,
      "step": 3734
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.5577997501043717,
      "learning_rate": 7.280658367015048e-07,
      "loss": 0.5778,
      "step": 3735
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.143661221215173,
      "learning_rate": 7.261939668430068e-07,
      "loss": 0.5443,
      "step": 3736
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.533641261377916,
      "learning_rate": 7.243243179411618e-07,
      "loss": 0.4421,
      "step": 3737
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.7992814038830542,
      "learning_rate": 7.224568909675672e-07,
      "loss": 0.6725,
      "step": 3738
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.6793793580870466,
      "learning_rate": 7.205916868926604e-07,
      "loss": 0.5146,
      "step": 3739
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.6444395496573887,
      "learning_rate": 7.18728706685729e-07,
      "loss": 0.337,
      "step": 3740
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.6338529413764595,
      "learning_rate": 7.16867951314903e-07,
      "loss": 0.37,
      "step": 3741
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.7339735081534076,
      "learning_rate": 7.150094217471537e-07,
      "loss": 0.439,
      "step": 3742
    },
    {
      "epoch": 0.83,
      "grad_norm": 4.060356853536609,
      "learning_rate": 7.131531189482999e-07,
      "loss": 0.3198,
      "step": 3743
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.606858258708228,
      "learning_rate": 7.112990438829986e-07,
      "loss": 0.5148,
      "step": 3744
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.4880668629603395,
      "learning_rate": 7.094471975147554e-07,
      "loss": 0.3171,
      "step": 3745
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.8951839306843823,
      "learning_rate": 7.075975808059127e-07,
      "loss": 0.4635,
      "step": 3746
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.3445088810517993,
      "learning_rate": 7.057501947176537e-07,
      "loss": 0.3759,
      "step": 3747
    },
    {
      "epoch": 0.83,
      "grad_norm": 6.534347967847453,
      "learning_rate": 7.039050402100056e-07,
      "loss": 0.5172,
      "step": 3748
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.635752654683169,
      "learning_rate": 7.020621182418347e-07,
      "loss": 0.4137,
      "step": 3749
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.690205343709123,
      "learning_rate": 7.002214297708482e-07,
      "loss": 0.5052,
      "step": 3750
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.2597388098623425,
      "learning_rate": 6.983829757535887e-07,
      "loss": 0.3836,
      "step": 3751
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.8990961086156317,
      "learning_rate": 6.965467571454437e-07,
      "loss": 0.7051,
      "step": 3752
    },
    {
      "epoch": 0.84,
      "grad_norm": 6.5476470688355395,
      "learning_rate": 6.947127749006322e-07,
      "loss": 0.3304,
      "step": 3753
    },
    {
      "epoch": 0.84,
      "grad_norm": 8.239059943774702,
      "learning_rate": 6.928810299722167e-07,
      "loss": 0.7018,
      "step": 3754
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.17970655910108,
      "learning_rate": 6.910515233120952e-07,
      "loss": 0.4005,
      "step": 3755
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.2371416643305237,
      "learning_rate": 6.892242558710005e-07,
      "loss": 0.3211,
      "step": 3756
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.873858494875604,
      "learning_rate": 6.873992285985048e-07,
      "loss": 0.4021,
      "step": 3757
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.9037106325500783,
      "learning_rate": 6.855764424430139e-07,
      "loss": 0.5343,
      "step": 3758
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.421426915956391,
      "learning_rate": 6.837558983517723e-07,
      "loss": 0.5586,
      "step": 3759
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.9791694054566986,
      "learning_rate": 6.819375972708536e-07,
      "loss": 0.4725,
      "step": 3760
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.4014642313677115,
      "learning_rate": 6.801215401451722e-07,
      "loss": 0.4312,
      "step": 3761
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.9300936367497625,
      "learning_rate": 6.783077279184708e-07,
      "loss": 0.6046,
      "step": 3762
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.7554185493876338,
      "learning_rate": 6.764961615333293e-07,
      "loss": 0.5843,
      "step": 3763
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.2873586266151,
      "learning_rate": 6.746868419311603e-07,
      "loss": 0.5482,
      "step": 3764
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.3683726512052483,
      "learning_rate": 6.728797700522049e-07,
      "loss": 0.5984,
      "step": 3765
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.685231024149112,
      "learning_rate": 6.710749468355416e-07,
      "loss": 0.5833,
      "step": 3766
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.359477378034616,
      "learning_rate": 6.692723732190776e-07,
      "loss": 0.758,
      "step": 3767
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.5496482614570226,
      "learning_rate": 6.674720501395493e-07,
      "loss": 0.3341,
      "step": 3768
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.5351627692692547,
      "learning_rate": 6.656739785325278e-07,
      "loss": 0.4437,
      "step": 3769
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.344731156661328,
      "learning_rate": 6.638781593324101e-07,
      "loss": 0.5469,
      "step": 3770
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.5433575341140986,
      "learning_rate": 6.620845934724246e-07,
      "loss": 0.3898,
      "step": 3771
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.3330346458307325,
      "learning_rate": 6.602932818846297e-07,
      "loss": 0.4617,
      "step": 3772
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.8884325662470456,
      "learning_rate": 6.585042254999113e-07,
      "loss": 0.3659,
      "step": 3773
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.27215397642721,
      "learning_rate": 6.567174252479819e-07,
      "loss": 0.4993,
      "step": 3774
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.797574765451786,
      "learning_rate": 6.54932882057383e-07,
      "loss": 0.2766,
      "step": 3775
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.638855682349894,
      "learning_rate": 6.531505968554852e-07,
      "loss": 0.3961,
      "step": 3776
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.02142053039405,
      "learning_rate": 6.513705705684814e-07,
      "loss": 0.399,
      "step": 3777
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.653276064998527,
      "learning_rate": 6.495928041213939e-07,
      "loss": 0.5283,
      "step": 3778
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.480141612219419,
      "learning_rate": 6.478172984380687e-07,
      "loss": 0.651,
      "step": 3779
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.133652146119432,
      "learning_rate": 6.460440544411778e-07,
      "loss": 0.3428,
      "step": 3780
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.4449336273646547,
      "learning_rate": 6.442730730522195e-07,
      "loss": 0.4828,
      "step": 3781
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.5941357928766213,
      "learning_rate": 6.425043551915128e-07,
      "loss": 0.4179,
      "step": 3782
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.190652322042128,
      "learning_rate": 6.407379017782034e-07,
      "loss": 0.4976,
      "step": 3783
    },
    {
      "epoch": 0.84,
      "grad_norm": 5.992088424056533,
      "learning_rate": 6.38973713730257e-07,
      "loss": 0.6,
      "step": 3784
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.9492672669909017,
      "learning_rate": 6.372117919644683e-07,
      "loss": 0.6047,
      "step": 3785
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.3462643790090367,
      "learning_rate": 6.354521373964462e-07,
      "loss": 0.5467,
      "step": 3786
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.0608777027008855,
      "learning_rate": 6.336947509406283e-07,
      "loss": 0.4792,
      "step": 3787
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.324196061223887,
      "learning_rate": 6.319396335102684e-07,
      "loss": 0.3899,
      "step": 3788
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.9576956761176705,
      "learning_rate": 6.301867860174443e-07,
      "loss": 0.4638,
      "step": 3789
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.904065228724331,
      "learning_rate": 6.284362093730545e-07,
      "loss": 0.4867,
      "step": 3790
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.62303022592052,
      "learning_rate": 6.266879044868135e-07,
      "loss": 0.4517,
      "step": 3791
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.090371289845476,
      "learning_rate": 6.249418722672607e-07,
      "loss": 0.4702,
      "step": 3792
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.818043687519613,
      "learning_rate": 6.231981136217485e-07,
      "loss": 0.4738,
      "step": 3793
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.8338319147449047,
      "learning_rate": 6.21456629456455e-07,
      "loss": 0.6712,
      "step": 3794
    },
    {
      "epoch": 0.84,
      "grad_norm": 5.165699856226339,
      "learning_rate": 6.197174206763707e-07,
      "loss": 0.5308,
      "step": 3795
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.6072730420502794,
      "learning_rate": 6.179804881853035e-07,
      "loss": 0.3049,
      "step": 3796
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.2123744253026776,
      "learning_rate": 6.162458328858823e-07,
      "loss": 0.3194,
      "step": 3797
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.602759507526659,
      "learning_rate": 6.145134556795479e-07,
      "loss": 0.5188,
      "step": 3798
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.4135888055550336,
      "learning_rate": 6.127833574665642e-07,
      "loss": 0.5285,
      "step": 3799
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.108840943062743,
      "learning_rate": 6.110555391460027e-07,
      "loss": 0.6136,
      "step": 3800
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.997182853577206,
      "learning_rate": 6.09330001615756e-07,
      "loss": 0.4491,
      "step": 3801
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.5549481215471728,
      "learning_rate": 6.076067457725271e-07,
      "loss": 0.4817,
      "step": 3802
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.682923306527454,
      "learning_rate": 6.058857725118372e-07,
      "loss": 0.3422,
      "step": 3803
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.860337620565077,
      "learning_rate": 6.041670827280199e-07,
      "loss": 0.8026,
      "step": 3804
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.7589939217603194,
      "learning_rate": 6.024506773142208e-07,
      "loss": 0.5781,
      "step": 3805
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.240930635801307,
      "learning_rate": 6.007365571623997e-07,
      "loss": 0.6455,
      "step": 3806
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.3789087791696164,
      "learning_rate": 5.990247231633272e-07,
      "loss": 0.3613,
      "step": 3807
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.118964656313341,
      "learning_rate": 5.973151762065904e-07,
      "loss": 0.6315,
      "step": 3808
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.302164441607557,
      "learning_rate": 5.956079171805818e-07,
      "loss": 0.3099,
      "step": 3809
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.291128395282593,
      "learning_rate": 5.939029469725105e-07,
      "loss": 0.6495,
      "step": 3810
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.7007996566375607,
      "learning_rate": 5.922002664683907e-07,
      "loss": 0.6139,
      "step": 3811
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.5864723868777846,
      "learning_rate": 5.904998765530507e-07,
      "loss": 0.4626,
      "step": 3812
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.5162980993062254,
      "learning_rate": 5.888017781101285e-07,
      "loss": 0.2743,
      "step": 3813
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.642482268865322,
      "learning_rate": 5.871059720220679e-07,
      "loss": 0.5886,
      "step": 3814
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.412922166078498,
      "learning_rate": 5.854124591701261e-07,
      "loss": 0.2783,
      "step": 3815
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.0225585979654097,
      "learning_rate": 5.837212404343634e-07,
      "loss": 0.4037,
      "step": 3816
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.6745662830278745,
      "learning_rate": 5.820323166936526e-07,
      "loss": 0.6577,
      "step": 3817
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.1813843664766184,
      "learning_rate": 5.80345688825672e-07,
      "loss": 0.4443,
      "step": 3818
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.430434025518712,
      "learning_rate": 5.78661357706905e-07,
      "loss": 0.416,
      "step": 3819
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.3223399774329367,
      "learning_rate": 5.769793242126442e-07,
      "loss": 0.6453,
      "step": 3820
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.337671152655588,
      "learning_rate": 5.752995892169871e-07,
      "loss": 0.65,
      "step": 3821
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.06778713435315,
      "learning_rate": 5.736221535928383e-07,
      "loss": 0.4951,
      "step": 3822
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.9322829749801698,
      "learning_rate": 5.719470182119036e-07,
      "loss": 0.4005,
      "step": 3823
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.3793028472136317,
      "learning_rate": 5.702741839446979e-07,
      "loss": 0.4258,
      "step": 3824
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.4175267304921255,
      "learning_rate": 5.686036516605365e-07,
      "loss": 0.698,
      "step": 3825
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.513875969220586,
      "learning_rate": 5.669354222275402e-07,
      "loss": 0.3586,
      "step": 3826
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.9130766040653966,
      "learning_rate": 5.652694965126354e-07,
      "loss": 0.4369,
      "step": 3827
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.1007157763022657,
      "learning_rate": 5.63605875381546e-07,
      "loss": 0.4209,
      "step": 3828
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.202680148584,
      "learning_rate": 5.619445596988026e-07,
      "loss": 0.4604,
      "step": 3829
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.9644312418250243,
      "learning_rate": 5.602855503277376e-07,
      "loss": 0.4772,
      "step": 3830
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.7862234727904776,
      "learning_rate": 5.586288481304814e-07,
      "loss": 0.5085,
      "step": 3831
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.0569823471448423,
      "learning_rate": 5.5697445396797e-07,
      "loss": 0.4932,
      "step": 3832
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.8166280311405245,
      "learning_rate": 5.553223686999353e-07,
      "loss": 0.7868,
      "step": 3833
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.716438654833877,
      "learning_rate": 5.53672593184913e-07,
      "loss": 0.6755,
      "step": 3834
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.7766120684666737,
      "learning_rate": 5.520251282802374e-07,
      "loss": 0.4418,
      "step": 3835
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.393694091464978,
      "learning_rate": 5.50379974842043e-07,
      "loss": 0.4805,
      "step": 3836
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.4039102822979017,
      "learning_rate": 5.487371337252601e-07,
      "loss": 0.549,
      "step": 3837
    },
    {
      "epoch": 0.85,
      "grad_norm": 6.37255977366912,
      "learning_rate": 5.470966057836191e-07,
      "loss": 0.3559,
      "step": 3838
    },
    {
      "epoch": 0.85,
      "grad_norm": 5.050547836994555,
      "learning_rate": 5.45458391869651e-07,
      "loss": 0.6074,
      "step": 3839
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.4900402243778266,
      "learning_rate": 5.438224928346791e-07,
      "loss": 0.5876,
      "step": 3840
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.200818363994438,
      "learning_rate": 5.421889095288285e-07,
      "loss": 0.4365,
      "step": 3841
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.6493592738810126,
      "learning_rate": 5.405576428010168e-07,
      "loss": 0.5654,
      "step": 3842
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.69973948105827,
      "learning_rate": 5.389286934989607e-07,
      "loss": 0.6851,
      "step": 3843
    },
    {
      "epoch": 0.86,
      "grad_norm": 5.273167862233472,
      "learning_rate": 5.373020624691727e-07,
      "loss": 0.4843,
      "step": 3844
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.3046066198806088,
      "learning_rate": 5.356777505569577e-07,
      "loss": 0.4063,
      "step": 3845
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.789544209123927,
      "learning_rate": 5.340557586064188e-07,
      "loss": 0.6852,
      "step": 3846
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.6829779618089082,
      "learning_rate": 5.324360874604495e-07,
      "loss": 0.576,
      "step": 3847
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.2235836221756577,
      "learning_rate": 5.308187379607433e-07,
      "loss": 0.6544,
      "step": 3848
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.0941733667385836,
      "learning_rate": 5.29203710947781e-07,
      "loss": 0.5506,
      "step": 3849
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.643525292494206,
      "learning_rate": 5.275910072608409e-07,
      "loss": 0.444,
      "step": 3850
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.639085200403647,
      "learning_rate": 5.259806277379898e-07,
      "loss": 0.598,
      "step": 3851
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.976419231666545,
      "learning_rate": 5.24372573216091e-07,
      "loss": 0.4537,
      "step": 3852
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.9957349855497277,
      "learning_rate": 5.227668445307976e-07,
      "loss": 0.4482,
      "step": 3853
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.1237462687594797,
      "learning_rate": 5.211634425165524e-07,
      "loss": 0.5042,
      "step": 3854
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.6341543647285026,
      "learning_rate": 5.195623680065931e-07,
      "loss": 0.4825,
      "step": 3855
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.154637730957315,
      "learning_rate": 5.17963621832942e-07,
      "loss": 0.5188,
      "step": 3856
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.1486210804402477,
      "learning_rate": 5.163672048264195e-07,
      "loss": 0.3941,
      "step": 3857
    },
    {
      "epoch": 0.86,
      "grad_norm": 5.345392219216784,
      "learning_rate": 5.147731178166282e-07,
      "loss": 0.7531,
      "step": 3858
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.482319243655769,
      "learning_rate": 5.131813616319641e-07,
      "loss": 0.4717,
      "step": 3859
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.185132628334668,
      "learning_rate": 5.115919370996098e-07,
      "loss": 0.4882,
      "step": 3860
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.529327589322683,
      "learning_rate": 5.100048450455358e-07,
      "loss": 0.4483,
      "step": 3861
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.334385839469804,
      "learning_rate": 5.084200862945049e-07,
      "loss": 0.4409,
      "step": 3862
    },
    {
      "epoch": 0.86,
      "grad_norm": 5.4696183626542805,
      "learning_rate": 5.068376616700615e-07,
      "loss": 0.7945,
      "step": 3863
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.777603520326386,
      "learning_rate": 5.052575719945413e-07,
      "loss": 0.599,
      "step": 3864
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.295959664555265,
      "learning_rate": 5.036798180890639e-07,
      "loss": 0.6853,
      "step": 3865
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.4796658905978495,
      "learning_rate": 5.021044007735365e-07,
      "loss": 0.6745,
      "step": 3866
    },
    {
      "epoch": 0.86,
      "grad_norm": 5.467314958772063,
      "learning_rate": 5.005313208666524e-07,
      "loss": 0.5979,
      "step": 3867
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.103924770612988,
      "learning_rate": 4.989605791858887e-07,
      "loss": 0.6888,
      "step": 3868
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.8281456347710714,
      "learning_rate": 4.973921765475093e-07,
      "loss": 0.3925,
      "step": 3869
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.171948000913067,
      "learning_rate": 4.958261137665594e-07,
      "loss": 0.5146,
      "step": 3870
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.157250504160874,
      "learning_rate": 4.942623916568734e-07,
      "loss": 0.7822,
      "step": 3871
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.452705955530766,
      "learning_rate": 4.927010110310642e-07,
      "loss": 0.5583,
      "step": 3872
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.156876468226971,
      "learning_rate": 4.911419727005312e-07,
      "loss": 0.3183,
      "step": 3873
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.333689257247583,
      "learning_rate": 4.895852774754545e-07,
      "loss": 0.3507,
      "step": 3874
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.886991525385077,
      "learning_rate": 4.880309261647975e-07,
      "loss": 0.3063,
      "step": 3875
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.0793970233150376,
      "learning_rate": 4.86478919576307e-07,
      "loss": 0.4658,
      "step": 3876
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.825615907065774,
      "learning_rate": 4.849292585165077e-07,
      "loss": 0.4744,
      "step": 3877
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.034603349472855,
      "learning_rate": 4.833819437907101e-07,
      "loss": 0.3461,
      "step": 3878
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.339948433917101,
      "learning_rate": 4.818369762030001e-07,
      "loss": 0.5499,
      "step": 3879
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.651216644046355,
      "learning_rate": 4.802943565562479e-07,
      "loss": 0.6948,
      "step": 3880
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.3977594510912374,
      "learning_rate": 4.787540856521033e-07,
      "loss": 0.3729,
      "step": 3881
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.8789173043981418,
      "learning_rate": 4.772161642909923e-07,
      "loss": 0.4691,
      "step": 3882
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.5790306196291763,
      "learning_rate": 4.756805932721237e-07,
      "loss": 0.5123,
      "step": 3883
    },
    {
      "epoch": 0.86,
      "grad_norm": 5.3461246029344975,
      "learning_rate": 4.741473733934826e-07,
      "loss": 0.455,
      "step": 3884
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.581055944585325,
      "learning_rate": 4.7261650545183504e-07,
      "loss": 0.7487,
      "step": 3885
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.6833278116301313,
      "learning_rate": 4.7108799024271955e-07,
      "loss": 0.4871,
      "step": 3886
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.536257927581619,
      "learning_rate": 4.695618285604581e-07,
      "loss": 0.5023,
      "step": 3887
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.2498027414505914,
      "learning_rate": 4.68038021198145e-07,
      "loss": 0.4962,
      "step": 3888
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.774879071484862,
      "learning_rate": 4.6651656894765307e-07,
      "loss": 0.6445,
      "step": 3889
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.442723675661126,
      "learning_rate": 4.6499747259963255e-07,
      "loss": 0.5165,
      "step": 3890
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.795665704007154,
      "learning_rate": 4.6348073294350595e-07,
      "loss": 0.5696,
      "step": 3891
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.932856357280923,
      "learning_rate": 4.619663507674743e-07,
      "loss": 0.3609,
      "step": 3892
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.812330345587498,
      "learning_rate": 4.6045432685851267e-07,
      "loss": 0.4358,
      "step": 3893
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.9170402631648953,
      "learning_rate": 4.5894466200236854e-07,
      "loss": 0.6124,
      "step": 3894
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.819036051242681,
      "learning_rate": 4.574373569835677e-07,
      "loss": 0.4186,
      "step": 3895
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.615056327784033,
      "learning_rate": 4.559324125854042e-07,
      "loss": 0.471,
      "step": 3896
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.706458065307013,
      "learning_rate": 4.5442982958994965e-07,
      "loss": 0.6568,
      "step": 3897
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.450274754129519,
      "learning_rate": 4.5292960877804717e-07,
      "loss": 0.6517,
      "step": 3898
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.452474360908295,
      "learning_rate": 4.5143175092931257e-07,
      "loss": 0.5541,
      "step": 3899
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.86223572750147,
      "learning_rate": 4.499362568221327e-07,
      "loss": 0.454,
      "step": 3900
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.2792621441597904,
      "learning_rate": 4.4844312723366645e-07,
      "loss": 0.496,
      "step": 3901
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.517212436767066,
      "learning_rate": 4.469523629398459e-07,
      "loss": 0.4258,
      "step": 3902
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.8611141895557917,
      "learning_rate": 4.4546396471537025e-07,
      "loss": 0.3455,
      "step": 3903
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.224008016238844,
      "learning_rate": 4.43977933333713e-07,
      "loss": 0.461,
      "step": 3904
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.3873688257881365,
      "learning_rate": 4.4249426956711414e-07,
      "loss": 0.5654,
      "step": 3905
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.265385474604665,
      "learning_rate": 4.4101297418658594e-07,
      "loss": 0.8163,
      "step": 3906
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.2770980356123225,
      "learning_rate": 4.395340479619087e-07,
      "loss": 0.465,
      "step": 3907
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.70746905127768,
      "learning_rate": 4.3805749166163257e-07,
      "loss": 0.5716,
      "step": 3908
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.6658508552495994,
      "learning_rate": 4.3658330605307496e-07,
      "loss": 0.4961,
      "step": 3909
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.601376574942608,
      "learning_rate": 4.3511149190231973e-07,
      "loss": 0.5482,
      "step": 3910
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.3345139044369954,
      "learning_rate": 4.3364204997422445e-07,
      "loss": 0.6185,
      "step": 3911
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.2017969659926875,
      "learning_rate": 4.3217498103240605e-07,
      "loss": 0.6032,
      "step": 3912
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.874030890983845,
      "learning_rate": 4.307102858392548e-07,
      "loss": 0.5558,
      "step": 3913
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.025757014238134,
      "learning_rate": 4.292479651559223e-07,
      "loss": 0.4096,
      "step": 3914
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.839707779956935,
      "learning_rate": 4.277880197423301e-07,
      "loss": 0.424,
      "step": 3915
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.432631666345559,
      "learning_rate": 4.263304503571641e-07,
      "loss": 0.6965,
      "step": 3916
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.0816046918306648,
      "learning_rate": 4.248752577578741e-07,
      "loss": 0.3477,
      "step": 3917
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.6404013598036196,
      "learning_rate": 4.2342244270067723e-07,
      "loss": 0.6895,
      "step": 3918
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.2605472475957327,
      "learning_rate": 4.2197200594055135e-07,
      "loss": 0.3483,
      "step": 3919
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.18724633506852,
      "learning_rate": 4.2052394823124453e-07,
      "loss": 0.8224,
      "step": 3920
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.065223086419895,
      "learning_rate": 4.190782703252616e-07,
      "loss": 0.5101,
      "step": 3921
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.748593301824534,
      "learning_rate": 4.17634972973876e-07,
      "loss": 0.6626,
      "step": 3922
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.609733665795906,
      "learning_rate": 4.161940569271211e-07,
      "loss": 0.4214,
      "step": 3923
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.959651539083174,
      "learning_rate": 4.1475552293379183e-07,
      "loss": 0.3601,
      "step": 3924
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.6601409195955483,
      "learning_rate": 4.1331937174145076e-07,
      "loss": 0.4852,
      "step": 3925
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.0548349788508222,
      "learning_rate": 4.1188560409641586e-07,
      "loss": 0.5301,
      "step": 3926
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.26673364176577,
      "learning_rate": 4.104542207437706e-07,
      "loss": 0.5237,
      "step": 3927
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.2073324523856446,
      "learning_rate": 4.090252224273561e-07,
      "loss": 0.5149,
      "step": 3928
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.466484946554267,
      "learning_rate": 4.0759860988977715e-07,
      "loss": 0.2848,
      "step": 3929
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.959588353013057,
      "learning_rate": 4.061743838723975e-07,
      "loss": 0.4534,
      "step": 3930
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.1658795651268545,
      "learning_rate": 4.0475254511534e-07,
      "loss": 0.4581,
      "step": 3931
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.2946943291128057,
      "learning_rate": 4.0333309435748867e-07,
      "loss": 0.6005,
      "step": 3932
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.2320198515775806,
      "learning_rate": 4.0191603233648293e-07,
      "loss": 0.3622,
      "step": 3933
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.3775613665801525,
      "learning_rate": 4.0050135978872693e-07,
      "loss": 0.7007,
      "step": 3934
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.409896815114194,
      "learning_rate": 3.9908907744937665e-07,
      "loss": 0.584,
      "step": 3935
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.5309935188944666,
      "learning_rate": 3.97679186052351e-07,
      "loss": 0.5246,
      "step": 3936
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.624644233246241,
      "learning_rate": 3.962716863303223e-07,
      "loss": 0.5196,
      "step": 3937
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.2613071061504497,
      "learning_rate": 3.9486657901472267e-07,
      "loss": 0.6674,
      "step": 3938
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.4227744973083545,
      "learning_rate": 3.934638648357414e-07,
      "loss": 0.4592,
      "step": 3939
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.7927996032520817,
      "learning_rate": 3.920635445223214e-07,
      "loss": 0.3081,
      "step": 3940
    },
    {
      "epoch": 0.88,
      "grad_norm": 5.296680791780942,
      "learning_rate": 3.90665618802164e-07,
      "loss": 0.7013,
      "step": 3941
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.7365593323205935,
      "learning_rate": 3.8927008840172474e-07,
      "loss": 0.5485,
      "step": 3942
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.145518485360096,
      "learning_rate": 3.878769540462146e-07,
      "loss": 0.5489,
      "step": 3943
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.815053460943359,
      "learning_rate": 3.864862164596017e-07,
      "loss": 0.6133,
      "step": 3944
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.263216488147154,
      "learning_rate": 3.8509787636460406e-07,
      "loss": 0.5284,
      "step": 3945
    },
    {
      "epoch": 0.88,
      "grad_norm": 5.859785393768577,
      "learning_rate": 3.837119344826984e-07,
      "loss": 0.6655,
      "step": 3946
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.1516651095834636,
      "learning_rate": 3.823283915341119e-07,
      "loss": 0.5578,
      "step": 3947
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.908402445961968,
      "learning_rate": 3.809472482378285e-07,
      "loss": 0.524,
      "step": 3948
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.9827195174832637,
      "learning_rate": 3.795685053115805e-07,
      "loss": 0.3866,
      "step": 3949
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.220216105919542,
      "learning_rate": 3.7819216347185716e-07,
      "loss": 0.4726,
      "step": 3950
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.7663987444678764,
      "learning_rate": 3.7681822343389683e-07,
      "loss": 0.4253,
      "step": 3951
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.8429971074153713,
      "learning_rate": 3.754466859116912e-07,
      "loss": 0.5169,
      "step": 3952
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.6083271796785654,
      "learning_rate": 3.7407755161798453e-07,
      "loss": 0.5181,
      "step": 3953
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.104384778300955,
      "learning_rate": 3.727108212642694e-07,
      "loss": 0.4108,
      "step": 3954
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.454875132781948,
      "learning_rate": 3.713464955607921e-07,
      "loss": 0.5489,
      "step": 3955
    },
    {
      "epoch": 0.88,
      "grad_norm": 5.890237564643969,
      "learning_rate": 3.699845752165454e-07,
      "loss": 0.6111,
      "step": 3956
    },
    {
      "epoch": 0.88,
      "grad_norm": 5.692144579002158,
      "learning_rate": 3.686250609392783e-07,
      "loss": 0.5398,
      "step": 3957
    },
    {
      "epoch": 0.88,
      "grad_norm": 6.779112337483724,
      "learning_rate": 3.6726795343548396e-07,
      "loss": 0.7304,
      "step": 3958
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.114014946043811,
      "learning_rate": 3.659132534104054e-07,
      "loss": 0.4196,
      "step": 3959
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.997468118630521,
      "learning_rate": 3.645609615680362e-07,
      "loss": 0.4894,
      "step": 3960
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.635836503537531,
      "learning_rate": 3.6321107861111926e-07,
      "loss": 0.7962,
      "step": 3961
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.231365142288958,
      "learning_rate": 3.618636052411445e-07,
      "loss": 0.4192,
      "step": 3962
    },
    {
      "epoch": 0.88,
      "grad_norm": 5.504842947158805,
      "learning_rate": 3.6051854215834736e-07,
      "loss": 0.561,
      "step": 3963
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.9179134233483786,
      "learning_rate": 3.591758900617159e-07,
      "loss": 0.4271,
      "step": 3964
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.350497732982164,
      "learning_rate": 3.578356496489799e-07,
      "loss": 0.5908,
      "step": 3965
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.254809044848404,
      "learning_rate": 3.5649782161661927e-07,
      "loss": 0.659,
      "step": 3966
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.5817428920969214,
      "learning_rate": 3.551624066598597e-07,
      "loss": 0.677,
      "step": 3967
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.706265717366152,
      "learning_rate": 3.5382940547267154e-07,
      "loss": 0.5617,
      "step": 3968
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.542244927149156,
      "learning_rate": 3.5249881874777235e-07,
      "loss": 0.3385,
      "step": 3969
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.6945271343940753,
      "learning_rate": 3.5117064717662406e-07,
      "loss": 0.6772,
      "step": 3970
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.1074451194242543,
      "learning_rate": 3.498448914494351e-07,
      "loss": 0.3823,
      "step": 3971
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.8644699485851906,
      "learning_rate": 3.4852155225515493e-07,
      "loss": 0.4971,
      "step": 3972
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.710650965300396,
      "learning_rate": 3.4720063028148175e-07,
      "loss": 0.7099,
      "step": 3973
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.940187440456037,
      "learning_rate": 3.458821262148532e-07,
      "loss": 0.5478,
      "step": 3974
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.883123527595556,
      "learning_rate": 3.4456604074045386e-07,
      "loss": 0.5711,
      "step": 3975
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.3140535615056885,
      "learning_rate": 3.432523745422106e-07,
      "loss": 0.4661,
      "step": 3976
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.667464874152547,
      "learning_rate": 3.419411283027907e-07,
      "loss": 0.4342,
      "step": 3977
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.562646646211193,
      "learning_rate": 3.406323027036074e-07,
      "loss": 0.6083,
      "step": 3978
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.979923168187424,
      "learning_rate": 3.3932589842481434e-07,
      "loss": 0.579,
      "step": 3979
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.4653595992113173,
      "learning_rate": 3.3802191614530635e-07,
      "loss": 0.3814,
      "step": 3980
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.6717177144118285,
      "learning_rate": 3.367203565427207e-07,
      "loss": 0.3768,
      "step": 3981
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.27497460094881,
      "learning_rate": 3.354212202934337e-07,
      "loss": 0.5059,
      "step": 3982
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.159798912874006,
      "learning_rate": 3.3412450807256523e-07,
      "loss": 0.3001,
      "step": 3983
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.23119136264738,
      "learning_rate": 3.3283022055397405e-07,
      "loss": 0.4984,
      "step": 3984
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.5996901505255576,
      "learning_rate": 3.315383584102594e-07,
      "loss": 0.3951,
      "step": 3985
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.278256221235377,
      "learning_rate": 3.3024892231275754e-07,
      "loss": 0.4643,
      "step": 3986
    },
    {
      "epoch": 0.89,
      "grad_norm": 7.990152003842582,
      "learning_rate": 3.2896191293154746e-07,
      "loss": 0.4196,
      "step": 3987
    },
    {
      "epoch": 0.89,
      "grad_norm": 6.0251876776288285,
      "learning_rate": 3.276773309354464e-07,
      "loss": 0.82,
      "step": 3988
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.5336417969365237,
      "learning_rate": 3.2639517699200765e-07,
      "loss": 0.754,
      "step": 3989
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.015023235273474,
      "learning_rate": 3.2511545176752647e-07,
      "loss": 0.4519,
      "step": 3990
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.9146330421097977,
      "learning_rate": 3.2383815592703203e-07,
      "loss": 0.4122,
      "step": 3991
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.191709833418133,
      "learning_rate": 3.2256329013429455e-07,
      "loss": 0.5483,
      "step": 3992
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.791423410595568,
      "learning_rate": 3.2129085505181954e-07,
      "loss": 0.4045,
      "step": 3993
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.071340418653061,
      "learning_rate": 3.200208513408493e-07,
      "loss": 0.6015,
      "step": 3994
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.5542490035467127,
      "learning_rate": 3.187532796613635e-07,
      "loss": 0.5414,
      "step": 3995
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.051242308080666,
      "learning_rate": 3.174881406720759e-07,
      "loss": 0.3912,
      "step": 3996
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.800241976303427,
      "learning_rate": 3.162254350304411e-07,
      "loss": 0.7416,
      "step": 3997
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.1525322211831215,
      "learning_rate": 3.149651633926426e-07,
      "loss": 0.4147,
      "step": 3998
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.226823021478018,
      "learning_rate": 3.1370732641360424e-07,
      "loss": 0.4825,
      "step": 3999
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.2864968603211953,
      "learning_rate": 3.124519247469815e-07,
      "loss": 0.6156,
      "step": 4000
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.81933764457959,
      "learning_rate": 3.111989590451647e-07,
      "loss": 0.6234,
      "step": 4001
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.2678096282279667,
      "learning_rate": 3.0994842995928145e-07,
      "loss": 0.4905,
      "step": 4002
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.761257288487929,
      "learning_rate": 3.0870033813918786e-07,
      "loss": 0.3771,
      "step": 4003
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.859188913524796,
      "learning_rate": 3.0745468423347856e-07,
      "loss": 0.3146,
      "step": 4004
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.5871250210382004,
      "learning_rate": 3.062114688894763e-07,
      "loss": 0.6079,
      "step": 4005
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.784375096026376,
      "learning_rate": 3.0497069275324256e-07,
      "loss": 0.5181,
      "step": 4006
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.6203914274295452,
      "learning_rate": 3.03732356469566e-07,
      "loss": 0.5555,
      "step": 4007
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.3696132246671815,
      "learning_rate": 3.0249646068196913e-07,
      "loss": 0.3894,
      "step": 4008
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.13182357108744,
      "learning_rate": 3.0126300603270763e-07,
      "loss": 0.6009,
      "step": 4009
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.506233047189748,
      "learning_rate": 3.000319931627649e-07,
      "loss": 0.4974,
      "step": 4010
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.1948305691347807,
      "learning_rate": 2.9880342271186134e-07,
      "loss": 0.7869,
      "step": 4011
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.176087432442647,
      "learning_rate": 2.975772953184419e-07,
      "loss": 0.5483,
      "step": 4012
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.4430348669281265,
      "learning_rate": 2.963536116196869e-07,
      "loss": 0.4541,
      "step": 4013
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.9888046916652935,
      "learning_rate": 2.951323722515026e-07,
      "loss": 0.4926,
      "step": 4014
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.343080237130598,
      "learning_rate": 2.9391357784852803e-07,
      "loss": 0.6118,
      "step": 4015
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.5899419819061684,
      "learning_rate": 2.92697229044131e-07,
      "loss": 0.5313,
      "step": 4016
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.68907932042634,
      "learning_rate": 2.91483326470407e-07,
      "loss": 0.5819,
      "step": 4017
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.4172524932092676,
      "learning_rate": 2.9027187075818255e-07,
      "loss": 0.5691,
      "step": 4018
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.992156200924114,
      "learning_rate": 2.89062862537009e-07,
      "loss": 0.5296,
      "step": 4019
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.1044320861094135,
      "learning_rate": 2.878563024351716e-07,
      "loss": 0.4685,
      "step": 4020
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.6012395807528397,
      "learning_rate": 2.866521910796771e-07,
      "loss": 0.3803,
      "step": 4021
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.419070240987466,
      "learning_rate": 2.8545052909626505e-07,
      "loss": 0.4732,
      "step": 4022
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.46597697985167,
      "learning_rate": 2.84251317109398e-07,
      "loss": 0.6765,
      "step": 4023
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.202706857884288,
      "learning_rate": 2.8305455574226703e-07,
      "loss": 0.4476,
      "step": 4024
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.3799623812864783,
      "learning_rate": 2.818602456167913e-07,
      "loss": 0.4737,
      "step": 4025
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.203939869786341,
      "learning_rate": 2.8066838735361255e-07,
      "loss": 0.5623,
      "step": 4026
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.4512618034908096,
      "learning_rate": 2.7947898157210217e-07,
      "loss": 0.4263,
      "step": 4027
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.4661619665075856,
      "learning_rate": 2.78292028890354e-07,
      "loss": 0.5459,
      "step": 4028
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.697626074001818,
      "learning_rate": 2.7710752992518906e-07,
      "loss": 0.4177,
      "step": 4029
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.528048906102854,
      "learning_rate": 2.7592548529215224e-07,
      "loss": 0.6407,
      "step": 4030
    },
    {
      "epoch": 0.9,
      "grad_norm": 5.617111723793067,
      "learning_rate": 2.7474589560551324e-07,
      "loss": 0.4185,
      "step": 4031
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.9372339234538964,
      "learning_rate": 2.735687614782662e-07,
      "loss": 0.4027,
      "step": 4032
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.73869294340468,
      "learning_rate": 2.723940835221295e-07,
      "loss": 0.798,
      "step": 4033
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.0488027945816962,
      "learning_rate": 2.7122186234754487e-07,
      "loss": 0.4125,
      "step": 4034
    },
    {
      "epoch": 0.9,
      "grad_norm": 6.133728129352052,
      "learning_rate": 2.7005209856367565e-07,
      "loss": 0.6272,
      "step": 4035
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.570464965336647,
      "learning_rate": 2.688847927784116e-07,
      "loss": 0.467,
      "step": 4036
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.17620390532841,
      "learning_rate": 2.6771994559836147e-07,
      "loss": 0.6452,
      "step": 4037
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.95625845164319,
      "learning_rate": 2.665575576288587e-07,
      "loss": 0.4358,
      "step": 4038
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.032288666951985,
      "learning_rate": 2.653976294739596e-07,
      "loss": 0.5864,
      "step": 4039
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.8409745381840157,
      "learning_rate": 2.642401617364382e-07,
      "loss": 0.557,
      "step": 4040
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.598100471936087,
      "learning_rate": 2.6308515501779374e-07,
      "loss": 0.4006,
      "step": 4041
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.9854861544519338,
      "learning_rate": 2.619326099182462e-07,
      "loss": 0.6175,
      "step": 4042
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.724398155401727,
      "learning_rate": 2.607825270367342e-07,
      "loss": 0.3898,
      "step": 4043
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.605012492712681,
      "learning_rate": 2.596349069709186e-07,
      "loss": 0.5533,
      "step": 4044
    },
    {
      "epoch": 0.9,
      "grad_norm": 6.154018528618114,
      "learning_rate": 2.5848975031717903e-07,
      "loss": 0.3465,
      "step": 4045
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.451320605634352,
      "learning_rate": 2.573470576706166e-07,
      "loss": 0.4297,
      "step": 4046
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.440811831184388,
      "learning_rate": 2.5620682962505026e-07,
      "loss": 0.4159,
      "step": 4047
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.712957973016674,
      "learning_rate": 2.5506906677302103e-07,
      "loss": 0.4524,
      "step": 4048
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.551078388053543,
      "learning_rate": 2.539337697057853e-07,
      "loss": 0.4514,
      "step": 4049
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.015038424650719,
      "learning_rate": 2.528009390133196e-07,
      "loss": 0.4065,
      "step": 4050
    },
    {
      "epoch": 0.9,
      "grad_norm": 5.433035948451272,
      "learning_rate": 2.516705752843196e-07,
      "loss": 0.5295,
      "step": 4051
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.533695962124404,
      "learning_rate": 2.5054267910619765e-07,
      "loss": 0.5817,
      "step": 4052
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.672488507232149,
      "learning_rate": 2.4941725106508495e-07,
      "loss": 0.3922,
      "step": 4053
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.090878074623869,
      "learning_rate": 2.4829429174582867e-07,
      "loss": 0.5316,
      "step": 4054
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.407779864941336,
      "learning_rate": 2.471738017319947e-07,
      "loss": 0.4748,
      "step": 4055
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.759236099028667,
      "learning_rate": 2.460557816058645e-07,
      "loss": 0.5362,
      "step": 4056
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.711400575608464,
      "learning_rate": 2.449402319484362e-07,
      "loss": 0.5452,
      "step": 4057
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.65063742082922,
      "learning_rate": 2.438271533394254e-07,
      "loss": 0.4236,
      "step": 4058
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.4030823094809692,
      "learning_rate": 2.4271654635726003e-07,
      "loss": 0.3832,
      "step": 4059
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.590953382556539,
      "learning_rate": 2.4160841157908896e-07,
      "loss": 0.4041,
      "step": 4060
    },
    {
      "epoch": 0.9,
      "grad_norm": 5.415053111909206,
      "learning_rate": 2.4050274958077215e-07,
      "loss": 0.6153,
      "step": 4061
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.784039567687709,
      "learning_rate": 2.3939956093688597e-07,
      "loss": 0.5372,
      "step": 4062
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.5063516929554503,
      "learning_rate": 2.3829884622072086e-07,
      "loss": 0.5742,
      "step": 4063
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.5679374314312686,
      "learning_rate": 2.3720060600428253e-07,
      "loss": 0.4181,
      "step": 4064
    },
    {
      "epoch": 0.9,
      "grad_norm": 5.292422500776913,
      "learning_rate": 2.361048408582911e-07,
      "loss": 0.7543,
      "step": 4065
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.463663011972902,
      "learning_rate": 2.3501155135217835e-07,
      "loss": 0.4607,
      "step": 4066
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.420726667860985,
      "learning_rate": 2.33920738054092e-07,
      "loss": 0.5054,
      "step": 4067
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.817923858740102,
      "learning_rate": 2.3283240153089026e-07,
      "loss": 0.4731,
      "step": 4068
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.275810528515669,
      "learning_rate": 2.3174654234814854e-07,
      "loss": 0.6302,
      "step": 4069
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.6062932575048396,
      "learning_rate": 2.3066316107014985e-07,
      "loss": 0.3328,
      "step": 4070
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.8518243726997716,
      "learning_rate": 2.2958225825989388e-07,
      "loss": 0.4032,
      "step": 4071
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.4033275874484104,
      "learning_rate": 2.2850383447908853e-07,
      "loss": 0.4542,
      "step": 4072
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.2435569699953386,
      "learning_rate": 2.2742789028815493e-07,
      "loss": 0.4841,
      "step": 4073
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.575706214161776,
      "learning_rate": 2.263544262462286e-07,
      "loss": 0.5014,
      "step": 4074
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.658797827274312,
      "learning_rate": 2.2528344291115057e-07,
      "loss": 0.4544,
      "step": 4075
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.441244776368827,
      "learning_rate": 2.2421494083947836e-07,
      "loss": 0.4074,
      "step": 4076
    },
    {
      "epoch": 0.91,
      "grad_norm": 5.4490385038253715,
      "learning_rate": 2.231489205864751e-07,
      "loss": 0.5587,
      "step": 4077
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.7392546848495165,
      "learning_rate": 2.22085382706117e-07,
      "loss": 0.5877,
      "step": 4078
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.769189644527933,
      "learning_rate": 2.2102432775109151e-07,
      "loss": 0.5066,
      "step": 4079
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.1956786071279835,
      "learning_rate": 2.1996575627279192e-07,
      "loss": 0.406,
      "step": 4080
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.138885942176637,
      "learning_rate": 2.1890966882132437e-07,
      "loss": 0.5376,
      "step": 4081
    },
    {
      "epoch": 0.91,
      "grad_norm": 7.21232492822458,
      "learning_rate": 2.1785606594550147e-07,
      "loss": 0.6128,
      "step": 4082
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.6364496860584006,
      "learning_rate": 2.1680494819284803e-07,
      "loss": 0.2776,
      "step": 4083
    },
    {
      "epoch": 0.91,
      "grad_norm": 5.605552150973464,
      "learning_rate": 2.157563161095938e-07,
      "loss": 0.7905,
      "step": 4084
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.883329976621587,
      "learning_rate": 2.1471017024068007e-07,
      "loss": 0.5924,
      "step": 4085
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.379551433550366,
      "learning_rate": 2.13666511129752e-07,
      "loss": 0.3912,
      "step": 4086
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.16081992339519,
      "learning_rate": 2.1262533931916686e-07,
      "loss": 0.4088,
      "step": 4087
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.490262103659245,
      "learning_rate": 2.1158665534998734e-07,
      "loss": 0.4396,
      "step": 4088
    },
    {
      "epoch": 0.91,
      "grad_norm": 6.257838714425648,
      "learning_rate": 2.1055045976198286e-07,
      "loss": 0.695,
      "step": 4089
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.502292181710317,
      "learning_rate": 2.095167530936304e-07,
      "loss": 0.4659,
      "step": 4090
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.587496048860887,
      "learning_rate": 2.0848553588211307e-07,
      "loss": 0.5019,
      "step": 4091
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.888523071672608,
      "learning_rate": 2.0745680866332108e-07,
      "loss": 0.4459,
      "step": 4092
    },
    {
      "epoch": 0.91,
      "grad_norm": 5.021124521235319,
      "learning_rate": 2.0643057197185012e-07,
      "loss": 0.5997,
      "step": 4093
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.037620841496483,
      "learning_rate": 2.054068263410014e-07,
      "loss": 0.487,
      "step": 4094
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.680835053804937,
      "learning_rate": 2.0438557230278212e-07,
      "loss": 0.5987,
      "step": 4095
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.317502133360172,
      "learning_rate": 2.033668103879044e-07,
      "loss": 0.4724,
      "step": 4096
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.6102526379918567,
      "learning_rate": 2.023505411257859e-07,
      "loss": 0.535,
      "step": 4097
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.3764782477085253,
      "learning_rate": 2.013367650445469e-07,
      "loss": 0.4421,
      "step": 4098
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.419770591752735,
      "learning_rate": 2.0032548267101547e-07,
      "loss": 0.4492,
      "step": 4099
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.388036674589021,
      "learning_rate": 1.9931669453072066e-07,
      "loss": 0.6129,
      "step": 4100
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.2115330190287046,
      "learning_rate": 1.9831040114789646e-07,
      "loss": 0.448,
      "step": 4101
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.315251169975235,
      "learning_rate": 1.9730660304548122e-07,
      "loss": 0.3686,
      "step": 4102
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.083006267566101,
      "learning_rate": 1.9630530074511489e-07,
      "loss": 0.4222,
      "step": 4103
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.179908409542557,
      "learning_rate": 1.953064947671418e-07,
      "loss": 0.7012,
      "step": 4104
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.9501776780826776,
      "learning_rate": 1.9431018563060955e-07,
      "loss": 0.5195,
      "step": 4105
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.868021044683051,
      "learning_rate": 1.9331637385326617e-07,
      "loss": 0.4956,
      "step": 4106
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.622176923249882,
      "learning_rate": 1.923250599515636e-07,
      "loss": 0.6422,
      "step": 4107
    },
    {
      "epoch": 0.91,
      "grad_norm": 4.07275578247283,
      "learning_rate": 1.9133624444065468e-07,
      "loss": 0.4557,
      "step": 4108
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.3617525637203753,
      "learning_rate": 1.9034992783439398e-07,
      "loss": 0.5718,
      "step": 4109
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.265268033717221,
      "learning_rate": 1.893661106453387e-07,
      "loss": 0.6717,
      "step": 4110
    },
    {
      "epoch": 0.91,
      "grad_norm": 5.813525989092542,
      "learning_rate": 1.8838479338474658e-07,
      "loss": 0.4979,
      "step": 4111
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.1017099391556546,
      "learning_rate": 1.874059765625752e-07,
      "loss": 0.4218,
      "step": 4112
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.838206402061722,
      "learning_rate": 1.8642966068748325e-07,
      "loss": 0.6072,
      "step": 4113
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.2993736296859915,
      "learning_rate": 1.85455846266831e-07,
      "loss": 0.6559,
      "step": 4114
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.4048037414373375,
      "learning_rate": 1.8448453380667752e-07,
      "loss": 0.3511,
      "step": 4115
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.631348705889262,
      "learning_rate": 1.8351572381178183e-07,
      "loss": 0.3865,
      "step": 4116
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.5355521500043032,
      "learning_rate": 1.8254941678560234e-07,
      "loss": 0.405,
      "step": 4117
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.8347004492774923,
      "learning_rate": 1.8158561323029732e-07,
      "loss": 0.6838,
      "step": 4118
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.84448408558109,
      "learning_rate": 1.8062431364672394e-07,
      "loss": 0.5413,
      "step": 4119
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.704662515509879,
      "learning_rate": 1.7966551853443815e-07,
      "loss": 0.6673,
      "step": 4120
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.753613744203483,
      "learning_rate": 1.7870922839169469e-07,
      "loss": 0.6547,
      "step": 4121
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.137139424169819,
      "learning_rate": 1.777554437154444e-07,
      "loss": 0.6156,
      "step": 4122
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.721838964066524,
      "learning_rate": 1.7680416500134023e-07,
      "loss": 0.5497,
      "step": 4123
    },
    {
      "epoch": 0.92,
      "grad_norm": 9.362203889312458,
      "learning_rate": 1.7585539274372897e-07,
      "loss": 0.4723,
      "step": 4124
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.896771222975946,
      "learning_rate": 1.749091274356568e-07,
      "loss": 0.5723,
      "step": 4125
    },
    {
      "epoch": 0.92,
      "grad_norm": 5.561392962590564,
      "learning_rate": 1.7396536956886645e-07,
      "loss": 0.4673,
      "step": 4126
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.2038627147773218,
      "learning_rate": 1.7302411963379784e-07,
      "loss": 0.2619,
      "step": 4127
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.0842879721798013,
      "learning_rate": 1.7208537811958858e-07,
      "loss": 0.3558,
      "step": 4128
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.772570052938387,
      "learning_rate": 1.7114914551407125e-07,
      "loss": 0.607,
      "step": 4129
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.526627792172628,
      "learning_rate": 1.7021542230377496e-07,
      "loss": 0.4639,
      "step": 4130
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.660917569544248,
      "learning_rate": 1.692842089739244e-07,
      "loss": 0.7131,
      "step": 4131
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.311016749280497,
      "learning_rate": 1.6835550600844186e-07,
      "loss": 0.6828,
      "step": 4132
    },
    {
      "epoch": 0.92,
      "grad_norm": 8.434385509846674,
      "learning_rate": 1.6742931388994354e-07,
      "loss": 0.6314,
      "step": 4133
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.3252108444870863,
      "learning_rate": 1.6650563309974055e-07,
      "loss": 0.575,
      "step": 4134
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.016085709189556,
      "learning_rate": 1.6558446411784002e-07,
      "loss": 0.4803,
      "step": 4135
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.6524604419677873,
      "learning_rate": 1.646658074229418e-07,
      "loss": 0.3599,
      "step": 4136
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.915926184239296,
      "learning_rate": 1.6374966349244403e-07,
      "loss": 0.3576,
      "step": 4137
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.181513900232662,
      "learning_rate": 1.628360328024342e-07,
      "loss": 0.5171,
      "step": 4138
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.027975341205489,
      "learning_rate": 1.619249158276981e-07,
      "loss": 0.4291,
      "step": 4139
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.8688646262761175,
      "learning_rate": 1.6101631304171194e-07,
      "loss": 0.4422,
      "step": 4140
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.4124505282716373,
      "learning_rate": 1.6011022491664697e-07,
      "loss": 0.4471,
      "step": 4141
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.465703929822904,
      "learning_rate": 1.592066519233687e-07,
      "loss": 0.3663,
      "step": 4142
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.9228804379244813,
      "learning_rate": 1.5830559453143268e-07,
      "loss": 0.3321,
      "step": 4143
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.185797568329698,
      "learning_rate": 1.5740705320908988e-07,
      "loss": 0.4613,
      "step": 4144
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.6550597888940652,
      "learning_rate": 1.5651102842328125e-07,
      "loss": 0.4805,
      "step": 4145
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.5140455884291613,
      "learning_rate": 1.556175206396443e-07,
      "loss": 0.6035,
      "step": 4146
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.1902343306598335,
      "learning_rate": 1.5472653032250263e-07,
      "loss": 0.4209,
      "step": 4147
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.5410915385017523,
      "learning_rate": 1.5383805793487693e-07,
      "loss": 0.4604,
      "step": 4148
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.3081803222808865,
      "learning_rate": 1.529521039384757e-07,
      "loss": 0.4291,
      "step": 4149
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.202361923888338,
      "learning_rate": 1.5206866879370063e-07,
      "loss": 0.6883,
      "step": 4150
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.066370057114941,
      "learning_rate": 1.5118775295964449e-07,
      "loss": 0.685,
      "step": 4151
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.1270751398744956,
      "learning_rate": 1.5030935689408888e-07,
      "loss": 0.4322,
      "step": 4152
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.565480148100627,
      "learning_rate": 1.494334810535092e-07,
      "loss": 0.3114,
      "step": 4153
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.1048180033795667,
      "learning_rate": 1.48560125893068e-07,
      "loss": 0.4299,
      "step": 4154
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.890295401783449,
      "learning_rate": 1.4768929186661952e-07,
      "loss": 0.4173,
      "step": 4155
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.23788338602121,
      "learning_rate": 1.4682097942670838e-07,
      "loss": 0.5184,
      "step": 4156
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.372214535577013,
      "learning_rate": 1.4595518902456696e-07,
      "loss": 0.5861,
      "step": 4157
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.363875773205389,
      "learning_rate": 1.4509192111011872e-07,
      "loss": 0.4575,
      "step": 4158
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.410575300452101,
      "learning_rate": 1.4423117613197535e-07,
      "loss": 0.5778,
      "step": 4159
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.3204051655480957,
      "learning_rate": 1.433729545374385e-07,
      "loss": 0.4089,
      "step": 4160
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.3866643330120025,
      "learning_rate": 1.4251725677249638e-07,
      "loss": 0.7084,
      "step": 4161
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.708237726518296,
      "learning_rate": 1.416640832818289e-07,
      "loss": 0.6406,
      "step": 4162
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.212582857110071,
      "learning_rate": 1.4081343450880024e-07,
      "loss": 0.5328,
      "step": 4163
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.8990263445390196,
      "learning_rate": 1.3996531089546572e-07,
      "loss": 0.526,
      "step": 4164
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.033226496100807,
      "learning_rate": 1.3911971288256831e-07,
      "loss": 0.5704,
      "step": 4165
    },
    {
      "epoch": 0.93,
      "grad_norm": 5.452293818447252,
      "learning_rate": 1.382766409095354e-07,
      "loss": 0.501,
      "step": 4166
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.8190917381137854,
      "learning_rate": 1.374360954144849e-07,
      "loss": 0.5625,
      "step": 4167
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.307894209027052,
      "learning_rate": 1.3659807683422065e-07,
      "loss": 0.4929,
      "step": 4168
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.476388444042942,
      "learning_rate": 1.357625856042344e-07,
      "loss": 0.5273,
      "step": 4169
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.510734442960671,
      "learning_rate": 1.349296221587021e-07,
      "loss": 0.485,
      "step": 4170
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.8009644535660194,
      "learning_rate": 1.340991869304875e-07,
      "loss": 0.4698,
      "step": 4171
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.617740074547682,
      "learning_rate": 1.3327128035114101e-07,
      "loss": 0.3168,
      "step": 4172
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.6049537947982966,
      "learning_rate": 1.3244590285089786e-07,
      "loss": 0.2954,
      "step": 4173
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.095027988412843,
      "learning_rate": 1.3162305485868166e-07,
      "loss": 0.5799,
      "step": 4174
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.95727775738149,
      "learning_rate": 1.3080273680209698e-07,
      "loss": 0.5141,
      "step": 4175
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.767552172610677,
      "learning_rate": 1.299849491074373e-07,
      "loss": 0.3755,
      "step": 4176
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.051730227415367,
      "learning_rate": 1.2916969219968045e-07,
      "loss": 0.4074,
      "step": 4177
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.466901762436035,
      "learning_rate": 1.2835696650248752e-07,
      "loss": 0.3917,
      "step": 4178
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.080694367530775,
      "learning_rate": 1.275467724382068e-07,
      "loss": 0.5871,
      "step": 4179
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.426510820738344,
      "learning_rate": 1.2673911042786814e-07,
      "loss": 0.5404,
      "step": 4180
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.33120437245948,
      "learning_rate": 1.2593398089118748e-07,
      "loss": 0.7045,
      "step": 4181
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.675081542496399,
      "learning_rate": 1.2513138424656457e-07,
      "loss": 0.4763,
      "step": 4182
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.961862403785605,
      "learning_rate": 1.2433132091108245e-07,
      "loss": 0.3398,
      "step": 4183
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.751571906264066,
      "learning_rate": 1.2353379130050747e-07,
      "loss": 0.3609,
      "step": 4184
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.035259518714834,
      "learning_rate": 1.2273879582928916e-07,
      "loss": 0.4253,
      "step": 4185
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.5250009277676444,
      "learning_rate": 1.2194633491056208e-07,
      "loss": 0.5198,
      "step": 4186
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.538760209888075,
      "learning_rate": 1.211564089561401e-07,
      "loss": 0.5733,
      "step": 4187
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.268679244904294,
      "learning_rate": 1.2036901837652382e-07,
      "loss": 0.3997,
      "step": 4188
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.1007455216393653,
      "learning_rate": 1.1958416358089308e-07,
      "loss": 0.457,
      "step": 4189
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.2692286896695633,
      "learning_rate": 1.1880184497711112e-07,
      "loss": 0.4697,
      "step": 4190
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.6849140312612887,
      "learning_rate": 1.180220629717238e-07,
      "loss": 0.4645,
      "step": 4191
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.177623290894283,
      "learning_rate": 1.1724481796995757e-07,
      "loss": 0.4378,
      "step": 4192
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.8073350133234136,
      "learning_rate": 1.1647011037572154e-07,
      "loss": 0.508,
      "step": 4193
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.798777220372535,
      "learning_rate": 1.1569794059160533e-07,
      "loss": 0.3827,
      "step": 4194
    },
    {
      "epoch": 0.93,
      "grad_norm": 4.526689790794467,
      "learning_rate": 1.149283090188813e-07,
      "loss": 0.5289,
      "step": 4195
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.8629224497789685,
      "learning_rate": 1.1416121605750063e-07,
      "loss": 0.5357,
      "step": 4196
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.1871748951177827,
      "learning_rate": 1.1339666210609723e-07,
      "loss": 0.4221,
      "step": 4197
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.76811554778933,
      "learning_rate": 1.1263464756198384e-07,
      "loss": 0.4682,
      "step": 4198
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.5222422834317575,
      "learning_rate": 1.1187517282115478e-07,
      "loss": 0.4108,
      "step": 4199
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.6477991238925247,
      "learning_rate": 1.1111823827828438e-07,
      "loss": 0.476,
      "step": 4200
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.084562526529645,
      "learning_rate": 1.1036384432672575e-07,
      "loss": 0.5953,
      "step": 4201
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.389077924749174,
      "learning_rate": 1.096119913585142e-07,
      "loss": 0.5887,
      "step": 4202
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.372796228029734,
      "learning_rate": 1.088626797643616e-07,
      "loss": 0.5319,
      "step": 4203
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.8204977199266965,
      "learning_rate": 1.0811590993366094e-07,
      "loss": 0.5906,
      "step": 4204
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.8459665231447473,
      "learning_rate": 1.0737168225448458e-07,
      "loss": 0.4705,
      "step": 4205
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.7452690832295317,
      "learning_rate": 1.0662999711358258e-07,
      "loss": 0.3939,
      "step": 4206
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.12174274089842,
      "learning_rate": 1.058908548963844e-07,
      "loss": 0.4212,
      "step": 4207
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.3232941143244217,
      "learning_rate": 1.051542559869978e-07,
      "loss": 0.4725,
      "step": 4208
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.8696678803824396,
      "learning_rate": 1.0442020076820992e-07,
      "loss": 0.5153,
      "step": 4209
    },
    {
      "epoch": 0.94,
      "grad_norm": 10.069099289900167,
      "learning_rate": 1.0368868962148448e-07,
      "loss": 0.5242,
      "step": 4210
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.885282262670692,
      "learning_rate": 1.029597229269641e-07,
      "loss": 0.6361,
      "step": 4211
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.9128122609827667,
      "learning_rate": 1.0223330106346852e-07,
      "loss": 0.5825,
      "step": 4212
    },
    {
      "epoch": 0.94,
      "grad_norm": 5.428028618294806,
      "learning_rate": 1.0150942440849521e-07,
      "loss": 0.6804,
      "step": 4213
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.5308665518697544,
      "learning_rate": 1.0078809333821993e-07,
      "loss": 0.5501,
      "step": 4214
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.659993342898827,
      "learning_rate": 1.000693082274934e-07,
      "loss": 0.6136,
      "step": 4215
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.54119743247968,
      "learning_rate": 9.935306944984624e-08,
      "loss": 0.5428,
      "step": 4216
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.834449177818757,
      "learning_rate": 9.863937737748241e-08,
      "loss": 0.4397,
      "step": 4217
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.5427680099542402,
      "learning_rate": 9.792823238128579e-08,
      "loss": 0.6782,
      "step": 4218
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.3957610502775872,
      "learning_rate": 9.72196348308152e-08,
      "loss": 0.3272,
      "step": 4219
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.688913068762094,
      "learning_rate": 9.651358509430386e-08,
      "loss": 0.3996,
      "step": 4220
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.2977205303784958,
      "learning_rate": 9.581008353866383e-08,
      "loss": 0.5403,
      "step": 4221
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.228672023118062,
      "learning_rate": 9.510913052948157e-08,
      "loss": 0.493,
      "step": 4222
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.2376872729970683,
      "learning_rate": 9.441072643101957e-08,
      "loss": 0.4023,
      "step": 4223
    },
    {
      "epoch": 0.94,
      "grad_norm": 5.241619476980217,
      "learning_rate": 9.371487160621473e-08,
      "loss": 0.4065,
      "step": 4224
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.0925730463085754,
      "learning_rate": 9.302156641668114e-08,
      "loss": 0.5085,
      "step": 4225
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.60828156772385,
      "learning_rate": 9.233081122270559e-08,
      "loss": 0.4679,
      "step": 4226
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.0263998682599977,
      "learning_rate": 9.164260638325151e-08,
      "loss": 0.418,
      "step": 4227
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.279612386522052,
      "learning_rate": 9.095695225595613e-08,
      "loss": 0.3661,
      "step": 4228
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.749741443981867,
      "learning_rate": 9.027384919713167e-08,
      "loss": 0.5359,
      "step": 4229
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.5096528402933553,
      "learning_rate": 8.95932975617636e-08,
      "loss": 0.5757,
      "step": 4230
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.2788821186784842,
      "learning_rate": 8.891529770351348e-08,
      "loss": 0.5997,
      "step": 4231
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.1204743548322735,
      "learning_rate": 8.823984997471502e-08,
      "loss": 0.7603,
      "step": 4232
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.1261457731148745,
      "learning_rate": 8.756695472637578e-08,
      "loss": 0.6678,
      "step": 4233
    },
    {
      "epoch": 0.94,
      "grad_norm": 5.13158397606679,
      "learning_rate": 8.68966123081777e-08,
      "loss": 0.5746,
      "step": 4234
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.7822032777666563,
      "learning_rate": 8.622882306847547e-08,
      "loss": 0.5788,
      "step": 4235
    },
    {
      "epoch": 0.94,
      "grad_norm": 5.3529292136570925,
      "learning_rate": 8.556358735429704e-08,
      "loss": 0.6584,
      "step": 4236
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.887603480021153,
      "learning_rate": 8.490090551134478e-08,
      "loss": 0.4956,
      "step": 4237
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.7508477392856436,
      "learning_rate": 8.424077788399154e-08,
      "loss": 0.2751,
      "step": 4238
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.426117314299267,
      "learning_rate": 8.358320481528404e-08,
      "loss": 0.527,
      "step": 4239
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.288113026383679,
      "learning_rate": 8.292818664694224e-08,
      "loss": 0.5142,
      "step": 4240
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.102481359204588,
      "learning_rate": 8.227572371935666e-08,
      "loss": 0.5049,
      "step": 4241
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.857657746719904,
      "learning_rate": 8.162581637159106e-08,
      "loss": 0.4317,
      "step": 4242
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.4810034149297344,
      "learning_rate": 8.09784649413814e-08,
      "loss": 0.3887,
      "step": 4243
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.815425033531072,
      "learning_rate": 8.033366976513413e-08,
      "loss": 0.4938,
      "step": 4244
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.328645434039775,
      "learning_rate": 7.9691431177929e-08,
      "loss": 0.6003,
      "step": 4245
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.328145068465841,
      "learning_rate": 7.905174951351568e-08,
      "loss": 0.3947,
      "step": 4246
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.692473714629258,
      "learning_rate": 7.841462510431607e-08,
      "loss": 0.6597,
      "step": 4247
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.228468533080376,
      "learning_rate": 7.77800582814231e-08,
      "loss": 0.4236,
      "step": 4248
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.6617519495071575,
      "learning_rate": 7.714804937459964e-08,
      "loss": 0.485,
      "step": 4249
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.594182962685587,
      "learning_rate": 7.651859871228073e-08,
      "loss": 0.8631,
      "step": 4250
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.083651243863506,
      "learning_rate": 7.589170662157031e-08,
      "loss": 0.4607,
      "step": 4251
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.07037683629275,
      "learning_rate": 7.526737342824386e-08,
      "loss": 0.3107,
      "step": 4252
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.619928813244409,
      "learning_rate": 7.464559945674744e-08,
      "loss": 0.5067,
      "step": 4253
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.411323419758385,
      "learning_rate": 7.402638503019588e-08,
      "loss": 0.4954,
      "step": 4254
    },
    {
      "epoch": 0.95,
      "grad_norm": 6.4076538182452945,
      "learning_rate": 7.340973047037514e-08,
      "loss": 0.3449,
      "step": 4255
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.9469495866432336,
      "learning_rate": 7.279563609773998e-08,
      "loss": 0.4538,
      "step": 4256
    },
    {
      "epoch": 0.95,
      "grad_norm": 6.869663768073299,
      "learning_rate": 7.218410223141458e-08,
      "loss": 0.7049,
      "step": 4257
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.7624998553858178,
      "learning_rate": 7.157512918919473e-08,
      "loss": 0.5156,
      "step": 4258
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.395087010319743,
      "learning_rate": 7.096871728754173e-08,
      "loss": 0.4978,
      "step": 4259
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.4349965647190652,
      "learning_rate": 7.036486684158905e-08,
      "loss": 0.6384,
      "step": 4260
    },
    {
      "epoch": 0.95,
      "grad_norm": 5.486119848024526,
      "learning_rate": 6.976357816513735e-08,
      "loss": 0.4326,
      "step": 4261
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.957619707285024,
      "learning_rate": 6.916485157065723e-08,
      "loss": 0.4576,
      "step": 4262
    },
    {
      "epoch": 0.95,
      "grad_norm": 5.181309267311713,
      "learning_rate": 6.856868736928757e-08,
      "loss": 0.7376,
      "step": 4263
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.9668592891857055,
      "learning_rate": 6.79750858708339e-08,
      "loss": 0.4217,
      "step": 4264
    },
    {
      "epoch": 0.95,
      "grad_norm": 5.872982080442884,
      "learning_rate": 6.738404738377225e-08,
      "loss": 0.3532,
      "step": 4265
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.755734827464558,
      "learning_rate": 6.67955722152458e-08,
      "loss": 0.4426,
      "step": 4266
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.4139773086913006,
      "learning_rate": 6.620966067106604e-08,
      "loss": 0.4828,
      "step": 4267
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.7242442224886165,
      "learning_rate": 6.562631305571221e-08,
      "loss": 0.5279,
      "step": 4268
    },
    {
      "epoch": 0.95,
      "grad_norm": 6.708557139339904,
      "learning_rate": 6.504552967233014e-08,
      "loss": 0.4423,
      "step": 4269
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.763440228264605,
      "learning_rate": 6.44673108227345e-08,
      "loss": 0.3678,
      "step": 4270
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.338139649629796,
      "learning_rate": 6.38916568074055e-08,
      "loss": 0.5203,
      "step": 4271
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.6349442818146547,
      "learning_rate": 6.33185679254933e-08,
      "loss": 0.4476,
      "step": 4272
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.4789104087359535,
      "learning_rate": 6.274804447481242e-08,
      "loss": 0.5725,
      "step": 4273
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.852019619743254,
      "learning_rate": 6.218008675184573e-08,
      "loss": 0.6187,
      "step": 4274
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.7186367662782365,
      "learning_rate": 6.1614695051741e-08,
      "loss": 0.3906,
      "step": 4275
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.5480992355856653,
      "learning_rate": 6.10518696683149e-08,
      "loss": 0.4765,
      "step": 4276
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.928566252235638,
      "learning_rate": 6.049161089404898e-08,
      "loss": 0.4681,
      "step": 4277
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.4554198873492954,
      "learning_rate": 5.993391902009093e-08,
      "loss": 0.5252,
      "step": 4278
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.071514719141816,
      "learning_rate": 5.9378794336255595e-08,
      "loss": 0.6229,
      "step": 4279
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.255984727222654,
      "learning_rate": 5.88262371310222e-08,
      "loss": 0.5371,
      "step": 4280
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.275138828134702,
      "learning_rate": 5.8276247691537724e-08,
      "loss": 0.6127,
      "step": 4281
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.8369756194723315,
      "learning_rate": 5.772882630361298e-08,
      "loss": 0.5942,
      "step": 4282
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.843865687103593,
      "learning_rate": 5.7183973251724314e-08,
      "loss": 0.5528,
      "step": 4283
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.943483349915542,
      "learning_rate": 5.6641688819014664e-08,
      "loss": 0.4283,
      "step": 4284
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.166442466542209,
      "learning_rate": 5.610197328729139e-08,
      "loss": 0.5629,
      "step": 4285
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.751644195901106,
      "learning_rate": 5.556482693702736e-08,
      "loss": 0.4928,
      "step": 4286
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.6733749012699466,
      "learning_rate": 5.5030250047358734e-08,
      "loss": 0.4439,
      "step": 4287
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.512635045255589,
      "learning_rate": 5.449824289608829e-08,
      "loss": 0.6155,
      "step": 4288
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.150300302822684,
      "learning_rate": 5.396880575968266e-08,
      "loss": 0.5829,
      "step": 4289
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.662787152936351,
      "learning_rate": 5.344193891327287e-08,
      "loss": 0.5968,
      "step": 4290
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.299315830984488,
      "learning_rate": 5.2917642630654354e-08,
      "loss": 0.3203,
      "step": 4291
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.827473945488043,
      "learning_rate": 5.239591718428638e-08,
      "loss": 0.6172,
      "step": 4292
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.262713194141401,
      "learning_rate": 5.1876762845293193e-08,
      "loss": 0.4802,
      "step": 4293
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.6178719521577203,
      "learning_rate": 5.1360179883461755e-08,
      "loss": 0.4807,
      "step": 4294
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.1116596913330183,
      "learning_rate": 5.084616856724345e-08,
      "loss": 0.3484,
      "step": 4295
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.379387863935392,
      "learning_rate": 5.033472916375237e-08,
      "loss": 0.5684,
      "step": 4296
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.2590129947673057,
      "learning_rate": 4.982586193876815e-08,
      "loss": 0.5108,
      "step": 4297
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.8363829966937915,
      "learning_rate": 4.9319567156731474e-08,
      "loss": 0.7645,
      "step": 4298
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.158433891045814,
      "learning_rate": 4.881584508074688e-08,
      "loss": 0.6041,
      "step": 4299
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.443381652300836,
      "learning_rate": 4.831469597258331e-08,
      "loss": 0.5783,
      "step": 4300
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.4037014336950406,
      "learning_rate": 4.781612009267022e-08,
      "loss": 0.5546,
      "step": 4301
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.19097931109173,
      "learning_rate": 4.7320117700101474e-08,
      "loss": 0.5329,
      "step": 4302
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.528796641293799,
      "learning_rate": 4.6826689052634214e-08,
      "loss": 0.8092,
      "step": 4303
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.13453809422012,
      "learning_rate": 4.6335834406685544e-08,
      "loss": 0.4485,
      "step": 4304
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.8889529418085456,
      "learning_rate": 4.5847554017338094e-08,
      "loss": 0.6688,
      "step": 4305
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.572674760239907,
      "learning_rate": 4.5361848138333885e-08,
      "loss": 0.3491,
      "step": 4306
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.378630612874458,
      "learning_rate": 4.4878717022078245e-08,
      "loss": 0.517,
      "step": 4307
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.977693366713365,
      "learning_rate": 4.4398160919639774e-08,
      "loss": 0.3708,
      "step": 4308
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.323828660495029,
      "learning_rate": 4.39201800807465e-08,
      "loss": 0.6529,
      "step": 4309
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.747557552292212,
      "learning_rate": 4.3444774753790274e-08,
      "loss": 0.4575,
      "step": 4310
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.694143938827805,
      "learning_rate": 4.297194518582293e-08,
      "loss": 0.5466,
      "step": 4311
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.3145653543983755,
      "learning_rate": 4.2501691622559015e-08,
      "loss": 0.5799,
      "step": 4312
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.787768120919063,
      "learning_rate": 4.2034014308373616e-08,
      "loss": 0.3773,
      "step": 4313
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.1118816482126754,
      "learning_rate": 4.156891348630343e-08,
      "loss": 0.4637,
      "step": 4314
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.404495945351818,
      "learning_rate": 4.110638939804512e-08,
      "loss": 0.5698,
      "step": 4315
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.2989033510743626,
      "learning_rate": 4.0646442283958644e-08,
      "loss": 0.4201,
      "step": 4316
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.574631362454068,
      "learning_rate": 4.01890723830628e-08,
      "loss": 0.597,
      "step": 4317
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.051832654652224,
      "learning_rate": 3.973427993303802e-08,
      "loss": 0.4634,
      "step": 4318
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.295510744630015,
      "learning_rate": 3.92820651702247e-08,
      "loss": 0.5172,
      "step": 4319
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.186257827925425,
      "learning_rate": 3.883242832962319e-08,
      "loss": 0.3473,
      "step": 4320
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.224354594968453,
      "learning_rate": 3.8385369644896586e-08,
      "loss": 0.4338,
      "step": 4321
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.0838927137234045,
      "learning_rate": 3.794088934836571e-08,
      "loss": 0.6067,
      "step": 4322
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.950733829717474,
      "learning_rate": 3.7498987671012456e-08,
      "loss": 0.4341,
      "step": 4323
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.5043131785905466,
      "learning_rate": 3.705966484247869e-08,
      "loss": 0.4653,
      "step": 4324
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.378290477417673,
      "learning_rate": 3.662292109106569e-08,
      "loss": 0.4587,
      "step": 4325
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.0636728139743012,
      "learning_rate": 3.618875664373578e-08,
      "loss": 0.4148,
      "step": 4326
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.9401886972692255,
      "learning_rate": 3.575717172610904e-08,
      "loss": 0.3957,
      "step": 4327
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.863702056172861,
      "learning_rate": 3.532816656246663e-08,
      "loss": 0.7339,
      "step": 4328
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.464592062363339,
      "learning_rate": 3.4901741375747975e-08,
      "loss": 0.5026,
      "step": 4329
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.299750355742245,
      "learning_rate": 3.44778963875525e-08,
      "loss": 0.479,
      "step": 4330
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.714748171360825,
      "learning_rate": 3.405663181813845e-08,
      "loss": 0.6395,
      "step": 4331
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.497680128906785,
      "learning_rate": 3.363794788642294e-08,
      "loss": 0.7591,
      "step": 4332
    },
    {
      "epoch": 0.96,
      "grad_norm": 5.517265415483992,
      "learning_rate": 3.322184480998247e-08,
      "loss": 0.6136,
      "step": 4333
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.1405102125616686,
      "learning_rate": 3.2808322805052415e-08,
      "loss": 0.5503,
      "step": 4334
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.8262111763024684,
      "learning_rate": 3.2397382086525876e-08,
      "loss": 0.2596,
      "step": 4335
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.3443658564995955,
      "learning_rate": 3.1989022867956464e-08,
      "loss": 0.5435,
      "step": 4336
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.463965962598453,
      "learning_rate": 3.1583245361553884e-08,
      "loss": 0.5887,
      "step": 4337
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.2578655453057,
      "learning_rate": 3.118004977818778e-08,
      "loss": 0.6012,
      "step": 4338
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.331454898751142,
      "learning_rate": 3.077943632738556e-08,
      "loss": 0.4615,
      "step": 4339
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.028828022915838,
      "learning_rate": 3.038140521733346e-08,
      "loss": 0.4857,
      "step": 4340
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.943415716821356,
      "learning_rate": 2.99859566548738e-08,
      "loss": 0.2303,
      "step": 4341
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.180380286601883,
      "learning_rate": 2.9593090845509987e-08,
      "loss": 0.4584,
      "step": 4342
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.169820371712056,
      "learning_rate": 2.920280799340036e-08,
      "loss": 0.3462,
      "step": 4343
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.1631799529956552,
      "learning_rate": 2.8815108301362138e-08,
      "loss": 0.5253,
      "step": 4344
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.662719358167319,
      "learning_rate": 2.842999197087082e-08,
      "loss": 0.395,
      "step": 4345
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.248403651145924,
      "learning_rate": 2.804745920205798e-08,
      "loss": 0.5362,
      "step": 4346
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.551338306575319,
      "learning_rate": 2.76675101937135e-08,
      "loss": 0.5256,
      "step": 4347
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.598924278567955,
      "learning_rate": 2.729014514328443e-08,
      "loss": 0.5943,
      "step": 4348
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.221172335709249,
      "learning_rate": 2.6915364246875574e-08,
      "loss": 0.3393,
      "step": 4349
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.1570448673319405,
      "learning_rate": 2.6543167699247253e-08,
      "loss": 0.4687,
      "step": 4350
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.482427698430962,
      "learning_rate": 2.617355569381863e-08,
      "loss": 0.559,
      "step": 4351
    },
    {
      "epoch": 0.97,
      "grad_norm": 8.906374803724686,
      "learning_rate": 2.5806528422663845e-08,
      "loss": 0.4495,
      "step": 4352
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.1943634574654225,
      "learning_rate": 2.5442086076516438e-08,
      "loss": 0.5008,
      "step": 4353
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.363353633332896,
      "learning_rate": 2.5080228844764355e-08,
      "loss": 0.6021,
      "step": 4354
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.834031728210285,
      "learning_rate": 2.4720956915452175e-08,
      "loss": 0.5008,
      "step": 4355
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.542879061137654,
      "learning_rate": 2.4364270475282782e-08,
      "loss": 0.458,
      "step": 4356
    },
    {
      "epoch": 0.97,
      "grad_norm": 5.007413873522452,
      "learning_rate": 2.4010169709614563e-08,
      "loss": 0.5582,
      "step": 4357
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.739298962348126,
      "learning_rate": 2.3658654802460878e-08,
      "loss": 0.5431,
      "step": 4358
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.7242007732312046,
      "learning_rate": 2.3309725936493387e-08,
      "loss": 0.5422,
      "step": 4359
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.190065027236291,
      "learning_rate": 2.2963383293039265e-08,
      "loss": 0.6386,
      "step": 4360
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.4860623533273536,
      "learning_rate": 2.261962705208065e-08,
      "loss": 0.3562,
      "step": 4361
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.447373131550947,
      "learning_rate": 2.2278457392256315e-08,
      "loss": 0.6207,
      "step": 4362
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.394412009881898,
      "learning_rate": 2.1939874490861657e-08,
      "loss": 0.6808,
      "step": 4363
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.7166210778231172,
      "learning_rate": 2.1603878523845935e-08,
      "loss": 0.62,
      "step": 4364
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.6824857603833,
      "learning_rate": 2.1270469665816695e-08,
      "loss": 0.5356,
      "step": 4365
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.3935115390453157,
      "learning_rate": 2.0939648090034793e-08,
      "loss": 0.4258,
      "step": 4366
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.411760442043969,
      "learning_rate": 2.061141396841715e-08,
      "loss": 0.609,
      "step": 4367
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.137488773667613,
      "learning_rate": 2.028576747153621e-08,
      "loss": 0.5458,
      "step": 4368
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.874159971077684,
      "learning_rate": 1.9962708768620498e-08,
      "loss": 0.5724,
      "step": 4369
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.906473177176139,
      "learning_rate": 1.9642238027552385e-08,
      "loss": 0.4618,
      "step": 4370
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.9947841561361104,
      "learning_rate": 1.9324355414869765e-08,
      "loss": 0.4467,
      "step": 4371
    },
    {
      "epoch": 0.97,
      "grad_norm": 5.1507051784186055,
      "learning_rate": 1.9009061095766612e-08,
      "loss": 0.6309,
      "step": 4372
    },
    {
      "epoch": 0.97,
      "grad_norm": 5.890177398105717,
      "learning_rate": 1.8696355234090745e-08,
      "loss": 0.4482,
      "step": 4373
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.7335345971469214,
      "learning_rate": 1.8386237992344956e-08,
      "loss": 0.6032,
      "step": 4374
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.57557429160938,
      "learning_rate": 1.8078709531687e-08,
      "loss": 0.4778,
      "step": 4375
    },
    {
      "epoch": 0.97,
      "grad_norm": 5.15598028671499,
      "learning_rate": 1.7773770011929037e-08,
      "loss": 0.2937,
      "step": 4376
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.808567664089331,
      "learning_rate": 1.7471419591538752e-08,
      "loss": 0.4483,
      "step": 4377
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.2495612060463435,
      "learning_rate": 1.7171658427637127e-08,
      "loss": 0.4089,
      "step": 4378
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.113971804404728,
      "learning_rate": 1.687448667600067e-08,
      "loss": 0.6173,
      "step": 4379
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.760972980185933,
      "learning_rate": 1.6579904491059727e-08,
      "loss": 0.6248,
      "step": 4380
    },
    {
      "epoch": 0.98,
      "grad_norm": 5.0303729034672955,
      "learning_rate": 1.6287912025899076e-08,
      "loss": 0.5387,
      "step": 4381
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.0892964899927926,
      "learning_rate": 1.599850943225678e-08,
      "loss": 0.458,
      "step": 4382
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.774702271747619,
      "learning_rate": 1.571169686052698e-08,
      "loss": 0.4845,
      "step": 4383
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.7513521739260027,
      "learning_rate": 1.542747445975601e-08,
      "loss": 0.3655,
      "step": 4384
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.3208864185054736,
      "learning_rate": 1.5145842377645158e-08,
      "loss": 0.5078,
      "step": 4385
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.271025334402183,
      "learning_rate": 1.4866800760549582e-08,
      "loss": 0.5005,
      "step": 4386
    },
    {
      "epoch": 0.98,
      "grad_norm": 5.133691893665285,
      "learning_rate": 1.4590349753477173e-08,
      "loss": 0.7109,
      "step": 4387
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.153398423399574,
      "learning_rate": 1.4316489500091901e-08,
      "loss": 0.5361,
      "step": 4388
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.672960515375079,
      "learning_rate": 1.4045220142708816e-08,
      "loss": 0.6435,
      "step": 4389
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.388580977952119,
      "learning_rate": 1.3776541822297928e-08,
      "loss": 0.3795,
      "step": 4390
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.240181760753627,
      "learning_rate": 1.3510454678482553e-08,
      "loss": 0.4198,
      "step": 4391
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.8143459311539756,
      "learning_rate": 1.324695884953986e-08,
      "loss": 0.4579,
      "step": 4392
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.956027181397345,
      "learning_rate": 1.29860544723992e-08,
      "loss": 0.6942,
      "step": 4393
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.060921156799612,
      "learning_rate": 1.27277416826449e-08,
      "loss": 0.4192,
      "step": 4394
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.8727687727647977,
      "learning_rate": 1.2472020614512914e-08,
      "loss": 0.4083,
      "step": 4395
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.8362541636892056,
      "learning_rate": 1.2218891400893607e-08,
      "loss": 0.6498,
      "step": 4396
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.9006428620483633,
      "learning_rate": 1.1968354173329532e-08,
      "loss": 0.453,
      "step": 4397
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.8783942064538253,
      "learning_rate": 1.1720409062016546e-08,
      "loss": 0.5375,
      "step": 4398
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.748162327636027,
      "learning_rate": 1.1475056195804358e-08,
      "loss": 0.4305,
      "step": 4399
    },
    {
      "epoch": 0.98,
      "grad_norm": 5.74576927682592,
      "learning_rate": 1.1232295702193752e-08,
      "loss": 0.5942,
      "step": 4400
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.158390226023537,
      "learning_rate": 1.0992127707339929e-08,
      "loss": 0.4275,
      "step": 4401
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.872187234659453,
      "learning_rate": 1.0754552336050828e-08,
      "loss": 0.4672,
      "step": 4402
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.309876462669848,
      "learning_rate": 1.0519569711785472e-08,
      "loss": 0.6874,
      "step": 4403
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.344662198508071,
      "learning_rate": 1.028717995665729e-08,
      "loss": 0.6801,
      "step": 4404
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.544558114617099,
      "learning_rate": 1.0057383191431903e-08,
      "loss": 0.4731,
      "step": 4405
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.423334689259271,
      "learning_rate": 9.830179535526008e-09,
      "loss": 0.3478,
      "step": 4406
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.2926394109647257,
      "learning_rate": 9.60556910701127e-09,
      "loss": 0.3372,
      "step": 4407
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.561317903258907,
      "learning_rate": 9.383552022609322e-09,
      "loss": 0.5049,
      "step": 4408
    },
    {
      "epoch": 0.98,
      "grad_norm": 5.774064105425716,
      "learning_rate": 9.164128397695648e-09,
      "loss": 0.6148,
      "step": 4409
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.3040500326846773,
      "learning_rate": 8.947298346296817e-09,
      "loss": 0.5422,
      "step": 4410
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.254708181123022,
      "learning_rate": 8.73306198109325e-09,
      "loss": 0.5696,
      "step": 4411
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.429007269965187,
      "learning_rate": 8.521419413416443e-09,
      "loss": 0.4956,
      "step": 4412
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.099361983325544,
      "learning_rate": 8.312370753249533e-09,
      "loss": 0.3769,
      "step": 4413
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.317187286099275,
      "learning_rate": 8.105916109228395e-09,
      "loss": 0.4734,
      "step": 4414
    },
    {
      "epoch": 0.98,
      "grad_norm": 5.204832206481114,
      "learning_rate": 7.9020555886411e-09,
      "loss": 0.4809,
      "step": 4415
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.803431610729362,
      "learning_rate": 7.700789297426791e-09,
      "loss": 0.5177,
      "step": 4416
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.7633799926628475,
      "learning_rate": 7.502117340177361e-09,
      "loss": 0.5442,
      "step": 4417
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.7442437110214266,
      "learning_rate": 7.306039820135224e-09,
      "loss": 0.3944,
      "step": 4418
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.971326843635775,
      "learning_rate": 7.112556839196649e-09,
      "loss": 0.4731,
      "step": 4419
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.583375051900882,
      "learning_rate": 6.921668497907874e-09,
      "loss": 0.3669,
      "step": 4420
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.7666597024783584,
      "learning_rate": 6.733374895467326e-09,
      "loss": 0.6272,
      "step": 4421
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.06697784398624,
      "learning_rate": 6.5476761297245114e-09,
      "loss": 0.4587,
      "step": 4422
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.338725078763319,
      "learning_rate": 6.364572297181681e-09,
      "loss": 0.4347,
      "step": 4423
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.367018731951689,
      "learning_rate": 6.18406349299161e-09,
      "loss": 0.5935,
      "step": 4424
    },
    {
      "epoch": 0.98,
      "grad_norm": 4.129025023595633,
      "learning_rate": 6.006149810958705e-09,
      "loss": 0.5359,
      "step": 4425
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.300681410908115,
      "learning_rate": 5.830831343539012e-09,
      "loss": 0.545,
      "step": 4426
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.497828954614439,
      "learning_rate": 5.65810818183965e-09,
      "loss": 0.4391,
      "step": 4427
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.1609934994638227,
      "learning_rate": 5.4879804156193765e-09,
      "loss": 0.5061,
      "step": 4428
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.838214757484957,
      "learning_rate": 5.3204481332880255e-09,
      "loss": 0.3636,
      "step": 4429
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.442236044934593,
      "learning_rate": 5.155511421906512e-09,
      "loss": 0.5476,
      "step": 4430
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.8823876250044895,
      "learning_rate": 4.993170367186828e-09,
      "loss": 0.5749,
      "step": 4431
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.621653164943488,
      "learning_rate": 4.833425053492047e-09,
      "loss": 0.4448,
      "step": 4432
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.9759476264953104,
      "learning_rate": 4.676275563837429e-09,
      "loss": 0.3674,
      "step": 4433
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.39017900353327,
      "learning_rate": 4.521721979888205e-09,
      "loss": 0.4997,
      "step": 4434
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.2822919637822543,
      "learning_rate": 4.369764381960129e-09,
      "loss": 0.3708,
      "step": 4435
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.194946325201734,
      "learning_rate": 4.2204028490211435e-09,
      "loss": 0.7434,
      "step": 4436
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.7018377687907766,
      "learning_rate": 4.073637458689162e-09,
      "loss": 0.537,
      "step": 4437
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.825309754568345,
      "learning_rate": 3.929468287233728e-09,
      "loss": 0.4371,
      "step": 4438
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.020485240344969,
      "learning_rate": 3.787895409574915e-09,
      "loss": 0.3846,
      "step": 4439
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.5795141045721137,
      "learning_rate": 3.6489188992827607e-09,
      "loss": 0.6547,
      "step": 4440
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.8074187435872378,
      "learning_rate": 3.5125388285794926e-09,
      "loss": 0.4283,
      "step": 4441
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.243193667814019,
      "learning_rate": 3.378755268336753e-09,
      "loss": 0.6495,
      "step": 4442
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.4446357519152624,
      "learning_rate": 3.2475682880783732e-09,
      "loss": 0.5049,
      "step": 4443
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.768348836499243,
      "learning_rate": 3.1189779559770426e-09,
      "loss": 0.3315,
      "step": 4444
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.5852461690190744,
      "learning_rate": 2.992984338857641e-09,
      "loss": 0.385,
      "step": 4445
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.6379795132212576,
      "learning_rate": 2.8695875021944595e-09,
      "loss": 0.6524,
      "step": 4446
    },
    {
      "epoch": 0.99,
      "grad_norm": 7.664098797491605,
      "learning_rate": 2.7487875101128715e-09,
      "loss": 0.6222,
      "step": 4447
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.134863459015208,
      "learning_rate": 2.630584425388216e-09,
      "loss": 0.4377,
      "step": 4448
    },
    {
      "epoch": 0.99,
      "grad_norm": 5.1643003322849745,
      "learning_rate": 2.514978309447469e-09,
      "loss": 0.4973,
      "step": 4449
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.561211241935917,
      "learning_rate": 2.401969222367573e-09,
      "loss": 0.4963,
      "step": 4450
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.618217983223789,
      "learning_rate": 2.2915572228743297e-09,
      "loss": 0.5048,
      "step": 4451
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.745882338651367,
      "learning_rate": 2.1837423683462866e-09,
      "loss": 0.4178,
      "step": 4452
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.08661050333767,
      "learning_rate": 2.078524714811403e-09,
      "loss": 0.513,
      "step": 4453
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.475261761375782,
      "learning_rate": 1.9759043169470525e-09,
      "loss": 0.5721,
      "step": 4454
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.229738510127955,
      "learning_rate": 1.8758812280822436e-09,
      "loss": 0.4397,
      "step": 4455
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.675888324718681,
      "learning_rate": 1.7784555001959526e-09,
      "loss": 0.5491,
      "step": 4456
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.033484957588992,
      "learning_rate": 1.6836271839160146e-09,
      "loss": 0.7082,
      "step": 4457
    },
    {
      "epoch": 0.99,
      "grad_norm": 5.65326147979597,
      "learning_rate": 1.5913963285230093e-09,
      "loss": 0.6773,
      "step": 4458
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.948366753713819,
      "learning_rate": 1.501762981945265e-09,
      "loss": 0.3685,
      "step": 4459
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.786918864954669,
      "learning_rate": 1.4147271907621884e-09,
      "loss": 0.3549,
      "step": 4460
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.5993985852982417,
      "learning_rate": 1.3302890002042657e-09,
      "loss": 0.5269,
      "step": 4461
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.923916324460256,
      "learning_rate": 1.2484484541508412e-09,
      "loss": 0.4046,
      "step": 4462
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.290290181830433,
      "learning_rate": 1.1692055951317838e-09,
      "loss": 0.5051,
      "step": 4463
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.722147377407147,
      "learning_rate": 1.0925604643269305e-09,
      "loss": 0.4093,
      "step": 4464
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.411133337347185,
      "learning_rate": 1.0185131015660876e-09,
      "loss": 0.5255,
      "step": 4465
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.2379582647706773,
      "learning_rate": 9.470635453295852e-10,
      "loss": 0.4705,
      "step": 4466
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.2849131177904116,
      "learning_rate": 8.782118327471667e-10,
      "loss": 0.516,
      "step": 4467
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.9514977478740114,
      "learning_rate": 8.119579995991e-10,
      "loss": 0.5786,
      "step": 4468
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.689097984640689,
      "learning_rate": 7.483020803145114e-10,
      "loss": 0.5653,
      "step": 4469
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.002161762857016,
      "learning_rate": 6.872441079747161e-10,
      "loss": 0.5687,
      "step": 4470
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.881246174607053,
      "learning_rate": 6.28784114308223e-10,
      "loss": 0.673,
      "step": 4471
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.428941034865162,
      "learning_rate": 5.729221296951748e-10,
      "loss": 0.4061,
      "step": 4472
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.3011277304058675,
      "learning_rate": 5.196581831656833e-10,
      "loss": 0.6317,
      "step": 4473
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.26481883479761,
      "learning_rate": 4.689923023987186e-10,
      "loss": 0.3786,
      "step": 4474
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.42977856947437,
      "learning_rate": 4.2092451372377496e-10,
      "loss": 0.5872,
      "step": 4475
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.148957590975563,
      "learning_rate": 3.7545484212031525e-10,
      "loss": 0.5028,
      "step": 4476
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.3627354104793756,
      "learning_rate": 3.325833112172161e-10,
      "loss": 0.6851,
      "step": 4477
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.2219541069020687,
      "learning_rate": 2.9230994329332297e-10,
      "loss": 0.4554,
      "step": 4478
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.3720708577769796,
      "learning_rate": 2.5463475927745007e-10,
      "loss": 0.5844,
      "step": 4479
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.048581919505516,
      "learning_rate": 2.1955777874838048e-10,
      "loss": 0.4932,
      "step": 4480
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.9143261232227498,
      "learning_rate": 1.8707901993486598e-10,
      "loss": 0.4517,
      "step": 4481
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.1585678726504893,
      "learning_rate": 1.5719849971396195e-10,
      "loss": 0.5734,
      "step": 4482
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.612261688186051,
      "learning_rate": 1.2991623361435779e-10,
      "loss": 0.747,
      "step": 4483
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.7546859634876997,
      "learning_rate": 1.0523223581304642e-10,
      "loss": 0.5515,
      "step": 4484
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.470084973009786,
      "learning_rate": 8.31465191386549e-11,
      "loss": 0.5045,
      "step": 4485
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.252679397422547,
      "learning_rate": 6.365909506755862e-11,
      "loss": 0.3982,
      "step": 4486
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.369156475364293,
      "learning_rate": 4.676997372665693e-11,
      "loss": 0.613,
      "step": 4487
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.166439192376917,
      "learning_rate": 3.247916389337302e-11,
      "loss": 0.4555,
      "step": 4488
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.0907519658703415,
      "learning_rate": 2.078667299343362e-11,
      "loss": 0.4886,
      "step": 4489
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.356440903377218,
      "learning_rate": 1.1692507103089334e-11,
      "loss": 0.6238,
      "step": 4490
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.084098380744304,
      "learning_rate": 5.19667094911469e-12,
      "loss": 0.5017,
      "step": 4491
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.626410082027878,
      "learning_rate": 1.2991679060325723e-12,
      "loss": 0.6687,
      "step": 4492
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.9012577892622327,
      "learning_rate": 0.0,
      "loss": 0.4821,
      "step": 4493
    },
    {
      "epoch": 1.0,
      "step": 4493,
      "total_flos": 2213846662610944.0,
      "train_loss": 0.5740714494015415,
      "train_runtime": 225558.0081,
      "train_samples_per_second": 2.55,
      "train_steps_per_second": 0.02
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 4493,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "total_flos": 2213846662610944.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}