{
  "best_metric": 1.0,
  "best_model_checkpoint": "phikon_leopard_2/checkpoint-7500",
  "epoch": 25.0,
  "eval_steps": 500,
  "global_step": 7500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 10.40684986114502,
      "learning_rate": 3.3333333333333337e-06,
      "loss": 0.8204,
      "step": 10
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 13.229052543640137,
      "learning_rate": 6.6666666666666675e-06,
      "loss": 0.8376,
      "step": 20
    },
    {
      "epoch": 0.1,
      "grad_norm": 14.727029800415039,
      "learning_rate": 1e-05,
      "loss": 0.8368,
      "step": 30
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 19.26563835144043,
      "learning_rate": 1.3333333333333335e-05,
      "loss": 0.6774,
      "step": 40
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 12.464519500732422,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.6611,
      "step": 50
    },
    {
      "epoch": 0.2,
      "grad_norm": 9.706178665161133,
      "learning_rate": 2e-05,
      "loss": 0.5936,
      "step": 60
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 20.20228385925293,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 0.5647,
      "step": 70
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 9.019632339477539,
      "learning_rate": 2.666666666666667e-05,
      "loss": 0.4235,
      "step": 80
    },
    {
      "epoch": 0.3,
      "grad_norm": 9.443696022033691,
      "learning_rate": 3e-05,
      "loss": 0.3427,
      "step": 90
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 13.720805168151855,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.3335,
      "step": 100
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 32.24056625366211,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 0.2616,
      "step": 110
    },
    {
      "epoch": 0.4,
      "grad_norm": 27.36871910095215,
      "learning_rate": 4e-05,
      "loss": 0.231,
      "step": 120
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 6.440493106842041,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 0.2306,
      "step": 130
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 3.979595422744751,
      "learning_rate": 4.666666666666667e-05,
      "loss": 0.1915,
      "step": 140
    },
    {
      "epoch": 0.5,
      "grad_norm": 14.703475952148438,
      "learning_rate": 5e-05,
      "loss": 0.2146,
      "step": 150
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 12.133000373840332,
      "learning_rate": 5.333333333333334e-05,
      "loss": 0.1677,
      "step": 160
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 3.946819305419922,
      "learning_rate": 5.6666666666666664e-05,
      "loss": 0.1136,
      "step": 170
    },
    {
      "epoch": 0.6,
      "grad_norm": 17.351539611816406,
      "learning_rate": 6e-05,
      "loss": 0.1685,
      "step": 180
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 8.088935852050781,
      "learning_rate": 6.333333333333335e-05,
      "loss": 0.2801,
      "step": 190
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 1.9004828929901123,
      "learning_rate": 6.666666666666667e-05,
      "loss": 0.1142,
      "step": 200
    },
    {
      "epoch": 0.7,
      "grad_norm": 22.632282257080078,
      "learning_rate": 7.000000000000001e-05,
      "loss": 0.1934,
      "step": 210
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 16.069622039794922,
      "learning_rate": 7.333333333333333e-05,
      "loss": 0.2116,
      "step": 220
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 4.640405178070068,
      "learning_rate": 7.666666666666667e-05,
      "loss": 0.2516,
      "step": 230
    },
    {
      "epoch": 0.8,
      "grad_norm": 21.024972915649414,
      "learning_rate": 8e-05,
      "loss": 0.2464,
      "step": 240
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 24.865827560424805,
      "learning_rate": 8.333333333333333e-05,
      "loss": 0.1282,
      "step": 250
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 57.33536911010742,
      "learning_rate": 8.666666666666667e-05,
      "loss": 0.1288,
      "step": 260
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.9938220977783203,
      "learning_rate": 8.999999999999999e-05,
      "loss": 0.0878,
      "step": 270
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 5.010091781616211,
      "learning_rate": 9.333333333333334e-05,
      "loss": 0.0548,
      "step": 280
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 11.914796829223633,
      "learning_rate": 9.666666666666667e-05,
      "loss": 0.1699,
      "step": 290
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.1874632835388184,
      "learning_rate": 0.0001,
      "loss": 0.1314,
      "step": 300
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.965,
      "eval_f1": 0.9650526315789475,
      "eval_kappa": 0.9298878205128205,
      "eval_loss": 0.0974951758980751,
      "eval_precision": 0.9668427370948379,
      "eval_recall": 0.965,
      "eval_runtime": 7.3478,
      "eval_samples_per_second": 54.438,
      "eval_steps_per_second": 2.314,
      "step": 300
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 5.853661060333252,
      "learning_rate": 0.00010333333333333333,
      "loss": 0.1632,
      "step": 310
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 4.40404748916626,
      "learning_rate": 0.00010666666666666668,
      "loss": 0.179,
      "step": 320
    },
    {
      "epoch": 1.1,
      "grad_norm": 13.998967170715332,
      "learning_rate": 0.00011,
      "loss": 0.1205,
      "step": 330
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 2.588562488555908,
      "learning_rate": 0.00011333333333333333,
      "loss": 0.0696,
      "step": 340
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 58.213844299316406,
      "learning_rate": 0.00011666666666666667,
      "loss": 0.185,
      "step": 350
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.5367558598518372,
      "learning_rate": 0.00012,
      "loss": 0.0978,
      "step": 360
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 5.09960412979126,
      "learning_rate": 0.00012333333333333334,
      "loss": 0.0441,
      "step": 370
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 8.864643096923828,
      "learning_rate": 0.0001266666666666667,
      "loss": 0.133,
      "step": 380
    },
    {
      "epoch": 1.3,
      "grad_norm": 18.213979721069336,
      "learning_rate": 0.00013000000000000002,
      "loss": 0.1125,
      "step": 390
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 43.96633529663086,
      "learning_rate": 0.00013333333333333334,
      "loss": 0.081,
      "step": 400
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 16.093639373779297,
      "learning_rate": 0.00013666666666666666,
      "loss": 0.2059,
      "step": 410
    },
    {
      "epoch": 1.4,
      "grad_norm": 5.3681182861328125,
      "learning_rate": 0.00014000000000000001,
      "loss": 0.1092,
      "step": 420
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 22.289615631103516,
      "learning_rate": 0.00014333333333333334,
      "loss": 0.1799,
      "step": 430
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 10.704950332641602,
      "learning_rate": 0.00014666666666666666,
      "loss": 0.0896,
      "step": 440
    },
    {
      "epoch": 1.5,
      "grad_norm": 9.731138229370117,
      "learning_rate": 0.00015,
      "loss": 0.084,
      "step": 450
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 73.84809875488281,
      "learning_rate": 0.00015333333333333334,
      "loss": 0.1068,
      "step": 460
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 11.718538284301758,
      "learning_rate": 0.0001566666666666667,
      "loss": 0.1381,
      "step": 470
    },
    {
      "epoch": 1.6,
      "grad_norm": 6.703563690185547,
      "learning_rate": 0.00016,
      "loss": 0.1447,
      "step": 480
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 0.5254905223846436,
      "learning_rate": 0.00016333333333333334,
      "loss": 0.1534,
      "step": 490
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 15.59839153289795,
      "learning_rate": 0.00016666666666666666,
      "loss": 0.0839,
      "step": 500
    },
    {
      "epoch": 1.7,
      "grad_norm": 51.54722595214844,
      "learning_rate": 0.00017,
      "loss": 0.0946,
      "step": 510
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.4045482277870178,
      "learning_rate": 0.00017333333333333334,
      "loss": 0.1094,
      "step": 520
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 1.8732757568359375,
      "learning_rate": 0.00017666666666666666,
      "loss": 0.0615,
      "step": 530
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.8650341033935547,
      "learning_rate": 0.00017999999999999998,
      "loss": 0.0313,
      "step": 540
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 53.85961151123047,
      "learning_rate": 0.00018333333333333334,
      "loss": 0.2269,
      "step": 550
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 22.627843856811523,
      "learning_rate": 0.0001866666666666667,
      "loss": 0.1654,
      "step": 560
    },
    {
      "epoch": 1.9,
      "grad_norm": 26.226465225219727,
      "learning_rate": 0.00019,
      "loss": 0.0884,
      "step": 570
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 2.285435676574707,
      "learning_rate": 0.00019333333333333333,
      "loss": 0.1131,
      "step": 580
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 25.028507232666016,
      "learning_rate": 0.00019666666666666666,
      "loss": 0.1031,
      "step": 590
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.4155627489089966,
      "learning_rate": 0.0002,
      "loss": 0.0514,
      "step": 600
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924984425244319,
      "eval_kappa": 0.9848973016512284,
      "eval_loss": 0.032248713076114655,
      "eval_precision": 0.9925093802724686,
      "eval_recall": 0.9925,
      "eval_runtime": 7.4789,
      "eval_samples_per_second": 53.484,
      "eval_steps_per_second": 2.273,
      "step": 600
    },
    {
      "epoch": 2.033333333333333,
      "grad_norm": 11.480493545532227,
      "learning_rate": 0.00020333333333333333,
      "loss": 0.1238,
      "step": 610
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 34.10750198364258,
      "learning_rate": 0.00020666666666666666,
      "loss": 0.1613,
      "step": 620
    },
    {
      "epoch": 2.1,
      "grad_norm": 59.7767333984375,
      "learning_rate": 0.00021,
      "loss": 0.153,
      "step": 630
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.030956873670220375,
      "learning_rate": 0.00021333333333333336,
      "loss": 0.0362,
      "step": 640
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.7113701105117798,
      "learning_rate": 0.00021666666666666668,
      "loss": 0.1279,
      "step": 650
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.036753419786691666,
      "learning_rate": 0.00022,
      "loss": 0.0826,
      "step": 660
    },
    {
      "epoch": 2.2333333333333334,
      "grad_norm": 31.153987884521484,
      "learning_rate": 0.00022333333333333333,
      "loss": 0.0544,
      "step": 670
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 41.63099670410156,
      "learning_rate": 0.00022666666666666666,
      "loss": 0.1596,
      "step": 680
    },
    {
      "epoch": 2.3,
      "grad_norm": 16.148771286010742,
      "learning_rate": 0.00023,
      "loss": 0.3149,
      "step": 690
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 3.936267852783203,
      "learning_rate": 0.00023333333333333333,
      "loss": 0.087,
      "step": 700
    },
    {
      "epoch": 2.3666666666666667,
      "grad_norm": 10.360591888427734,
      "learning_rate": 0.00023666666666666668,
      "loss": 0.0539,
      "step": 710
    },
    {
      "epoch": 2.4,
      "grad_norm": 7.021051406860352,
      "learning_rate": 0.00024,
      "loss": 0.1349,
      "step": 720
    },
    {
      "epoch": 2.4333333333333336,
      "grad_norm": 19.7969913482666,
      "learning_rate": 0.00024333333333333336,
      "loss": 0.1902,
      "step": 730
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 3.9114363193511963,
      "learning_rate": 0.0002466666666666667,
      "loss": 0.1267,
      "step": 740
    },
    {
      "epoch": 2.5,
      "grad_norm": 7.794479846954346,
      "learning_rate": 0.00025,
      "loss": 0.06,
      "step": 750
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 6.126293659210205,
      "learning_rate": 0.0002533333333333334,
      "loss": 0.1415,
      "step": 760
    },
    {
      "epoch": 2.5666666666666664,
      "grad_norm": 37.84233474731445,
      "learning_rate": 0.00025666666666666665,
      "loss": 0.1258,
      "step": 770
    },
    {
      "epoch": 2.6,
      "grad_norm": 23.545204162597656,
      "learning_rate": 0.00026000000000000003,
      "loss": 0.171,
      "step": 780
    },
    {
      "epoch": 2.6333333333333333,
      "grad_norm": 28.475013732910156,
      "learning_rate": 0.0002633333333333333,
      "loss": 0.257,
      "step": 790
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 3.5256567001342773,
      "learning_rate": 0.0002666666666666667,
      "loss": 0.0947,
      "step": 800
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.099149703979492,
      "learning_rate": 0.00027,
      "loss": 0.064,
      "step": 810
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.26131123304367065,
      "learning_rate": 0.00027333333333333333,
      "loss": 0.0546,
      "step": 820
    },
    {
      "epoch": 2.7666666666666666,
      "grad_norm": 12.054543495178223,
      "learning_rate": 0.00027666666666666665,
      "loss": 0.0212,
      "step": 830
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.029533645138144493,
      "learning_rate": 0.00028000000000000003,
      "loss": 0.1015,
      "step": 840
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 15.776507377624512,
      "learning_rate": 0.00028333333333333335,
      "loss": 0.0697,
      "step": 850
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 27.243316650390625,
      "learning_rate": 0.0002866666666666667,
      "loss": 0.0792,
      "step": 860
    },
    {
      "epoch": 2.9,
      "grad_norm": 1.336427092552185,
      "learning_rate": 0.00029,
      "loss": 0.0692,
      "step": 870
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.8693376183509827,
      "learning_rate": 0.0002933333333333333,
      "loss": 0.1561,
      "step": 880
    },
    {
      "epoch": 2.966666666666667,
      "grad_norm": 23.98179054260254,
      "learning_rate": 0.0002966666666666667,
      "loss": 0.0723,
      "step": 890
    },
    {
      "epoch": 3.0,
      "grad_norm": 7.080474853515625,
      "learning_rate": 0.0003,
      "loss": 0.0331,
      "step": 900
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.975,
      "eval_f1": 0.9749336434186909,
      "eval_kappa": 0.9494745351657236,
      "eval_loss": 0.07423003017902374,
      "eval_precision": 0.9761061946902655,
      "eval_recall": 0.975,
      "eval_runtime": 7.4439,
      "eval_samples_per_second": 53.735,
      "eval_steps_per_second": 2.284,
      "step": 900
    },
    {
      "epoch": 3.033333333333333,
      "grad_norm": 0.6346681714057922,
      "learning_rate": 0.00030333333333333335,
      "loss": 0.0951,
      "step": 910
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 5.4937262535095215,
      "learning_rate": 0.0003066666666666667,
      "loss": 0.0309,
      "step": 920
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.28873440623283386,
      "learning_rate": 0.00031,
      "loss": 0.0722,
      "step": 930
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 23.229862213134766,
      "learning_rate": 0.0003133333333333334,
      "loss": 0.1332,
      "step": 940
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 12.44790267944336,
      "learning_rate": 0.00031666666666666665,
      "loss": 0.1945,
      "step": 950
    },
    {
      "epoch": 3.2,
      "grad_norm": 24.034635543823242,
      "learning_rate": 0.00032,
      "loss": 0.0665,
      "step": 960
    },
    {
      "epoch": 3.2333333333333334,
      "grad_norm": 4.845742225646973,
      "learning_rate": 0.0003233333333333333,
      "loss": 0.1132,
      "step": 970
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 13.879509925842285,
      "learning_rate": 0.0003266666666666667,
      "loss": 0.1168,
      "step": 980
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.8819650411605835,
      "learning_rate": 0.00033,
      "loss": 0.03,
      "step": 990
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 20.817033767700195,
      "learning_rate": 0.0003333333333333333,
      "loss": 0.1599,
      "step": 1000
    },
    {
      "epoch": 3.3666666666666667,
      "grad_norm": 0.08637402951717377,
      "learning_rate": 0.0003366666666666667,
      "loss": 0.0989,
      "step": 1010
    },
    {
      "epoch": 3.4,
      "grad_norm": 12.32111644744873,
      "learning_rate": 0.00034,
      "loss": 0.064,
      "step": 1020
    },
    {
      "epoch": 3.4333333333333336,
      "grad_norm": 4.319044589996338,
      "learning_rate": 0.00034333333333333335,
      "loss": 0.1845,
      "step": 1030
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 4.642833232879639,
      "learning_rate": 0.00034666666666666667,
      "loss": 0.0245,
      "step": 1040
    },
    {
      "epoch": 3.5,
      "grad_norm": 4.123671531677246,
      "learning_rate": 0.00035,
      "loss": 0.0534,
      "step": 1050
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 39.12535858154297,
      "learning_rate": 0.0003533333333333333,
      "loss": 0.2904,
      "step": 1060
    },
    {
      "epoch": 3.5666666666666664,
      "grad_norm": 0.37203097343444824,
      "learning_rate": 0.0003566666666666667,
      "loss": 0.1135,
      "step": 1070
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.8821052312850952,
      "learning_rate": 0.00035999999999999997,
      "loss": 0.1018,
      "step": 1080
    },
    {
      "epoch": 3.6333333333333333,
      "grad_norm": 16.677507400512695,
      "learning_rate": 0.00036333333333333335,
      "loss": 0.1235,
      "step": 1090
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 1.3173631429672241,
      "learning_rate": 0.00036666666666666667,
      "loss": 0.0596,
      "step": 1100
    },
    {
      "epoch": 3.7,
      "grad_norm": 1.2510654926300049,
      "learning_rate": 0.00037,
      "loss": 0.0666,
      "step": 1110
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 14.92336654663086,
      "learning_rate": 0.0003733333333333334,
      "loss": 0.1338,
      "step": 1120
    },
    {
      "epoch": 3.7666666666666666,
      "grad_norm": 39.0262336730957,
      "learning_rate": 0.00037666666666666664,
      "loss": 0.0891,
      "step": 1130
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.018070606514811516,
      "learning_rate": 0.00038,
      "loss": 0.031,
      "step": 1140
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 22.499074935913086,
      "learning_rate": 0.00038333333333333334,
      "loss": 0.0426,
      "step": 1150
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 8.244810104370117,
      "learning_rate": 0.00038666666666666667,
      "loss": 0.0845,
      "step": 1160
    },
    {
      "epoch": 3.9,
      "grad_norm": 2.2742626667022705,
      "learning_rate": 0.00039000000000000005,
      "loss": 0.0561,
      "step": 1170
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 0.7521847486495972,
      "learning_rate": 0.0003933333333333333,
      "loss": 0.0572,
      "step": 1180
    },
    {
      "epoch": 3.966666666666667,
      "grad_norm": 0.09927993267774582,
      "learning_rate": 0.0003966666666666667,
      "loss": 0.1111,
      "step": 1190
    },
    {
      "epoch": 4.0,
      "grad_norm": 18.968303680419922,
      "learning_rate": 0.0004,
      "loss": 0.1484,
      "step": 1200
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.99,
      "eval_f1": 0.989990926504688,
      "eval_kappa": 0.9798387096774194,
      "eval_loss": 0.04373510926961899,
      "eval_precision": 0.9901818181818182,
      "eval_recall": 0.99,
      "eval_runtime": 7.4926,
      "eval_samples_per_second": 53.386,
      "eval_steps_per_second": 2.269,
      "step": 1200
    },
    {
      "epoch": 4.033333333333333,
      "grad_norm": 25.371929168701172,
      "learning_rate": 0.00040333333333333334,
      "loss": 0.0635,
      "step": 1210
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 14.979025840759277,
      "learning_rate": 0.00040666666666666667,
      "loss": 0.2519,
      "step": 1220
    },
    {
      "epoch": 4.1,
      "grad_norm": 12.460908889770508,
      "learning_rate": 0.00041,
      "loss": 0.1177,
      "step": 1230
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 1.3772943019866943,
      "learning_rate": 0.0004133333333333333,
      "loss": 0.0524,
      "step": 1240
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 29.62944221496582,
      "learning_rate": 0.0004166666666666667,
      "loss": 0.0839,
      "step": 1250
    },
    {
      "epoch": 4.2,
      "grad_norm": 15.755326271057129,
      "learning_rate": 0.00042,
      "loss": 0.2239,
      "step": 1260
    },
    {
      "epoch": 4.233333333333333,
      "grad_norm": 2.076596975326538,
      "learning_rate": 0.00042333333333333334,
      "loss": 0.0918,
      "step": 1270
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 3.272007703781128,
      "learning_rate": 0.0004266666666666667,
      "loss": 0.0529,
      "step": 1280
    },
    {
      "epoch": 4.3,
      "grad_norm": 1.8795185089111328,
      "learning_rate": 0.00043,
      "loss": 0.069,
      "step": 1290
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.2725735902786255,
      "learning_rate": 0.00043333333333333337,
      "loss": 0.0404,
      "step": 1300
    },
    {
      "epoch": 4.366666666666666,
      "grad_norm": 28.226680755615234,
      "learning_rate": 0.00043666666666666664,
      "loss": 0.0561,
      "step": 1310
    },
    {
      "epoch": 4.4,
      "grad_norm": 5.252725601196289,
      "learning_rate": 0.00044,
      "loss": 0.1038,
      "step": 1320
    },
    {
      "epoch": 4.433333333333334,
      "grad_norm": 1.2938400506973267,
      "learning_rate": 0.00044333333333333334,
      "loss": 0.2152,
      "step": 1330
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 9.768004417419434,
      "learning_rate": 0.00044666666666666666,
      "loss": 0.0891,
      "step": 1340
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.7659115791320801,
      "learning_rate": 0.00045000000000000004,
      "loss": 0.0769,
      "step": 1350
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.8454284071922302,
      "learning_rate": 0.0004533333333333333,
      "loss": 0.0795,
      "step": 1360
    },
    {
      "epoch": 4.566666666666666,
      "grad_norm": 19.232542037963867,
      "learning_rate": 0.0004566666666666667,
      "loss": 0.0874,
      "step": 1370
    },
    {
      "epoch": 4.6,
      "grad_norm": 20.568710327148438,
      "learning_rate": 0.00046,
      "loss": 0.0861,
      "step": 1380
    },
    {
      "epoch": 4.633333333333333,
      "grad_norm": 14.232442855834961,
      "learning_rate": 0.00046333333333333334,
      "loss": 0.0653,
      "step": 1390
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.21883870661258698,
      "learning_rate": 0.00046666666666666666,
      "loss": 0.0606,
      "step": 1400
    },
    {
      "epoch": 4.7,
      "grad_norm": 6.472827911376953,
      "learning_rate": 0.00047,
      "loss": 0.0891,
      "step": 1410
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 4.268059253692627,
      "learning_rate": 0.00047333333333333336,
      "loss": 0.0715,
      "step": 1420
    },
    {
      "epoch": 4.766666666666667,
      "grad_norm": 1.4576590061187744,
      "learning_rate": 0.0004766666666666667,
      "loss": 0.1292,
      "step": 1430
    },
    {
      "epoch": 4.8,
      "grad_norm": 36.225502014160156,
      "learning_rate": 0.00048,
      "loss": 0.154,
      "step": 1440
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.5948257446289062,
      "learning_rate": 0.00048333333333333334,
      "loss": 0.0321,
      "step": 1450
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 0.3781585693359375,
      "learning_rate": 0.0004866666666666667,
      "loss": 0.0378,
      "step": 1460
    },
    {
      "epoch": 4.9,
      "grad_norm": 16.30947494506836,
      "learning_rate": 0.00049,
      "loss": 0.1035,
      "step": 1470
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 12.747450828552246,
      "learning_rate": 0.0004933333333333334,
      "loss": 0.0539,
      "step": 1480
    },
    {
      "epoch": 4.966666666666667,
      "grad_norm": 20.051815032958984,
      "learning_rate": 0.0004966666666666666,
      "loss": 0.097,
      "step": 1490
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.6473357677459717,
      "learning_rate": 0.0005,
      "loss": 0.1261,
      "step": 1500
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924984425244319,
      "eval_kappa": 0.9848973016512284,
      "eval_loss": 0.04971776530146599,
      "eval_precision": 0.9925093802724686,
      "eval_recall": 0.9925,
      "eval_runtime": 7.2832,
      "eval_samples_per_second": 54.921,
      "eval_steps_per_second": 2.334,
      "step": 1500
    },
    {
      "epoch": 5.033333333333333,
      "grad_norm": 0.21915239095687866,
      "learning_rate": 0.0004999995468502563,
      "loss": 0.1911,
      "step": 1510
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 4.358417987823486,
      "learning_rate": 0.0004999981874026677,
      "loss": 0.1721,
      "step": 1520
    },
    {
      "epoch": 5.1,
      "grad_norm": 2.60898756980896,
      "learning_rate": 0.0004999959216621625,
      "loss": 0.0663,
      "step": 1530
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 2.521845579147339,
      "learning_rate": 0.0004999927496369547,
      "loss": 0.0661,
      "step": 1540
    },
    {
      "epoch": 5.166666666666667,
      "grad_norm": 17.43767547607422,
      "learning_rate": 0.0004999886713385432,
      "loss": 0.0643,
      "step": 1550
    },
    {
      "epoch": 5.2,
      "grad_norm": 10.015254974365234,
      "learning_rate": 0.000499983686781713,
      "loss": 0.1634,
      "step": 1560
    },
    {
      "epoch": 5.233333333333333,
      "grad_norm": 14.734820365905762,
      "learning_rate": 0.0004999777959845337,
      "loss": 0.0929,
      "step": 1570
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 18.222352981567383,
      "learning_rate": 0.0004999709989683607,
      "loss": 0.1415,
      "step": 1580
    },
    {
      "epoch": 5.3,
      "grad_norm": 4.770617961883545,
      "learning_rate": 0.0004999632957578349,
      "loss": 0.0573,
      "step": 1590
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 31.683618545532227,
      "learning_rate": 0.0004999546863808815,
      "loss": 0.129,
      "step": 1600
    },
    {
      "epoch": 5.366666666666666,
      "grad_norm": 0.03848810866475105,
      "learning_rate": 0.0004999451708687113,
      "loss": 0.0678,
      "step": 1610
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.01938723959028721,
      "learning_rate": 0.0004999347492558202,
      "loss": 0.1103,
      "step": 1620
    },
    {
      "epoch": 5.433333333333334,
      "grad_norm": 12.235125541687012,
      "learning_rate": 0.0004999234215799884,
      "loss": 0.2061,
      "step": 1630
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 3.241697311401367,
      "learning_rate": 0.0004999111878822808,
      "loss": 0.0229,
      "step": 1640
    },
    {
      "epoch": 5.5,
      "grad_norm": 18.129112243652344,
      "learning_rate": 0.0004998980482070473,
      "loss": 0.1596,
      "step": 1650
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.8510303497314453,
      "learning_rate": 0.0004998840026019216,
      "loss": 0.0243,
      "step": 1660
    },
    {
      "epoch": 5.566666666666666,
      "grad_norm": 0.5481222867965698,
      "learning_rate": 0.000499869051117822,
      "loss": 0.0365,
      "step": 1670
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.0010958850616589189,
      "learning_rate": 0.0004998531938089503,
      "loss": 0.1484,
      "step": 1680
    },
    {
      "epoch": 5.633333333333333,
      "grad_norm": 8.034405708312988,
      "learning_rate": 0.0004998364307327927,
      "loss": 0.0568,
      "step": 1690
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 2.918168544769287,
      "learning_rate": 0.0004998187619501184,
      "loss": 0.0234,
      "step": 1700
    },
    {
      "epoch": 5.7,
      "grad_norm": 7.948535442352295,
      "learning_rate": 0.0004998001875249804,
      "loss": 0.0457,
      "step": 1710
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 1.4337245225906372,
      "learning_rate": 0.0004997807075247146,
      "loss": 0.1755,
      "step": 1720
    },
    {
      "epoch": 5.766666666666667,
      "grad_norm": 0.09344102442264557,
      "learning_rate": 0.0004997603220199398,
      "loss": 0.0266,
      "step": 1730
    },
    {
      "epoch": 5.8,
      "grad_norm": 29.620872497558594,
      "learning_rate": 0.0004997390310845578,
      "loss": 0.1196,
      "step": 1740
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.45817267894744873,
      "learning_rate": 0.000499716834795752,
      "loss": 0.0245,
      "step": 1750
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 22.253326416015625,
      "learning_rate": 0.0004996937332339887,
      "loss": 0.1039,
      "step": 1760
    },
    {
      "epoch": 5.9,
      "grad_norm": 20.02093505859375,
      "learning_rate": 0.0004996697264830153,
      "loss": 0.0605,
      "step": 1770
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 6.386890888214111,
      "learning_rate": 0.0004996448146298614,
      "loss": 0.0826,
      "step": 1780
    },
    {
      "epoch": 5.966666666666667,
      "grad_norm": 1.342224359512329,
      "learning_rate": 0.0004996189977648372,
      "loss": 0.0278,
      "step": 1790
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.06541286408901215,
      "learning_rate": 0.0004995922759815339,
      "loss": 0.0965,
      "step": 1800
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.99,
      "eval_f1": 0.9900037712130737,
      "eval_kappa": 0.9798873692679002,
      "eval_loss": 0.031534310430288315,
      "eval_precision": 0.990057280675309,
      "eval_recall": 0.99,
      "eval_runtime": 7.3582,
      "eval_samples_per_second": 54.361,
      "eval_steps_per_second": 2.31,
      "step": 1800
    },
    {
      "epoch": 6.033333333333333,
      "grad_norm": 11.891799926757812,
      "learning_rate": 0.0004995646493768233,
      "loss": 0.1096,
      "step": 1810
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 4.773056507110596,
      "learning_rate": 0.0004995361180508575,
      "loss": 0.0887,
      "step": 1820
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.0633956715464592,
      "learning_rate": 0.0004995066821070679,
      "loss": 0.0595,
      "step": 1830
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 1.1848310232162476,
      "learning_rate": 0.0004994763416521659,
      "loss": 0.0457,
      "step": 1840
    },
    {
      "epoch": 6.166666666666667,
      "grad_norm": 1.9995553493499756,
      "learning_rate": 0.0004994450967961413,
      "loss": 0.081,
      "step": 1850
    },
    {
      "epoch": 6.2,
      "grad_norm": 6.867255210876465,
      "learning_rate": 0.0004994129476522632,
      "loss": 0.0517,
      "step": 1860
    },
    {
      "epoch": 6.233333333333333,
      "grad_norm": 20.199514389038086,
      "learning_rate": 0.0004993798943370785,
      "loss": 0.0343,
      "step": 1870
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.19586598873138428,
      "learning_rate": 0.0004993459369704121,
      "loss": 0.0611,
      "step": 1880
    },
    {
      "epoch": 6.3,
      "grad_norm": 21.155536651611328,
      "learning_rate": 0.0004993110756753659,
      "loss": 0.021,
      "step": 1890
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 3.191210985183716,
      "learning_rate": 0.0004992753105783193,
      "loss": 0.2308,
      "step": 1900
    },
    {
      "epoch": 6.366666666666666,
      "grad_norm": 0.9887709617614746,
      "learning_rate": 0.0004992386418089279,
      "loss": 0.0864,
      "step": 1910
    },
    {
      "epoch": 6.4,
      "grad_norm": 27.715328216552734,
      "learning_rate": 0.0004992010695001229,
      "loss": 0.1266,
      "step": 1920
    },
    {
      "epoch": 6.433333333333334,
      "grad_norm": 10.004547119140625,
      "learning_rate": 0.0004991625937881116,
      "loss": 0.0841,
      "step": 1930
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 0.22679829597473145,
      "learning_rate": 0.0004991232148123761,
      "loss": 0.0279,
      "step": 1940
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.405646950006485,
      "learning_rate": 0.0004990829327156728,
      "loss": 0.0645,
      "step": 1950
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 14.19960880279541,
      "learning_rate": 0.0004990417476440325,
      "loss": 0.0783,
      "step": 1960
    },
    {
      "epoch": 6.566666666666666,
      "grad_norm": 10.112009048461914,
      "learning_rate": 0.0004989996597467591,
      "loss": 0.0241,
      "step": 1970
    },
    {
      "epoch": 6.6,
      "grad_norm": 34.6565055847168,
      "learning_rate": 0.0004989566691764295,
      "loss": 0.0517,
      "step": 1980
    },
    {
      "epoch": 6.633333333333333,
      "grad_norm": 0.17711442708969116,
      "learning_rate": 0.0004989127760888931,
      "loss": 0.0669,
      "step": 1990
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 8.408811569213867,
      "learning_rate": 0.0004988679806432712,
      "loss": 0.0336,
      "step": 2000
    },
    {
      "epoch": 6.7,
      "grad_norm": 0.44612711668014526,
      "learning_rate": 0.0004988222830019559,
      "loss": 0.0445,
      "step": 2010
    },
    {
      "epoch": 6.733333333333333,
      "grad_norm": 19.24823570251465,
      "learning_rate": 0.0004987756833306102,
      "loss": 0.0573,
      "step": 2020
    },
    {
      "epoch": 6.766666666666667,
      "grad_norm": 3.0871477127075195,
      "learning_rate": 0.0004987281817981674,
      "loss": 0.0759,
      "step": 2030
    },
    {
      "epoch": 6.8,
      "grad_norm": 9.81881332397461,
      "learning_rate": 0.0004986797785768297,
      "loss": 0.0194,
      "step": 2040
    },
    {
      "epoch": 6.833333333333333,
      "grad_norm": 0.020128833130002022,
      "learning_rate": 0.0004986304738420684,
      "loss": 0.1081,
      "step": 2050
    },
    {
      "epoch": 6.866666666666667,
      "grad_norm": 14.229121208190918,
      "learning_rate": 0.000498580267772623,
      "loss": 0.1216,
      "step": 2060
    },
    {
      "epoch": 6.9,
      "grad_norm": 10.793590545654297,
      "learning_rate": 0.0004985291605505004,
      "loss": 0.0393,
      "step": 2070
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 34.25983428955078,
      "learning_rate": 0.0004984771523609743,
      "loss": 0.1162,
      "step": 2080
    },
    {
      "epoch": 6.966666666666667,
      "grad_norm": 1.280573844909668,
      "learning_rate": 0.0004984242433925849,
      "loss": 0.0228,
      "step": 2090
    },
    {
      "epoch": 7.0,
      "grad_norm": 5.426878452301025,
      "learning_rate": 0.0004983704338371376,
      "loss": 0.0198,
      "step": 2100
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.995,
      "eval_f1": 0.9949978595351413,
      "eval_kappa": 0.9899274778404512,
      "eval_loss": 0.013717448338866234,
      "eval_precision": 0.9950458715596331,
      "eval_recall": 0.995,
      "eval_runtime": 7.3893,
      "eval_samples_per_second": 54.132,
      "eval_steps_per_second": 2.301,
      "step": 2100
    },
    {
      "epoch": 7.033333333333333,
      "grad_norm": 0.8536394238471985,
      "learning_rate": 0.0004983157238897026,
      "loss": 0.0459,
      "step": 2110
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 11.758991241455078,
      "learning_rate": 0.0004982601137486143,
      "loss": 0.0732,
      "step": 2120
    },
    {
      "epoch": 7.1,
      "grad_norm": 0.6861909627914429,
      "learning_rate": 0.0004982036036154706,
      "loss": 0.1708,
      "step": 2130
    },
    {
      "epoch": 7.133333333333334,
      "grad_norm": 0.11518755555152893,
      "learning_rate": 0.0004981461936951319,
      "loss": 0.0295,
      "step": 2140
    },
    {
      "epoch": 7.166666666666667,
      "grad_norm": 0.07353509962558746,
      "learning_rate": 0.0004980878841957203,
      "loss": 0.0511,
      "step": 2150
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.008462195284664631,
      "learning_rate": 0.0004980286753286195,
      "loss": 0.0061,
      "step": 2160
    },
    {
      "epoch": 7.233333333333333,
      "grad_norm": 1.4422004222869873,
      "learning_rate": 0.0004979685673084733,
      "loss": 0.0977,
      "step": 2170
    },
    {
      "epoch": 7.266666666666667,
      "grad_norm": 0.00832983199506998,
      "learning_rate": 0.0004979075603531852,
      "loss": 0.0615,
      "step": 2180
    },
    {
      "epoch": 7.3,
      "grad_norm": 8.086910247802734,
      "learning_rate": 0.0004978456546839174,
      "loss": 0.0474,
      "step": 2190
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 10.531082153320312,
      "learning_rate": 0.0004977828505250904,
      "loss": 0.0291,
      "step": 2200
    },
    {
      "epoch": 7.366666666666666,
      "grad_norm": 0.0030356640927493572,
      "learning_rate": 0.0004977191481043814,
      "loss": 0.0801,
      "step": 2210
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.24155472218990326,
      "learning_rate": 0.0004976545476527245,
      "loss": 0.0406,
      "step": 2220
    },
    {
      "epoch": 7.433333333333334,
      "grad_norm": 14.044878959655762,
      "learning_rate": 0.0004975890494043092,
      "loss": 0.2774,
      "step": 2230
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 15.277134895324707,
      "learning_rate": 0.0004975226535965794,
      "loss": 0.0467,
      "step": 2240
    },
    {
      "epoch": 7.5,
      "grad_norm": 11.408771514892578,
      "learning_rate": 0.0004974553604702333,
      "loss": 0.1214,
      "step": 2250
    },
    {
      "epoch": 7.533333333333333,
      "grad_norm": 25.75912857055664,
      "learning_rate": 0.0004973871702692214,
      "loss": 0.0689,
      "step": 2260
    },
    {
      "epoch": 7.566666666666666,
      "grad_norm": 5.471491813659668,
      "learning_rate": 0.0004973180832407472,
      "loss": 0.004,
      "step": 2270
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.7957646250724792,
      "learning_rate": 0.0004972480996352644,
      "loss": 0.1066,
      "step": 2280
    },
    {
      "epoch": 7.633333333333333,
      "grad_norm": 0.13768936693668365,
      "learning_rate": 0.0004971772197064775,
      "loss": 0.0636,
      "step": 2290
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.004563705530017614,
      "learning_rate": 0.0004971054437113406,
      "loss": 0.0168,
      "step": 2300
    },
    {
      "epoch": 7.7,
      "grad_norm": 24.983537673950195,
      "learning_rate": 0.0004970327719100556,
      "loss": 0.0853,
      "step": 2310
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 2.120246648788452,
      "learning_rate": 0.0004969592045660722,
      "loss": 0.0859,
      "step": 2320
    },
    {
      "epoch": 7.766666666666667,
      "grad_norm": 15.012920379638672,
      "learning_rate": 0.0004968847419460867,
      "loss": 0.0281,
      "step": 2330
    },
    {
      "epoch": 7.8,
      "grad_norm": 12.018982887268066,
      "learning_rate": 0.0004968093843200407,
      "loss": 0.0273,
      "step": 2340
    },
    {
      "epoch": 7.833333333333333,
      "grad_norm": 14.459258079528809,
      "learning_rate": 0.0004967331319611206,
      "loss": 0.1001,
      "step": 2350
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 27.96418571472168,
      "learning_rate": 0.0004966559851457562,
      "loss": 0.0954,
      "step": 2360
    },
    {
      "epoch": 7.9,
      "grad_norm": 0.1574789136648178,
      "learning_rate": 0.0004965779441536201,
      "loss": 0.0795,
      "step": 2370
    },
    {
      "epoch": 7.933333333333334,
      "grad_norm": 0.44669950008392334,
      "learning_rate": 0.0004964990092676262,
      "loss": 0.03,
      "step": 2380
    },
    {
      "epoch": 7.966666666666667,
      "grad_norm": 0.3899398446083069,
      "learning_rate": 0.0004964191807739293,
      "loss": 0.0459,
      "step": 2390
    },
    {
      "epoch": 8.0,
      "grad_norm": 2.4037952423095703,
      "learning_rate": 0.0004963384589619233,
      "loss": 0.016,
      "step": 2400
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924984425244319,
      "eval_kappa": 0.9848973016512284,
      "eval_loss": 0.009391581639647484,
      "eval_precision": 0.9925093802724686,
      "eval_recall": 0.9925,
      "eval_runtime": 7.3286,
      "eval_samples_per_second": 54.581,
      "eval_steps_per_second": 2.32,
      "step": 2400
    },
    {
      "epoch": 8.033333333333333,
      "grad_norm": 18.691381454467773,
      "learning_rate": 0.0004962568441242408,
      "loss": 0.0886,
      "step": 2410
    },
    {
      "epoch": 8.066666666666666,
      "grad_norm": 0.7050238251686096,
      "learning_rate": 0.0004961743365567517,
      "loss": 0.0191,
      "step": 2420
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.16664516925811768,
      "learning_rate": 0.0004960909365585624,
      "loss": 0.0635,
      "step": 2430
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 0.9202438592910767,
      "learning_rate": 0.0004960066444320143,
      "loss": 0.0296,
      "step": 2440
    },
    {
      "epoch": 8.166666666666666,
      "grad_norm": 0.17928561568260193,
      "learning_rate": 0.0004959214604826831,
      "loss": 0.0237,
      "step": 2450
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.00436717364937067,
      "learning_rate": 0.0004958353850193773,
      "loss": 0.0007,
      "step": 2460
    },
    {
      "epoch": 8.233333333333333,
      "grad_norm": 23.427932739257812,
      "learning_rate": 0.0004957484183541377,
      "loss": 0.0538,
      "step": 2470
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.4889396131038666,
      "learning_rate": 0.0004956605608022357,
      "loss": 0.091,
      "step": 2480
    },
    {
      "epoch": 8.3,
      "grad_norm": 53.982887268066406,
      "learning_rate": 0.0004955718126821722,
      "loss": 0.0239,
      "step": 2490
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.060606587678194046,
      "learning_rate": 0.0004954821743156767,
      "loss": 0.0367,
      "step": 2500
    },
    {
      "epoch": 8.366666666666667,
      "grad_norm": 0.0266529843211174,
      "learning_rate": 0.000495391646027706,
      "loss": 0.0489,
      "step": 2510
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.733482301235199,
      "learning_rate": 0.0004953002281464432,
      "loss": 0.1085,
      "step": 2520
    },
    {
      "epoch": 8.433333333333334,
      "grad_norm": 0.002645180793479085,
      "learning_rate": 0.0004952079210032961,
      "loss": 0.0542,
      "step": 2530
    },
    {
      "epoch": 8.466666666666667,
      "grad_norm": 0.02045312523841858,
      "learning_rate": 0.0004951147249328964,
      "loss": 0.1004,
      "step": 2540
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.25311747193336487,
      "learning_rate": 0.0004950206402730983,
      "loss": 0.0064,
      "step": 2550
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 14.137146949768066,
      "learning_rate": 0.0004949256673649774,
      "loss": 0.0736,
      "step": 2560
    },
    {
      "epoch": 8.566666666666666,
      "grad_norm": 18.044233322143555,
      "learning_rate": 0.0004948298065528292,
      "loss": 0.043,
      "step": 2570
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.20478780567646027,
      "learning_rate": 0.000494733058184168,
      "loss": 0.0476,
      "step": 2580
    },
    {
      "epoch": 8.633333333333333,
      "grad_norm": 0.0009861149592325091,
      "learning_rate": 0.0004946354226097261,
      "loss": 0.0541,
      "step": 2590
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 4.064932346343994,
      "learning_rate": 0.0004945369001834514,
      "loss": 0.015,
      "step": 2600
    },
    {
      "epoch": 8.7,
      "grad_norm": 12.540112495422363,
      "learning_rate": 0.0004944374912625076,
      "loss": 0.0594,
      "step": 2610
    },
    {
      "epoch": 8.733333333333333,
      "grad_norm": 0.008549841120839119,
      "learning_rate": 0.0004943371962072713,
      "loss": 0.0707,
      "step": 2620
    },
    {
      "epoch": 8.766666666666667,
      "grad_norm": 1.925380825996399,
      "learning_rate": 0.0004942360153813324,
      "loss": 0.0297,
      "step": 2630
    },
    {
      "epoch": 8.8,
      "grad_norm": 1.1041579246520996,
      "learning_rate": 0.0004941339491514909,
      "loss": 0.0976,
      "step": 2640
    },
    {
      "epoch": 8.833333333333334,
      "grad_norm": 0.7771681547164917,
      "learning_rate": 0.0004940309978877575,
      "loss": 0.0169,
      "step": 2650
    },
    {
      "epoch": 8.866666666666667,
      "grad_norm": 11.451831817626953,
      "learning_rate": 0.0004939271619633507,
      "loss": 0.0108,
      "step": 2660
    },
    {
      "epoch": 8.9,
      "grad_norm": 0.0025792683009058237,
      "learning_rate": 0.0004938224417546965,
      "loss": 0.0252,
      "step": 2670
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 0.5602428317070007,
      "learning_rate": 0.0004937168376414261,
      "loss": 0.0203,
      "step": 2680
    },
    {
      "epoch": 8.966666666666667,
      "grad_norm": 0.026095090433955193,
      "learning_rate": 0.0004936103500063755,
      "loss": 0.0331,
      "step": 2690
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.06067637726664543,
      "learning_rate": 0.0004935029792355834,
      "loss": 0.1923,
      "step": 2700
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.9875,
      "eval_f1": 0.9875068327898516,
      "eval_kappa": 0.9748693204664254,
      "eval_loss": 0.028073739260435104,
      "eval_precision": 0.987625216539881,
      "eval_recall": 0.9875,
      "eval_runtime": 7.3626,
      "eval_samples_per_second": 54.329,
      "eval_steps_per_second": 2.309,
      "step": 2700
    },
    {
      "epoch": 9.033333333333333,
      "grad_norm": 0.19523067772388458,
      "learning_rate": 0.0004933947257182901,
      "loss": 0.0199,
      "step": 2710
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 3.053314208984375,
      "learning_rate": 0.000493285589846936,
      "loss": 0.0068,
      "step": 2720
    },
    {
      "epoch": 9.1,
      "grad_norm": 0.22583183646202087,
      "learning_rate": 0.0004931755720171603,
      "loss": 0.0929,
      "step": 2730
    },
    {
      "epoch": 9.133333333333333,
      "grad_norm": 0.2969551086425781,
      "learning_rate": 0.0004930646726277994,
      "loss": 0.0073,
      "step": 2740
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 1.7761553525924683,
      "learning_rate": 0.0004929528920808855,
      "loss": 0.0699,
      "step": 2750
    },
    {
      "epoch": 9.2,
      "grad_norm": 35.166629791259766,
      "learning_rate": 0.0004928402307816451,
      "loss": 0.0186,
      "step": 2760
    },
    {
      "epoch": 9.233333333333333,
      "grad_norm": 2.6943020820617676,
      "learning_rate": 0.000492726689138498,
      "loss": 0.0249,
      "step": 2770
    },
    {
      "epoch": 9.266666666666667,
      "grad_norm": 15.054105758666992,
      "learning_rate": 0.0004926122675630548,
      "loss": 0.04,
      "step": 2780
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.00670548714697361,
      "learning_rate": 0.0004924969664701168,
      "loss": 0.0222,
      "step": 2790
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 3.6571757793426514,
      "learning_rate": 0.0004923807862776728,
      "loss": 0.0185,
      "step": 2800
    },
    {
      "epoch": 9.366666666666667,
      "grad_norm": 0.4846095144748688,
      "learning_rate": 0.0004922637274068993,
      "loss": 0.0069,
      "step": 2810
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.04100838676095009,
      "learning_rate": 0.0004921457902821578,
      "loss": 0.0038,
      "step": 2820
    },
    {
      "epoch": 9.433333333333334,
      "grad_norm": 0.06146049499511719,
      "learning_rate": 0.0004920269753309937,
      "loss": 0.0594,
      "step": 2830
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 32.66959762573242,
      "learning_rate": 0.0004919072829841347,
      "loss": 0.0733,
      "step": 2840
    },
    {
      "epoch": 9.5,
      "grad_norm": 13.61474609375,
      "learning_rate": 0.0004917867136754893,
      "loss": 0.1538,
      "step": 2850
    },
    {
      "epoch": 9.533333333333333,
      "grad_norm": 0.23982226848602295,
      "learning_rate": 0.000491665267842145,
      "loss": 0.1145,
      "step": 2860
    },
    {
      "epoch": 9.566666666666666,
      "grad_norm": 4.305579662322998,
      "learning_rate": 0.0004915429459243672,
      "loss": 0.0113,
      "step": 2870
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.8647874593734741,
      "learning_rate": 0.000491419748365597,
      "loss": 0.1841,
      "step": 2880
    },
    {
      "epoch": 9.633333333333333,
      "grad_norm": 9.716819763183594,
      "learning_rate": 0.0004912956756124498,
      "loss": 0.0264,
      "step": 2890
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 7.745243549346924,
      "learning_rate": 0.000491170728114714,
      "loss": 0.0088,
      "step": 2900
    },
    {
      "epoch": 9.7,
      "grad_norm": 1.824566125869751,
      "learning_rate": 0.0004910449063253489,
      "loss": 0.0947,
      "step": 2910
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 1.2929129600524902,
      "learning_rate": 0.0004909182107004834,
      "loss": 0.0421,
      "step": 2920
    },
    {
      "epoch": 9.766666666666667,
      "grad_norm": 4.2170281410217285,
      "learning_rate": 0.0004907906416994146,
      "loss": 0.1019,
      "step": 2930
    },
    {
      "epoch": 9.8,
      "grad_norm": 1.5145924091339111,
      "learning_rate": 0.0004906621997846049,
      "loss": 0.0748,
      "step": 2940
    },
    {
      "epoch": 9.833333333333334,
      "grad_norm": 29.543188095092773,
      "learning_rate": 0.0004905328854216818,
      "loss": 0.0423,
      "step": 2950
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 0.030437791720032692,
      "learning_rate": 0.0004904026990794355,
      "loss": 0.0316,
      "step": 2960
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.0006298078806139529,
      "learning_rate": 0.0004902716412298174,
      "loss": 0.0251,
      "step": 2970
    },
    {
      "epoch": 9.933333333333334,
      "grad_norm": 0.7163373231887817,
      "learning_rate": 0.000490139712347938,
      "loss": 0.0319,
      "step": 2980
    },
    {
      "epoch": 9.966666666666667,
      "grad_norm": 1.6022979021072388,
      "learning_rate": 0.0004900069129120655,
      "loss": 0.0531,
      "step": 2990
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.18895569443702698,
      "learning_rate": 0.0004898732434036243,
      "loss": 0.0318,
      "step": 3000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.995,
      "eval_f1": 0.9949978595351413,
      "eval_kappa": 0.9899274778404512,
      "eval_loss": 0.02089308761060238,
      "eval_precision": 0.9950458715596331,
      "eval_recall": 0.995,
      "eval_runtime": 7.4318,
      "eval_samples_per_second": 53.823,
      "eval_steps_per_second": 2.287,
      "step": 3000
    },
    {
      "epoch": 10.033333333333333,
      "grad_norm": 17.70781135559082,
      "learning_rate": 0.000489738704307193,
      "loss": 0.0229,
      "step": 3010
    },
    {
      "epoch": 10.066666666666666,
      "grad_norm": 0.03209957107901573,
      "learning_rate": 0.000489603296110502,
      "loss": 0.0077,
      "step": 3020
    },
    {
      "epoch": 10.1,
      "grad_norm": 1.0363398790359497,
      "learning_rate": 0.0004894670193044332,
      "loss": 0.0899,
      "step": 3030
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.20282617211341858,
      "learning_rate": 0.0004893298743830168,
      "loss": 0.0265,
      "step": 3040
    },
    {
      "epoch": 10.166666666666666,
      "grad_norm": 0.004087963607162237,
      "learning_rate": 0.0004891918618434304,
      "loss": 0.01,
      "step": 3050
    },
    {
      "epoch": 10.2,
      "grad_norm": 0.07597868889570236,
      "learning_rate": 0.0004890529821859968,
      "loss": 0.0049,
      "step": 3060
    },
    {
      "epoch": 10.233333333333333,
      "grad_norm": 4.141262531280518,
      "learning_rate": 0.0004889132359141822,
      "loss": 0.0525,
      "step": 3070
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 5.220034122467041,
      "learning_rate": 0.0004887726235345942,
      "loss": 0.0373,
      "step": 3080
    },
    {
      "epoch": 10.3,
      "grad_norm": 0.994594156742096,
      "learning_rate": 0.0004886311455569811,
      "loss": 0.0195,
      "step": 3090
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 10.113892555236816,
      "learning_rate": 0.0004884888024942282,
      "loss": 0.0217,
      "step": 3100
    },
    {
      "epoch": 10.366666666666667,
      "grad_norm": 0.008713426068425179,
      "learning_rate": 0.0004883455948623573,
      "loss": 0.0918,
      "step": 3110
    },
    {
      "epoch": 10.4,
      "grad_norm": 11.263032913208008,
      "learning_rate": 0.00048820152318052447,
      "loss": 0.0217,
      "step": 3120
    },
    {
      "epoch": 10.433333333333334,
      "grad_norm": 0.07357630878686905,
      "learning_rate": 0.000488056587971018,
      "loss": 0.1833,
      "step": 3130
    },
    {
      "epoch": 10.466666666666667,
      "grad_norm": 0.03532209247350693,
      "learning_rate": 0.00048791078975925694,
      "loss": 0.0174,
      "step": 3140
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.022222023457288742,
      "learning_rate": 0.0004877641290737884,
      "loss": 0.0047,
      "step": 3150
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.18489806354045868,
      "learning_rate": 0.00048761660644628654,
      "loss": 0.0136,
      "step": 3160
    },
    {
      "epoch": 10.566666666666666,
      "grad_norm": 0.00013999214570503682,
      "learning_rate": 0.00048746822241155,
      "loss": 0.0783,
      "step": 3170
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.05402855575084686,
      "learning_rate": 0.00048731897750750044,
      "loss": 0.1268,
      "step": 3180
    },
    {
      "epoch": 10.633333333333333,
      "grad_norm": 0.3978906273841858,
      "learning_rate": 0.00048716887227517994,
      "loss": 0.0013,
      "step": 3190
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.0717267394065857,
      "learning_rate": 0.0004870179072587499,
      "loss": 0.0009,
      "step": 3200
    },
    {
      "epoch": 10.7,
      "grad_norm": 1.2164305448532104,
      "learning_rate": 0.0004868660830054883,
      "loss": 0.0317,
      "step": 3210
    },
    {
      "epoch": 10.733333333333333,
      "grad_norm": 0.06170390173792839,
      "learning_rate": 0.000486713400065788,
      "loss": 0.1632,
      "step": 3220
    },
    {
      "epoch": 10.766666666666667,
      "grad_norm": 0.0237569622695446,
      "learning_rate": 0.00048655985899315516,
      "loss": 0.0056,
      "step": 3230
    },
    {
      "epoch": 10.8,
      "grad_norm": 11.921058654785156,
      "learning_rate": 0.00048640546034420625,
      "loss": 0.0592,
      "step": 3240
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.023388676345348358,
      "learning_rate": 0.0004862502046786671,
      "loss": 0.0057,
      "step": 3250
    },
    {
      "epoch": 10.866666666666667,
      "grad_norm": 0.004828088451176882,
      "learning_rate": 0.0004860940925593703,
      "loss": 0.0587,
      "step": 3260
    },
    {
      "epoch": 10.9,
      "grad_norm": 0.010196227580308914,
      "learning_rate": 0.00048593712455225304,
      "loss": 0.1446,
      "step": 3270
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 1.6788548231124878,
      "learning_rate": 0.0004857793012263554,
      "loss": 0.0254,
      "step": 3280
    },
    {
      "epoch": 10.966666666666667,
      "grad_norm": 0.003925603814423084,
      "learning_rate": 0.0004856206231538184,
      "loss": 0.0493,
      "step": 3290
    },
    {
      "epoch": 11.0,
      "grad_norm": 8.052026748657227,
      "learning_rate": 0.0004854610909098812,
      "loss": 0.0944,
      "step": 3300
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.9975,
      "eval_f1": 0.9975004873018568,
      "eval_kappa": 0.9949698189134809,
      "eval_loss": 0.015911616384983063,
      "eval_precision": 0.9975135135135136,
      "eval_recall": 0.9975,
      "eval_runtime": 7.3757,
      "eval_samples_per_second": 54.232,
      "eval_steps_per_second": 2.305,
      "step": 3300
    },
    {
      "epoch": 11.033333333333333,
      "grad_norm": 2.871225357055664,
      "learning_rate": 0.00048530070507287994,
      "loss": 0.0121,
      "step": 3310
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 0.5825998187065125,
      "learning_rate": 0.00048513946622424486,
      "loss": 0.0307,
      "step": 3320
    },
    {
      "epoch": 11.1,
      "grad_norm": 0.0036350239533931017,
      "learning_rate": 0.00048497737494849894,
      "loss": 0.0342,
      "step": 3330
    },
    {
      "epoch": 11.133333333333333,
      "grad_norm": 0.008223793469369411,
      "learning_rate": 0.0004848144318332549,
      "loss": 0.023,
      "step": 3340
    },
    {
      "epoch": 11.166666666666666,
      "grad_norm": 0.03048713505268097,
      "learning_rate": 0.00048465063746921396,
      "loss": 0.0458,
      "step": 3350
    },
    {
      "epoch": 11.2,
      "grad_norm": 3.248398542404175,
      "learning_rate": 0.000484485992450163,
      "loss": 0.0071,
      "step": 3360
    },
    {
      "epoch": 11.233333333333333,
      "grad_norm": 0.0007288438500836492,
      "learning_rate": 0.0004843204973729729,
      "loss": 0.0216,
      "step": 3370
    },
    {
      "epoch": 11.266666666666667,
      "grad_norm": 0.02933153323829174,
      "learning_rate": 0.000484154152837596,
      "loss": 0.1388,
      "step": 3380
    },
    {
      "epoch": 11.3,
      "grad_norm": 19.944454193115234,
      "learning_rate": 0.00048398695944706417,
      "loss": 0.0199,
      "step": 3390
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.01811784878373146,
      "learning_rate": 0.00048381891780748665,
      "loss": 0.0018,
      "step": 3400
    },
    {
      "epoch": 11.366666666666667,
      "grad_norm": 1.3311184644699097,
      "learning_rate": 0.0004836500285280475,
      "loss": 0.0084,
      "step": 3410
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.023560378700494766,
      "learning_rate": 0.0004834802922210039,
      "loss": 0.0131,
      "step": 3420
    },
    {
      "epoch": 11.433333333333334,
      "grad_norm": 0.14196720719337463,
      "learning_rate": 0.0004833097095016835,
      "loss": 0.0643,
      "step": 3430
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.022539904341101646,
      "learning_rate": 0.0004831382809884825,
      "loss": 0.0072,
      "step": 3440
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.002136025344952941,
      "learning_rate": 0.0004829660073028631,
      "loss": 0.0148,
      "step": 3450
    },
    {
      "epoch": 11.533333333333333,
      "grad_norm": 0.015343907289206982,
      "learning_rate": 0.0004827928890693515,
      "loss": 0.0686,
      "step": 3460
    },
    {
      "epoch": 11.566666666666666,
      "grad_norm": 0.2076902538537979,
      "learning_rate": 0.00048261892691553573,
      "loss": 0.0235,
      "step": 3470
    },
    {
      "epoch": 11.6,
      "grad_norm": 7.497281551361084,
      "learning_rate": 0.00048244412147206283,
      "loss": 0.0197,
      "step": 3480
    },
    {
      "epoch": 11.633333333333333,
      "grad_norm": 0.543480634689331,
      "learning_rate": 0.0004822684733726373,
      "loss": 0.0415,
      "step": 3490
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 7.600778102874756,
      "learning_rate": 0.00048209198325401817,
      "loss": 0.0165,
      "step": 3500
    },
    {
      "epoch": 11.7,
      "grad_norm": 28.45496368408203,
      "learning_rate": 0.00048191465175601706,
      "loss": 0.0572,
      "step": 3510
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.8768689036369324,
      "learning_rate": 0.0004817364795214958,
      "loss": 0.0068,
      "step": 3520
    },
    {
      "epoch": 11.766666666666667,
      "grad_norm": 0.0015293970936909318,
      "learning_rate": 0.00048155746719636403,
      "loss": 0.0524,
      "step": 3530
    },
    {
      "epoch": 11.8,
      "grad_norm": 0.21707843244075775,
      "learning_rate": 0.0004813776154295767,
      "loss": 0.0544,
      "step": 3540
    },
    {
      "epoch": 11.833333333333334,
      "grad_norm": 2.173311948776245,
      "learning_rate": 0.00048119692487313227,
      "loss": 0.0461,
      "step": 3550
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.029398364946246147,
      "learning_rate": 0.0004810153961820697,
      "loss": 0.0251,
      "step": 3560
    },
    {
      "epoch": 11.9,
      "grad_norm": 0.07431753724813461,
      "learning_rate": 0.00048083303001446645,
      "loss": 0.0162,
      "step": 3570
    },
    {
      "epoch": 11.933333333333334,
      "grad_norm": 12.078067779541016,
      "learning_rate": 0.0004806498270314359,
      "loss": 0.0503,
      "step": 3580
    },
    {
      "epoch": 11.966666666666667,
      "grad_norm": 1.0195358991622925,
      "learning_rate": 0.00048046578789712516,
      "loss": 0.014,
      "step": 3590
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.003098301822319627,
      "learning_rate": 0.00048028091327871256,
      "loss": 0.0229,
      "step": 3600
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.995,
      "eval_f1": 0.9950018856065367,
      "eval_kappa": 0.9899436846339501,
      "eval_loss": 0.007985816337168217,
      "eval_precision": 0.9950537634408602,
      "eval_recall": 0.995,
      "eval_runtime": 7.4244,
      "eval_samples_per_second": 53.877,
      "eval_steps_per_second": 2.29,
      "step": 3600
    },
    {
      "epoch": 12.033333333333333,
      "grad_norm": 0.14159473776817322,
      "learning_rate": 0.00048009520384640513,
      "loss": 0.0303,
      "step": 3610
    },
    {
      "epoch": 12.066666666666666,
      "grad_norm": 3.98813796043396,
      "learning_rate": 0.0004799086602734364,
      "loss": 0.0183,
      "step": 3620
    },
    {
      "epoch": 12.1,
      "grad_norm": 0.06656892597675323,
      "learning_rate": 0.0004797212832360637,
      "loss": 0.0056,
      "step": 3630
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 0.39640679955482483,
      "learning_rate": 0.0004795330734135659,
      "loss": 0.0314,
      "step": 3640
    },
    {
      "epoch": 12.166666666666666,
      "grad_norm": 0.09042102843523026,
      "learning_rate": 0.00047934403148824087,
      "loss": 0.0424,
      "step": 3650
    },
    {
      "epoch": 12.2,
      "grad_norm": 0.0011783058289438486,
      "learning_rate": 0.000479154158145403,
      "loss": 0.0301,
      "step": 3660
    },
    {
      "epoch": 12.233333333333333,
      "grad_norm": 16.78108787536621,
      "learning_rate": 0.0004789634540733807,
      "loss": 0.0181,
      "step": 3670
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.0844041258096695,
      "learning_rate": 0.00047877191996351397,
      "loss": 0.0575,
      "step": 3680
    },
    {
      "epoch": 12.3,
      "grad_norm": 0.0004439417680259794,
      "learning_rate": 0.00047857955651015195,
      "loss": 0.0118,
      "step": 3690
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.00219926075078547,
      "learning_rate": 0.0004783863644106502,
      "loss": 0.0429,
      "step": 3700
    },
    {
      "epoch": 12.366666666666667,
      "grad_norm": 0.04280629754066467,
      "learning_rate": 0.0004781923443653684,
      "loss": 0.0268,
      "step": 3710
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.11606118083000183,
      "learning_rate": 0.00047799749707766746,
      "loss": 0.019,
      "step": 3720
    },
    {
      "epoch": 12.433333333333334,
      "grad_norm": 0.3587077856063843,
      "learning_rate": 0.0004778018232539075,
      "loss": 0.1508,
      "step": 3730
    },
    {
      "epoch": 12.466666666666667,
      "grad_norm": 0.012295096181333065,
      "learning_rate": 0.0004776053236034449,
      "loss": 0.0567,
      "step": 3740
    },
    {
      "epoch": 12.5,
      "grad_norm": 4.565114068100229e-05,
      "learning_rate": 0.0004774079988386296,
      "loss": 0.0249,
      "step": 3750
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.003383655333891511,
      "learning_rate": 0.0004772098496748031,
      "loss": 0.0433,
      "step": 3760
    },
    {
      "epoch": 12.566666666666666,
      "grad_norm": 0.004308935720473528,
      "learning_rate": 0.00047701087683029526,
      "loss": 0.0075,
      "step": 3770
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.03766516223549843,
      "learning_rate": 0.00047681108102642206,
      "loss": 0.0398,
      "step": 3780
    },
    {
      "epoch": 12.633333333333333,
      "grad_norm": 1.6207733154296875,
      "learning_rate": 0.0004766104629874829,
      "loss": 0.008,
      "step": 3790
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 9.335482597351074,
      "learning_rate": 0.0004764090234407577,
      "loss": 0.0203,
      "step": 3800
    },
    {
      "epoch": 12.7,
      "grad_norm": 0.003392050275579095,
      "learning_rate": 0.0004762067631165049,
      "loss": 0.0294,
      "step": 3810
    },
    {
      "epoch": 12.733333333333333,
      "grad_norm": 0.3824714720249176,
      "learning_rate": 0.0004760036827479581,
      "loss": 0.0055,
      "step": 3820
    },
    {
      "epoch": 12.766666666666667,
      "grad_norm": 0.01920243538916111,
      "learning_rate": 0.0004757997830713239,
      "loss": 0.1337,
      "step": 3830
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.002765109995380044,
      "learning_rate": 0.00047559506482577885,
      "loss": 0.0725,
      "step": 3840
    },
    {
      "epoch": 12.833333333333334,
      "grad_norm": 0.49867746233940125,
      "learning_rate": 0.0004753895287534673,
      "loss": 0.0333,
      "step": 3850
    },
    {
      "epoch": 12.866666666666667,
      "grad_norm": 0.5436999201774597,
      "learning_rate": 0.0004751831755994981,
      "loss": 0.0722,
      "step": 3860
    },
    {
      "epoch": 12.9,
      "grad_norm": 0.13900534808635712,
      "learning_rate": 0.0004749760061119422,
      "loss": 0.0514,
      "step": 3870
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.5604411959648132,
      "learning_rate": 0.00047476802104183015,
      "loss": 0.0353,
      "step": 3880
    },
    {
      "epoch": 12.966666666666667,
      "grad_norm": 18.976787567138672,
      "learning_rate": 0.000474559221143149,
      "loss": 0.0893,
      "step": 3890
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.030641691759228706,
      "learning_rate": 0.0004743496071728396,
      "loss": 0.0104,
      "step": 3900
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.98,
      "eval_f1": 0.9799595959595959,
      "eval_kappa": 0.9596122778675282,
      "eval_loss": 0.05243048071861267,
      "eval_precision": 0.9807142857142856,
      "eval_recall": 0.98,
      "eval_runtime": 7.3583,
      "eval_samples_per_second": 54.36,
      "eval_steps_per_second": 2.31,
      "step": 3900
    },
    {
      "epoch": 13.033333333333333,
      "grad_norm": 23.265657424926758,
      "learning_rate": 0.00047413917989079415,
      "loss": 0.0245,
      "step": 3910
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 2.9652233123779297,
      "learning_rate": 0.0004739279400598532,
      "loss": 0.0199,
      "step": 3920
    },
    {
      "epoch": 13.1,
      "grad_norm": 2.5520131587982178,
      "learning_rate": 0.00047371588844580297,
      "loss": 0.0785,
      "step": 3930
    },
    {
      "epoch": 13.133333333333333,
      "grad_norm": 4.938477993011475,
      "learning_rate": 0.0004735030258173725,
      "loss": 0.1211,
      "step": 3940
    },
    {
      "epoch": 13.166666666666666,
      "grad_norm": 0.23714496195316315,
      "learning_rate": 0.000473289352946231,
      "loss": 0.0162,
      "step": 3950
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.4921053946018219,
      "learning_rate": 0.00047307487060698486,
      "loss": 0.0271,
      "step": 3960
    },
    {
      "epoch": 13.233333333333333,
      "grad_norm": 3.513289451599121,
      "learning_rate": 0.000472859579577175,
      "loss": 0.0485,
      "step": 3970
    },
    {
      "epoch": 13.266666666666667,
      "grad_norm": 1.9259859323501587,
      "learning_rate": 0.00047264348063727414,
      "loss": 0.0263,
      "step": 3980
    },
    {
      "epoch": 13.3,
      "grad_norm": 0.00044262909796088934,
      "learning_rate": 0.0004724265745706836,
      "loss": 0.0223,
      "step": 3990
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 1.4673163890838623,
      "learning_rate": 0.0004722088621637309,
      "loss": 0.0069,
      "step": 4000
    },
    {
      "epoch": 13.366666666666667,
      "grad_norm": 0.00814584270119667,
      "learning_rate": 0.0004719903442056665,
      "loss": 0.093,
      "step": 4010
    },
    {
      "epoch": 13.4,
      "grad_norm": 0.03399132937192917,
      "learning_rate": 0.00047177102148866133,
      "loss": 0.0224,
      "step": 4020
    },
    {
      "epoch": 13.433333333333334,
      "grad_norm": 0.5761755704879761,
      "learning_rate": 0.00047155089480780364,
      "loss": 0.0012,
      "step": 4030
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 1.2075037956237793,
      "learning_rate": 0.00047132996496109626,
      "loss": 0.0198,
      "step": 4040
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.0027148097287863493,
      "learning_rate": 0.0004711082327494536,
      "loss": 0.0089,
      "step": 4050
    },
    {
      "epoch": 13.533333333333333,
      "grad_norm": 0.02435988560318947,
      "learning_rate": 0.0004708856989766988,
      "loss": 0.0387,
      "step": 4060
    },
    {
      "epoch": 13.566666666666666,
      "grad_norm": 0.04581742361187935,
      "learning_rate": 0.0004706623644495608,
      "loss": 0.0237,
      "step": 4070
    },
    {
      "epoch": 13.6,
      "grad_norm": 3.6842305660247803,
      "learning_rate": 0.00047043822997767145,
      "loss": 0.0113,
      "step": 4080
    },
    {
      "epoch": 13.633333333333333,
      "grad_norm": 18.461259841918945,
      "learning_rate": 0.0004702132963735627,
      "loss": 0.0374,
      "step": 4090
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.03505110740661621,
      "learning_rate": 0.0004699875644526633,
      "loss": 0.0477,
      "step": 4100
    },
    {
      "epoch": 13.7,
      "grad_norm": 1.6540740728378296,
      "learning_rate": 0.00046976103503329616,
      "loss": 0.0137,
      "step": 4110
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.1410187929868698,
      "learning_rate": 0.0004695337089366754,
      "loss": 0.0002,
      "step": 4120
    },
    {
      "epoch": 13.766666666666667,
      "grad_norm": 0.015506432391703129,
      "learning_rate": 0.00046930558698690287,
      "loss": 0.0578,
      "step": 4130
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.3643234372138977,
      "learning_rate": 0.0004690766700109659,
      "loss": 0.0033,
      "step": 4140
    },
    {
      "epoch": 13.833333333333334,
      "grad_norm": 0.1073959544301033,
      "learning_rate": 0.0004688469588387339,
      "loss": 0.0412,
      "step": 4150
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.0946379154920578,
      "learning_rate": 0.0004686164543029554,
      "loss": 0.1215,
      "step": 4160
    },
    {
      "epoch": 13.9,
      "grad_norm": 0.3427139222621918,
      "learning_rate": 0.0004683851572392548,
      "loss": 0.0159,
      "step": 4170
    },
    {
      "epoch": 13.933333333333334,
      "grad_norm": 2.0237042903900146,
      "learning_rate": 0.00046815306848612976,
      "loss": 0.084,
      "step": 4180
    },
    {
      "epoch": 13.966666666666667,
      "grad_norm": 5.675958156585693,
      "learning_rate": 0.000467920188884948,
      "loss": 0.0178,
      "step": 4190
    },
    {
      "epoch": 14.0,
      "grad_norm": 1.7019257545471191,
      "learning_rate": 0.00046768651927994433,
      "loss": 0.0483,
      "step": 4200
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.9975,
      "eval_f1": 0.9974994808414773,
      "eval_kappa": 0.9949657672170761,
      "eval_loss": 0.00451456755399704,
      "eval_precision": 0.9975115207373273,
      "eval_recall": 0.9975,
      "eval_runtime": 7.2972,
      "eval_samples_per_second": 54.816,
      "eval_steps_per_second": 2.33,
      "step": 4200
    },
    {
      "epoch": 14.033333333333333,
      "grad_norm": 9.1857271194458,
      "learning_rate": 0.0004674520605182171,
      "loss": 0.0028,
      "step": 4210
    },
    {
      "epoch": 14.066666666666666,
      "grad_norm": 5.523562867892906e-05,
      "learning_rate": 0.00046721681344972577,
      "loss": 0.0056,
      "step": 4220
    },
    {
      "epoch": 14.1,
      "grad_norm": 3.9123904705047607,
      "learning_rate": 0.0004669807789272876,
      "loss": 0.034,
      "step": 4230
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.7227023243904114,
      "learning_rate": 0.00046674395780657444,
      "loss": 0.0115,
      "step": 4240
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 20.133054733276367,
      "learning_rate": 0.00046650635094610973,
      "loss": 0.0117,
      "step": 4250
    },
    {
      "epoch": 14.2,
      "grad_norm": 2.1840555667877197,
      "learning_rate": 0.0004662679592072653,
      "loss": 0.006,
      "step": 4260
    },
    {
      "epoch": 14.233333333333333,
      "grad_norm": 1.3089158535003662,
      "learning_rate": 0.00046602878345425845,
      "loss": 0.0198,
      "step": 4270
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.032126154750585556,
      "learning_rate": 0.0004657888245541486,
      "loss": 0.0117,
      "step": 4280
    },
    {
      "epoch": 14.3,
      "grad_norm": 0.1218077763915062,
      "learning_rate": 0.0004655480833768344,
      "loss": 0.0065,
      "step": 4290
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.0682288408279419,
      "learning_rate": 0.0004653065607950502,
      "loss": 0.0138,
      "step": 4300
    },
    {
      "epoch": 14.366666666666667,
      "grad_norm": 0.00038056381163187325,
      "learning_rate": 0.000465064257684363,
      "loss": 0.0211,
      "step": 4310
    },
    {
      "epoch": 14.4,
      "grad_norm": 7.7468061447143555,
      "learning_rate": 0.0004648211749231698,
      "loss": 0.0092,
      "step": 4320
    },
    {
      "epoch": 14.433333333333334,
      "grad_norm": 0.00033462975989095867,
      "learning_rate": 0.0004645773133926935,
      "loss": 0.0085,
      "step": 4330
    },
    {
      "epoch": 14.466666666666667,
      "grad_norm": 1.2854167222976685,
      "learning_rate": 0.00046433267397698053,
      "loss": 0.0158,
      "step": 4340
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.0037089725956320763,
      "learning_rate": 0.00046408725756289724,
      "loss": 0.0002,
      "step": 4350
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.06741482764482498,
      "learning_rate": 0.0004638410650401267,
      "loss": 0.012,
      "step": 4360
    },
    {
      "epoch": 14.566666666666666,
      "grad_norm": 0.7089601159095764,
      "learning_rate": 0.0004635940973011654,
      "loss": 0.0509,
      "step": 4370
    },
    {
      "epoch": 14.6,
      "grad_norm": 0.022032683715224266,
      "learning_rate": 0.00046334635524132047,
      "loss": 0.0013,
      "step": 4380
    },
    {
      "epoch": 14.633333333333333,
      "grad_norm": 0.14006319642066956,
      "learning_rate": 0.0004630978397587058,
      "loss": 0.0015,
      "step": 4390
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 61.62250900268555,
      "learning_rate": 0.0004628485517542392,
      "loss": 0.0558,
      "step": 4400
    },
    {
      "epoch": 14.7,
      "grad_norm": 0.5041285157203674,
      "learning_rate": 0.0004625984921316392,
      "loss": 0.0144,
      "step": 4410
    },
    {
      "epoch": 14.733333333333333,
      "grad_norm": 0.9366334080696106,
      "learning_rate": 0.00046234766179742117,
      "loss": 0.0726,
      "step": 4420
    },
    {
      "epoch": 14.766666666666667,
      "grad_norm": 0.011175020597875118,
      "learning_rate": 0.0004620960616608949,
      "loss": 0.0056,
      "step": 4430
    },
    {
      "epoch": 14.8,
      "grad_norm": 9.877839088439941,
      "learning_rate": 0.00046184369263416067,
      "loss": 0.0221,
      "step": 4440
    },
    {
      "epoch": 14.833333333333334,
      "grad_norm": 0.052618566900491714,
      "learning_rate": 0.0004615905556321061,
      "loss": 0.0001,
      "step": 4450
    },
    {
      "epoch": 14.866666666666667,
      "grad_norm": 8.235169410705566,
      "learning_rate": 0.00046133665157240304,
      "loss": 0.0396,
      "step": 4460
    },
    {
      "epoch": 14.9,
      "grad_norm": 0.0023794234730303288,
      "learning_rate": 0.00046108198137550377,
      "loss": 0.0047,
      "step": 4470
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 1.037344217300415,
      "learning_rate": 0.00046082654596463836,
      "loss": 0.0213,
      "step": 4480
    },
    {
      "epoch": 14.966666666666667,
      "grad_norm": 0.9687237739562988,
      "learning_rate": 0.00046057034626581066,
      "loss": 0.0035,
      "step": 4490
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.009436891414225101,
      "learning_rate": 0.0004603133832077953,
      "loss": 0.0364,
      "step": 4500
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.9875,
      "eval_f1": 0.9875068327898516,
      "eval_kappa": 0.9748693204664254,
      "eval_loss": 0.029378846287727356,
      "eval_precision": 0.987625216539881,
      "eval_recall": 0.9875,
      "eval_runtime": 7.2663,
      "eval_samples_per_second": 55.049,
      "eval_steps_per_second": 2.34,
      "step": 4500
    },
    {
      "epoch": 15.033333333333333,
      "grad_norm": 15.442131996154785,
      "learning_rate": 0.0004600556577221342,
      "loss": 0.0587,
      "step": 4510
    },
    {
      "epoch": 15.066666666666666,
      "grad_norm": 2.1621975898742676,
      "learning_rate": 0.0004597971707431333,
      "loss": 0.0031,
      "step": 4520
    },
    {
      "epoch": 15.1,
      "grad_norm": 0.09139201790094376,
      "learning_rate": 0.00045953792320785916,
      "loss": 0.0464,
      "step": 4530
    },
    {
      "epoch": 15.133333333333333,
      "grad_norm": 10.80909252166748,
      "learning_rate": 0.0004592779160561352,
      "loss": 0.0119,
      "step": 4540
    },
    {
      "epoch": 15.166666666666666,
      "grad_norm": 0.0028503378853201866,
      "learning_rate": 0.000459017150230539,
      "loss": 0.0284,
      "step": 4550
    },
    {
      "epoch": 15.2,
      "grad_norm": 0.0037527629174292088,
      "learning_rate": 0.00045875562667639815,
      "loss": 0.0052,
      "step": 4560
    },
    {
      "epoch": 15.233333333333333,
      "grad_norm": 0.008923468180000782,
      "learning_rate": 0.0004584933463417874,
      "loss": 0.0181,
      "step": 4570
    },
    {
      "epoch": 15.266666666666667,
      "grad_norm": 0.11511397361755371,
      "learning_rate": 0.00045823031017752484,
      "loss": 0.0012,
      "step": 4580
    },
    {
      "epoch": 15.3,
      "grad_norm": 0.0019222634145990014,
      "learning_rate": 0.0004579665191371687,
      "loss": 0.0018,
      "step": 4590
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 0.02708413079380989,
      "learning_rate": 0.00045770197417701366,
      "loss": 0.0456,
      "step": 4600
    },
    {
      "epoch": 15.366666666666667,
      "grad_norm": 0.49283456802368164,
      "learning_rate": 0.00045743667625608756,
      "loss": 0.0086,
      "step": 4610
    },
    {
      "epoch": 15.4,
      "grad_norm": 0.18149667978286743,
      "learning_rate": 0.00045717062633614795,
      "loss": 0.005,
      "step": 4620
    },
    {
      "epoch": 15.433333333333334,
      "grad_norm": 0.02925139293074608,
      "learning_rate": 0.0004569038253816783,
      "loss": 0.0335,
      "step": 4630
    },
    {
      "epoch": 15.466666666666667,
      "grad_norm": 0.025850404053926468,
      "learning_rate": 0.00045663627435988503,
      "loss": 0.0076,
      "step": 4640
    },
    {
      "epoch": 15.5,
      "grad_norm": 0.03791815787553787,
      "learning_rate": 0.0004563679742406935,
      "loss": 0.0181,
      "step": 4650
    },
    {
      "epoch": 15.533333333333333,
      "grad_norm": 4.157740116119385,
      "learning_rate": 0.0004560989259967447,
      "loss": 0.0265,
      "step": 4660
    },
    {
      "epoch": 15.566666666666666,
      "grad_norm": 31.737028121948242,
      "learning_rate": 0.0004558291306033919,
      "loss": 0.0662,
      "step": 4670
    },
    {
      "epoch": 15.6,
      "grad_norm": 0.00034419956500642,
      "learning_rate": 0.00045555858903869684,
      "loss": 0.0033,
      "step": 4680
    },
    {
      "epoch": 15.633333333333333,
      "grad_norm": 36.032081604003906,
      "learning_rate": 0.000455287302283426,
      "loss": 0.2059,
      "step": 4690
    },
    {
      "epoch": 15.666666666666666,
      "grad_norm": 0.09268007427453995,
      "learning_rate": 0.0004550152713210478,
      "loss": 0.0654,
      "step": 4700
    },
    {
      "epoch": 15.7,
      "grad_norm": 0.003424269612878561,
      "learning_rate": 0.0004547424971377282,
      "loss": 0.011,
      "step": 4710
    },
    {
      "epoch": 15.733333333333333,
      "grad_norm": 36.533512115478516,
      "learning_rate": 0.00045446898072232765,
      "loss": 0.0291,
      "step": 4720
    },
    {
      "epoch": 15.766666666666667,
      "grad_norm": 0.057702332735061646,
      "learning_rate": 0.00045419472306639733,
      "loss": 0.0384,
      "step": 4730
    },
    {
      "epoch": 15.8,
      "grad_norm": 3.593590736272745e-05,
      "learning_rate": 0.00045391972516417545,
      "loss": 0.0035,
      "step": 4740
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.017503496259450912,
      "learning_rate": 0.00045364398801258396,
      "loss": 0.09,
      "step": 4750
    },
    {
      "epoch": 15.866666666666667,
      "grad_norm": 0.01603321172297001,
      "learning_rate": 0.0004533675126112245,
      "loss": 0.0269,
      "step": 4760
    },
    {
      "epoch": 15.9,
      "grad_norm": 0.109935462474823,
      "learning_rate": 0.00045309029996237516,
      "loss": 0.0097,
      "step": 4770
    },
    {
      "epoch": 15.933333333333334,
      "grad_norm": 0.028454294428229332,
      "learning_rate": 0.0004528123510709867,
      "loss": 0.0199,
      "step": 4780
    },
    {
      "epoch": 15.966666666666667,
      "grad_norm": 0.03414365276694298,
      "learning_rate": 0.0004525336669446789,
      "loss": 0.0007,
      "step": 4790
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.0039358725771307945,
      "learning_rate": 0.0004522542485937369,
      "loss": 0.0239,
      "step": 4800
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924950401511573,
      "eval_kappa": 0.9848851269649335,
      "eval_loss": 0.011240070685744286,
      "eval_precision": 0.9926027397260273,
      "eval_recall": 0.9925,
      "eval_runtime": 7.3933,
      "eval_samples_per_second": 54.103,
      "eval_steps_per_second": 2.299,
      "step": 4800
    },
    {
      "epoch": 16.033333333333335,
      "grad_norm": 0.003939064685255289,
      "learning_rate": 0.0004519740970311074,
      "loss": 0.056,
      "step": 4810
    },
    {
      "epoch": 16.066666666666666,
      "grad_norm": 0.0002586791233625263,
      "learning_rate": 0.0004516932132723953,
      "loss": 0.0076,
      "step": 4820
    },
    {
      "epoch": 16.1,
      "grad_norm": 6.035449028015137,
      "learning_rate": 0.00045141159833585995,
      "loss": 0.0043,
      "step": 4830
    },
    {
      "epoch": 16.133333333333333,
      "grad_norm": 0.23382249474525452,
      "learning_rate": 0.0004511292532424111,
      "loss": 0.0375,
      "step": 4840
    },
    {
      "epoch": 16.166666666666668,
      "grad_norm": 0.003644285025075078,
      "learning_rate": 0.00045084617901560564,
      "loss": 0.0067,
      "step": 4850
    },
    {
      "epoch": 16.2,
      "grad_norm": 0.3566889762878418,
      "learning_rate": 0.0004505623766816438,
      "loss": 0.0007,
      "step": 4860
    },
    {
      "epoch": 16.233333333333334,
      "grad_norm": 0.0989418774843216,
      "learning_rate": 0.00045027784726936503,
      "loss": 0.0701,
      "step": 4870
    },
    {
      "epoch": 16.266666666666666,
      "grad_norm": 4.09375,
      "learning_rate": 0.000449992591810245,
      "loss": 0.0555,
      "step": 4880
    },
    {
      "epoch": 16.3,
      "grad_norm": 0.013414149172604084,
      "learning_rate": 0.00044970661133839096,
      "loss": 0.0026,
      "step": 4890
    },
    {
      "epoch": 16.333333333333332,
      "grad_norm": 2.3153756956162397e-06,
      "learning_rate": 0.00044941990689053885,
      "loss": 0.0446,
      "step": 4900
    },
    {
      "epoch": 16.366666666666667,
      "grad_norm": 2.82499058812391e-05,
      "learning_rate": 0.00044913247950604905,
      "loss": 0.0184,
      "step": 4910
    },
    {
      "epoch": 16.4,
      "grad_norm": 0.4367436170578003,
      "learning_rate": 0.00044884433022690274,
      "loss": 0.1106,
      "step": 4920
    },
    {
      "epoch": 16.433333333333334,
      "grad_norm": 0.021237192675471306,
      "learning_rate": 0.0004485554600976981,
      "loss": 0.0015,
      "step": 4930
    },
    {
      "epoch": 16.466666666666665,
      "grad_norm": 8.756088256835938,
      "learning_rate": 0.0004482658701656465,
      "loss": 0.01,
      "step": 4940
    },
    {
      "epoch": 16.5,
      "grad_norm": 0.000679507153108716,
      "learning_rate": 0.0004479755614805688,
      "loss": 0.0281,
      "step": 4950
    },
    {
      "epoch": 16.533333333333335,
      "grad_norm": 4.841014385223389,
      "learning_rate": 0.00044768453509489136,
      "loss": 0.0029,
      "step": 4960
    },
    {
      "epoch": 16.566666666666666,
      "grad_norm": 0.013903344981372356,
      "learning_rate": 0.0004473927920636426,
      "loss": 0.0137,
      "step": 4970
    },
    {
      "epoch": 16.6,
      "grad_norm": 0.00465978542342782,
      "learning_rate": 0.00044710033344444856,
      "loss": 0.015,
      "step": 4980
    },
    {
      "epoch": 16.633333333333333,
      "grad_norm": 0.017884723842144012,
      "learning_rate": 0.0004468071602975298,
      "loss": 0.0222,
      "step": 4990
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.10206126421689987,
      "learning_rate": 0.0004465132736856969,
      "loss": 0.0535,
      "step": 5000
    },
    {
      "epoch": 16.7,
      "grad_norm": 0.09528321772813797,
      "learning_rate": 0.00044621867467434706,
      "loss": 0.034,
      "step": 5010
    },
    {
      "epoch": 16.733333333333334,
      "grad_norm": 0.0033129348885267973,
      "learning_rate": 0.00044592336433145995,
      "loss": 0.0766,
      "step": 5020
    },
    {
      "epoch": 16.766666666666666,
      "grad_norm": 0.003946595825254917,
      "learning_rate": 0.0004456273437275941,
      "loss": 0.0879,
      "step": 5030
    },
    {
      "epoch": 16.8,
      "grad_norm": 0.07561410218477249,
      "learning_rate": 0.00044533061393588284,
      "loss": 0.0028,
      "step": 5040
    },
    {
      "epoch": 16.833333333333332,
      "grad_norm": 0.0002018914819927886,
      "learning_rate": 0.0004450331760320302,
      "loss": 0.0562,
      "step": 5050
    },
    {
      "epoch": 16.866666666666667,
      "grad_norm": 0.0016976863844320178,
      "learning_rate": 0.0004447350310943076,
      "loss": 0.0178,
      "step": 5060
    },
    {
      "epoch": 16.9,
      "grad_norm": 0.012086511589586735,
      "learning_rate": 0.0004444361802035495,
      "loss": 0.0091,
      "step": 5070
    },
    {
      "epoch": 16.933333333333334,
      "grad_norm": 0.003081787843257189,
      "learning_rate": 0.0004441366244431494,
      "loss": 0.0219,
      "step": 5080
    },
    {
      "epoch": 16.966666666666665,
      "grad_norm": 18.680606842041016,
      "learning_rate": 0.00044383636489905636,
      "loss": 0.0693,
      "step": 5090
    },
    {
      "epoch": 17.0,
      "grad_norm": 19.928892135620117,
      "learning_rate": 0.00044353540265977065,
      "loss": 0.0251,
      "step": 5100
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.975,
      "eval_f1": 0.975034479299882,
      "eval_kappa": 0.9498797113071371,
      "eval_loss": 0.17754234373569489,
      "eval_precision": 0.9762886597938144,
      "eval_recall": 0.975,
      "eval_runtime": 7.2945,
      "eval_samples_per_second": 54.836,
      "eval_steps_per_second": 2.331,
      "step": 5100
    },
    {
      "epoch": 17.033333333333335,
      "grad_norm": 0.0158667154610157,
      "learning_rate": 0.0004432337388163399,
      "loss": 0.0169,
      "step": 5110
    },
    {
      "epoch": 17.066666666666666,
      "grad_norm": 0.04557795822620392,
      "learning_rate": 0.0004429313744623552,
      "loss": 0.149,
      "step": 5120
    },
    {
      "epoch": 17.1,
      "grad_norm": 11.541633605957031,
      "learning_rate": 0.0004426283106939473,
      "loss": 0.0364,
      "step": 5130
    },
    {
      "epoch": 17.133333333333333,
      "grad_norm": 0.003035008441656828,
      "learning_rate": 0.00044232454860978235,
      "loss": 0.0135,
      "step": 5140
    },
    {
      "epoch": 17.166666666666668,
      "grad_norm": 20.01824188232422,
      "learning_rate": 0.00044202008931105795,
      "loss": 0.0727,
      "step": 5150
    },
    {
      "epoch": 17.2,
      "grad_norm": 0.0038418022450059652,
      "learning_rate": 0.00044171493390149943,
      "loss": 0.0656,
      "step": 5160
    },
    {
      "epoch": 17.233333333333334,
      "grad_norm": 0.5585111975669861,
      "learning_rate": 0.0004414090834873555,
      "loss": 0.0687,
      "step": 5170
    },
    {
      "epoch": 17.266666666666666,
      "grad_norm": 0.40798482298851013,
      "learning_rate": 0.0004411025391773945,
      "loss": 0.0088,
      "step": 5180
    },
    {
      "epoch": 17.3,
      "grad_norm": 0.5033943057060242,
      "learning_rate": 0.0004407953020829001,
      "loss": 0.0017,
      "step": 5190
    },
    {
      "epoch": 17.333333333333332,
      "grad_norm": 0.006301830522716045,
      "learning_rate": 0.0004404873733176677,
      "loss": 0.0069,
      "step": 5200
    },
    {
      "epoch": 17.366666666666667,
      "grad_norm": 57.35346984863281,
      "learning_rate": 0.000440178753998,
      "loss": 0.057,
      "step": 5210
    },
    {
      "epoch": 17.4,
      "grad_norm": 20.014352798461914,
      "learning_rate": 0.0004398694452427032,
      "loss": 0.057,
      "step": 5220
    },
    {
      "epoch": 17.433333333333334,
      "grad_norm": 1.6002854108810425,
      "learning_rate": 0.00043955944817308264,
      "loss": 0.0283,
      "step": 5230
    },
    {
      "epoch": 17.466666666666665,
      "grad_norm": 0.1630188226699829,
      "learning_rate": 0.0004392487639129391,
      "loss": 0.0149,
      "step": 5240
    },
    {
      "epoch": 17.5,
      "grad_norm": 1.5527725219726562,
      "learning_rate": 0.0004389373935885646,
      "loss": 0.0033,
      "step": 5250
    },
    {
      "epoch": 17.533333333333335,
      "grad_norm": 0.08788882941007614,
      "learning_rate": 0.00043862533832873807,
      "loss": 0.0181,
      "step": 5260
    },
    {
      "epoch": 17.566666666666666,
      "grad_norm": 18.95491600036621,
      "learning_rate": 0.0004383125992647217,
      "loss": 0.0551,
      "step": 5270
    },
    {
      "epoch": 17.6,
      "grad_norm": 0.09805364906787872,
      "learning_rate": 0.0004379991775302565,
      "loss": 0.0016,
      "step": 5280
    },
    {
      "epoch": 17.633333333333333,
      "grad_norm": 0.08975560963153839,
      "learning_rate": 0.0004376850742615582,
      "loss": 0.0094,
      "step": 5290
    },
    {
      "epoch": 17.666666666666668,
      "grad_norm": 0.0001883259683381766,
      "learning_rate": 0.00043737029059731354,
      "loss": 0.0345,
      "step": 5300
    },
    {
      "epoch": 17.7,
      "grad_norm": 0.013120437040925026,
      "learning_rate": 0.0004370548276786753,
      "loss": 0.0012,
      "step": 5310
    },
    {
      "epoch": 17.733333333333334,
      "grad_norm": 0.001265104510821402,
      "learning_rate": 0.0004367386866492593,
      "loss": 0.0065,
      "step": 5320
    },
    {
      "epoch": 17.766666666666666,
      "grad_norm": 0.00024534211843274534,
      "learning_rate": 0.00043642186865513923,
      "loss": 0.059,
      "step": 5330
    },
    {
      "epoch": 17.8,
      "grad_norm": 0.00401131808757782,
      "learning_rate": 0.000436104374844843,
      "loss": 0.013,
      "step": 5340
    },
    {
      "epoch": 17.833333333333332,
      "grad_norm": 8.443090337095782e-05,
      "learning_rate": 0.00043578620636934855,
      "loss": 0.0187,
      "step": 5350
    },
    {
      "epoch": 17.866666666666667,
      "grad_norm": 3.067394495010376,
      "learning_rate": 0.0004354673643820796,
      "loss": 0.0088,
      "step": 5360
    },
    {
      "epoch": 17.9,
      "grad_norm": 9.890982627868652,
      "learning_rate": 0.00043514785003890145,
      "loss": 0.0055,
      "step": 5370
    },
    {
      "epoch": 17.933333333333334,
      "grad_norm": 0.06324765086174011,
      "learning_rate": 0.0004348276644981169,
      "loss": 0.0059,
      "step": 5380
    },
    {
      "epoch": 17.966666666666665,
      "grad_norm": 1.9441681615717243e-06,
      "learning_rate": 0.0004345068089204618,
      "loss": 0.0157,
      "step": 5390
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.0008120173588395119,
      "learning_rate": 0.00043418528446910123,
      "loss": 0.0176,
      "step": 5400
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924950401511573,
      "eval_kappa": 0.9848851269649335,
      "eval_loss": 0.012522498145699501,
      "eval_precision": 0.9926027397260273,
      "eval_recall": 0.9925,
      "eval_runtime": 7.2697,
      "eval_samples_per_second": 55.023,
      "eval_steps_per_second": 2.338,
      "step": 5400
    },
    {
      "epoch": 18.033333333333335,
      "grad_norm": 2.747086763381958,
      "learning_rate": 0.00043386309230962494,
      "loss": 0.0049,
      "step": 5410
    },
    {
      "epoch": 18.066666666666666,
      "grad_norm": 0.17824751138687134,
      "learning_rate": 0.00043354023361004326,
      "loss": 0.0055,
      "step": 5420
    },
    {
      "epoch": 18.1,
      "grad_norm": 0.012055006809532642,
      "learning_rate": 0.00043321670954078295,
      "loss": 0.0059,
      "step": 5430
    },
    {
      "epoch": 18.133333333333333,
      "grad_norm": 2.920243105108966e-07,
      "learning_rate": 0.00043289252127468275,
      "loss": 0.013,
      "step": 5440
    },
    {
      "epoch": 18.166666666666668,
      "grad_norm": 0.02946869097650051,
      "learning_rate": 0.00043256766998698936,
      "loss": 0.0129,
      "step": 5450
    },
    {
      "epoch": 18.2,
      "grad_norm": 0.15984544157981873,
      "learning_rate": 0.00043224215685535287,
      "loss": 0.0259,
      "step": 5460
    },
    {
      "epoch": 18.233333333333334,
      "grad_norm": 0.007439691107720137,
      "learning_rate": 0.00043191598305982295,
      "loss": 0.0071,
      "step": 5470
    },
    {
      "epoch": 18.266666666666666,
      "grad_norm": 0.003393712919205427,
      "learning_rate": 0.00043158914978284413,
      "loss": 0.0,
      "step": 5480
    },
    {
      "epoch": 18.3,
      "grad_norm": 0.026435252279043198,
      "learning_rate": 0.00043126165820925175,
      "loss": 0.0024,
      "step": 5490
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.058090608566999435,
      "learning_rate": 0.0004309335095262675,
      "loss": 0.0851,
      "step": 5500
    },
    {
      "epoch": 18.366666666666667,
      "grad_norm": 0.004093553405255079,
      "learning_rate": 0.00043060470492349546,
      "loss": 0.055,
      "step": 5510
    },
    {
      "epoch": 18.4,
      "grad_norm": 0.006154999136924744,
      "learning_rate": 0.00043027524559291735,
      "loss": 0.0444,
      "step": 5520
    },
    {
      "epoch": 18.433333333333334,
      "grad_norm": 1.4688598639622796e-05,
      "learning_rate": 0.0004299451327288884,
      "loss": 0.1432,
      "step": 5530
    },
    {
      "epoch": 18.466666666666665,
      "grad_norm": 0.01573503017425537,
      "learning_rate": 0.00042961436752813313,
      "loss": 0.0567,
      "step": 5540
    },
    {
      "epoch": 18.5,
      "grad_norm": 0.09377676993608475,
      "learning_rate": 0.0004292829511897409,
      "loss": 0.004,
      "step": 5550
    },
    {
      "epoch": 18.533333333333335,
      "grad_norm": 0.0003030710795428604,
      "learning_rate": 0.00042895088491516143,
      "loss": 0.0109,
      "step": 5560
    },
    {
      "epoch": 18.566666666666666,
      "grad_norm": 0.37513068318367004,
      "learning_rate": 0.00042861816990820087,
      "loss": 0.0139,
      "step": 5570
    },
    {
      "epoch": 18.6,
      "grad_norm": 0.01114998385310173,
      "learning_rate": 0.00042828480737501685,
      "loss": 0.0121,
      "step": 5580
    },
    {
      "epoch": 18.633333333333333,
      "grad_norm": 0.016994353383779526,
      "learning_rate": 0.0004279507985241146,
      "loss": 0.0018,
      "step": 5590
    },
    {
      "epoch": 18.666666666666668,
      "grad_norm": 23.48972511291504,
      "learning_rate": 0.00042761614456634226,
      "loss": 0.0639,
      "step": 5600
    },
    {
      "epoch": 18.7,
      "grad_norm": 15.19426155090332,
      "learning_rate": 0.00042728084671488667,
      "loss": 0.0308,
      "step": 5610
    },
    {
      "epoch": 18.733333333333334,
      "grad_norm": 0.4076824188232422,
      "learning_rate": 0.000426944906185269,
      "loss": 0.0067,
      "step": 5620
    },
    {
      "epoch": 18.766666666666666,
      "grad_norm": 0.00021396263036876917,
      "learning_rate": 0.00042660832419534015,
      "loss": 0.0213,
      "step": 5630
    },
    {
      "epoch": 18.8,
      "grad_norm": 0.0007938387570902705,
      "learning_rate": 0.00042627110196527643,
      "loss": 0.0027,
      "step": 5640
    },
    {
      "epoch": 18.833333333333332,
      "grad_norm": 6.3498005867004395,
      "learning_rate": 0.00042593324071757513,
      "loss": 0.0014,
      "step": 5650
    },
    {
      "epoch": 18.866666666666667,
      "grad_norm": 0.01834871992468834,
      "learning_rate": 0.00042559474167705024,
      "loss": 0.005,
      "step": 5660
    },
    {
      "epoch": 18.9,
      "grad_norm": 25.21710968017578,
      "learning_rate": 0.0004252556060708277,
      "loss": 0.0112,
      "step": 5670
    },
    {
      "epoch": 18.933333333333334,
      "grad_norm": 0.0007557334029115736,
      "learning_rate": 0.00042491583512834137,
      "loss": 0.0048,
      "step": 5680
    },
    {
      "epoch": 18.966666666666665,
      "grad_norm": 0.0007840251782909036,
      "learning_rate": 0.00042457543008132803,
      "loss": 0.0028,
      "step": 5690
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.00020392781880218536,
      "learning_rate": 0.00042423439216382345,
      "loss": 0.004,
      "step": 5700
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924950401511573,
      "eval_kappa": 0.9848851269649335,
      "eval_loss": 0.02138124778866768,
      "eval_precision": 0.9926027397260273,
      "eval_recall": 0.9925,
      "eval_runtime": 7.2724,
      "eval_samples_per_second": 55.002,
      "eval_steps_per_second": 2.338,
      "step": 5700
    },
    {
      "epoch": 19.033333333333335,
      "grad_norm": 3.409046257729642e-05,
      "learning_rate": 0.0004238927226121574,
      "loss": 0.0053,
      "step": 5710
    },
    {
      "epoch": 19.066666666666666,
      "grad_norm": 5.1102761062793434e-05,
      "learning_rate": 0.0004235504226649499,
      "loss": 0.0006,
      "step": 5720
    },
    {
      "epoch": 19.1,
      "grad_norm": 4.482835265662288e-06,
      "learning_rate": 0.00042320749356310585,
      "loss": 0.0062,
      "step": 5730
    },
    {
      "epoch": 19.133333333333333,
      "grad_norm": 6.407644377759425e-06,
      "learning_rate": 0.00042286393654981117,
      "loss": 0.0144,
      "step": 5740
    },
    {
      "epoch": 19.166666666666668,
      "grad_norm": 6.763396868336713e-06,
      "learning_rate": 0.000422519752870528,
      "loss": 0.0074,
      "step": 5750
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.6662626266479492,
      "learning_rate": 0.0004221749437729904,
      "loss": 0.0249,
      "step": 5760
    },
    {
      "epoch": 19.233333333333334,
      "grad_norm": 2.1368918418884277,
      "learning_rate": 0.00042182951050719953,
      "loss": 0.0005,
      "step": 5770
    },
    {
      "epoch": 19.266666666666666,
      "grad_norm": 0.7532082796096802,
      "learning_rate": 0.00042148345432541947,
      "loss": 0.0012,
      "step": 5780
    },
    {
      "epoch": 19.3,
      "grad_norm": 0.0029580825939774513,
      "learning_rate": 0.0004211367764821722,
      "loss": 0.0908,
      "step": 5790
    },
    {
      "epoch": 19.333333333333332,
      "grad_norm": 0.0024131108075380325,
      "learning_rate": 0.00042078947823423365,
      "loss": 0.0003,
      "step": 5800
    },
    {
      "epoch": 19.366666666666667,
      "grad_norm": 0.3826955556869507,
      "learning_rate": 0.0004204415608406287,
      "loss": 0.0017,
      "step": 5810
    },
    {
      "epoch": 19.4,
      "grad_norm": 0.6719952821731567,
      "learning_rate": 0.0004200930255626267,
      "loss": 0.0045,
      "step": 5820
    },
    {
      "epoch": 19.433333333333334,
      "grad_norm": 0.0007892029243521392,
      "learning_rate": 0.0004197438736637371,
      "loss": 0.0018,
      "step": 5830
    },
    {
      "epoch": 19.466666666666665,
      "grad_norm": 0.3547203838825226,
      "learning_rate": 0.00041939410640970463,
      "loss": 0.0001,
      "step": 5840
    },
    {
      "epoch": 19.5,
      "grad_norm": 0.0005942045827396214,
      "learning_rate": 0.0004190437250685049,
      "loss": 0.0041,
      "step": 5850
    },
    {
      "epoch": 19.533333333333335,
      "grad_norm": 2.2738926418242045e-05,
      "learning_rate": 0.0004186927309103395,
      "loss": 0.0249,
      "step": 5860
    },
    {
      "epoch": 19.566666666666666,
      "grad_norm": 0.2131558209657669,
      "learning_rate": 0.0004183411252076318,
      "loss": 0.0021,
      "step": 5870
    },
    {
      "epoch": 19.6,
      "grad_norm": 5.3966072300681844e-05,
      "learning_rate": 0.00041798890923502196,
      "loss": 0.0142,
      "step": 5880
    },
    {
      "epoch": 19.633333333333333,
      "grad_norm": 5.459845488076098e-05,
      "learning_rate": 0.00041763608426936285,
      "loss": 0.0114,
      "step": 5890
    },
    {
      "epoch": 19.666666666666668,
      "grad_norm": 0.00019487504323478788,
      "learning_rate": 0.0004172826515897146,
      "loss": 0.0006,
      "step": 5900
    },
    {
      "epoch": 19.7,
      "grad_norm": 39.95808792114258,
      "learning_rate": 0.00041692861247734066,
      "loss": 0.027,
      "step": 5910
    },
    {
      "epoch": 19.733333333333334,
      "grad_norm": 0.09292138367891312,
      "learning_rate": 0.000416573968215703,
      "loss": 0.0142,
      "step": 5920
    },
    {
      "epoch": 19.766666666666666,
      "grad_norm": 0.4146019518375397,
      "learning_rate": 0.00041621872009045714,
      "loss": 0.0619,
      "step": 5930
    },
    {
      "epoch": 19.8,
      "grad_norm": 0.0032702682074159384,
      "learning_rate": 0.00041586286938944794,
      "loss": 0.049,
      "step": 5940
    },
    {
      "epoch": 19.833333333333332,
      "grad_norm": 9.901680641632993e-06,
      "learning_rate": 0.0004155064174027047,
      "loss": 0.053,
      "step": 5950
    },
    {
      "epoch": 19.866666666666667,
      "grad_norm": 2.382656560939722e-07,
      "learning_rate": 0.0004151493654224362,
      "loss": 0.0041,
      "step": 5960
    },
    {
      "epoch": 19.9,
      "grad_norm": 0.10070688277482986,
      "learning_rate": 0.0004147917147430267,
      "loss": 0.0002,
      "step": 5970
    },
    {
      "epoch": 19.933333333333334,
      "grad_norm": 0.37473300099372864,
      "learning_rate": 0.00041443346666103075,
      "loss": 0.0317,
      "step": 5980
    },
    {
      "epoch": 19.966666666666665,
      "grad_norm": 0.015777839347720146,
      "learning_rate": 0.0004140746224751686,
      "loss": 0.0049,
      "step": 5990
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.06747877597808838,
      "learning_rate": 0.0004137151834863213,
      "loss": 0.0765,
      "step": 6000
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9925014619055704,
      "eval_kappa": 0.9849094567404426,
      "eval_loss": 0.026282142847776413,
      "eval_precision": 0.9925153991200503,
      "eval_recall": 0.9925,
      "eval_runtime": 7.3526,
      "eval_samples_per_second": 54.403,
      "eval_steps_per_second": 2.312,
      "step": 6000
    },
    {
      "epoch": 20.033333333333335,
      "grad_norm": 7.862460915930569e-05,
      "learning_rate": 0.0004133551509975264,
      "loss": 0.0018,
      "step": 6010
    },
    {
      "epoch": 20.066666666666666,
      "grad_norm": 0.003342132782563567,
      "learning_rate": 0.00041299452631397295,
      "loss": 0.0073,
      "step": 6020
    },
    {
      "epoch": 20.1,
      "grad_norm": 0.0008726781816221774,
      "learning_rate": 0.00041263331074299674,
      "loss": 0.0006,
      "step": 6030
    },
    {
      "epoch": 20.133333333333333,
      "grad_norm": 0.003774689044803381,
      "learning_rate": 0.0004122715055940759,
      "loss": 0.0142,
      "step": 6040
    },
    {
      "epoch": 20.166666666666668,
      "grad_norm": 4.912187099456787,
      "learning_rate": 0.00041190911217882554,
      "loss": 0.0087,
      "step": 6050
    },
    {
      "epoch": 20.2,
      "grad_norm": 0.028365733101963997,
      "learning_rate": 0.00041154613181099354,
      "loss": 0.0009,
      "step": 6060
    },
    {
      "epoch": 20.233333333333334,
      "grad_norm": 0.5290868878364563,
      "learning_rate": 0.00041118256580645573,
      "loss": 0.0072,
      "step": 6070
    },
    {
      "epoch": 20.266666666666666,
      "grad_norm": 1.6444475477328524e-05,
      "learning_rate": 0.00041081841548321063,
      "loss": 0.0011,
      "step": 6080
    },
    {
      "epoch": 20.3,
      "grad_norm": 1.4104318324825726e-05,
      "learning_rate": 0.0004104536821613755,
      "loss": 0.0028,
      "step": 6090
    },
    {
      "epoch": 20.333333333333332,
      "grad_norm": 0.0005012187757529318,
      "learning_rate": 0.0004100883671631806,
      "loss": 0.0006,
      "step": 6100
    },
    {
      "epoch": 20.366666666666667,
      "grad_norm": 0.0006044594920240343,
      "learning_rate": 0.00040972247181296517,
      "loss": 0.0007,
      "step": 6110
    },
    {
      "epoch": 20.4,
      "grad_norm": 0.011126265861093998,
      "learning_rate": 0.00040935599743717243,
      "loss": 0.0,
      "step": 6120
    },
    {
      "epoch": 20.433333333333334,
      "grad_norm": 9.391146886628121e-05,
      "learning_rate": 0.00040898894536434436,
      "loss": 0.0036,
      "step": 6130
    },
    {
      "epoch": 20.466666666666665,
      "grad_norm": 0.0033955660182982683,
      "learning_rate": 0.0004086213169251175,
      "loss": 0.0055,
      "step": 6140
    },
    {
      "epoch": 20.5,
      "grad_norm": 3.899128932971507e-05,
      "learning_rate": 0.0004082531134522176,
      "loss": 0.0038,
      "step": 6150
    },
    {
      "epoch": 20.533333333333335,
      "grad_norm": 54.52496337890625,
      "learning_rate": 0.00040788433628045526,
      "loss": 0.0801,
      "step": 6160
    },
    {
      "epoch": 20.566666666666666,
      "grad_norm": 23.238245010375977,
      "learning_rate": 0.0004075149867467206,
      "loss": 0.0054,
      "step": 6170
    },
    {
      "epoch": 20.6,
      "grad_norm": 0.024889228865504265,
      "learning_rate": 0.0004071450661899789,
      "loss": 0.0006,
      "step": 6180
    },
    {
      "epoch": 20.633333333333333,
      "grad_norm": 0.00033502039150334895,
      "learning_rate": 0.00040677457595126535,
      "loss": 0.0193,
      "step": 6190
    },
    {
      "epoch": 20.666666666666668,
      "grad_norm": 1.2196564674377441,
      "learning_rate": 0.0004064035173736804,
      "loss": 0.0326,
      "step": 6200
    },
    {
      "epoch": 20.7,
      "grad_norm": 0.03614107146859169,
      "learning_rate": 0.00040603189180238487,
      "loss": 0.0428,
      "step": 6210
    },
    {
      "epoch": 20.733333333333334,
      "grad_norm": 0.00015757529763504863,
      "learning_rate": 0.00040565970058459495,
      "loss": 0.0178,
      "step": 6220
    },
    {
      "epoch": 20.766666666666666,
      "grad_norm": 31.76898956298828,
      "learning_rate": 0.0004052869450695776,
      "loss": 0.0377,
      "step": 6230
    },
    {
      "epoch": 20.8,
      "grad_norm": 2.0460689067840576,
      "learning_rate": 0.0004049136266086453,
      "loss": 0.0018,
      "step": 6240
    },
    {
      "epoch": 20.833333333333332,
      "grad_norm": 0.00013923767255619168,
      "learning_rate": 0.0004045397465551513,
      "loss": 0.0257,
      "step": 6250
    },
    {
      "epoch": 20.866666666666667,
      "grad_norm": 0.0006307970033958554,
      "learning_rate": 0.0004041653062644849,
      "loss": 0.0004,
      "step": 6260
    },
    {
      "epoch": 20.9,
      "grad_norm": 0.006992705166339874,
      "learning_rate": 0.0004037903070940663,
      "loss": 0.0184,
      "step": 6270
    },
    {
      "epoch": 20.933333333333334,
      "grad_norm": 4.516855239868164,
      "learning_rate": 0.0004034147504033415,
      "loss": 0.0011,
      "step": 6280
    },
    {
      "epoch": 20.966666666666665,
      "grad_norm": 2.106142282485962,
      "learning_rate": 0.0004030386375537781,
      "loss": 0.0004,
      "step": 6290
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.021997051313519478,
      "learning_rate": 0.00040266196990885957,
      "loss": 0.0031,
      "step": 6300
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.995,
      "eval_f1": 0.9949978595351413,
      "eval_kappa": 0.9899274778404512,
      "eval_loss": 0.007627411279827356,
      "eval_precision": 0.9950458715596331,
      "eval_recall": 0.995,
      "eval_runtime": 7.3429,
      "eval_samples_per_second": 54.474,
      "eval_steps_per_second": 2.315,
      "step": 6300
    },
    {
      "epoch": 21.033333333333335,
      "grad_norm": 0.10303360223770142,
      "learning_rate": 0.0004022847488340806,
      "loss": 0.0002,
      "step": 6310
    },
    {
      "epoch": 21.066666666666666,
      "grad_norm": 0.0006746263243257999,
      "learning_rate": 0.0004019069756969423,
      "loss": 0.0047,
      "step": 6320
    },
    {
      "epoch": 21.1,
      "grad_norm": 0.009801504202187061,
      "learning_rate": 0.0004015286518669471,
      "loss": 0.0001,
      "step": 6330
    },
    {
      "epoch": 21.133333333333333,
      "grad_norm": 0.0029807365499436855,
      "learning_rate": 0.00040114977871559375,
      "loss": 0.0003,
      "step": 6340
    },
    {
      "epoch": 21.166666666666668,
      "grad_norm": 4.46964713773923e-06,
      "learning_rate": 0.0004007703576163724,
      "loss": 0.0034,
      "step": 6350
    },
    {
      "epoch": 21.2,
      "grad_norm": 0.0006399075500667095,
      "learning_rate": 0.0004003903899447597,
      "loss": 0.0004,
      "step": 6360
    },
    {
      "epoch": 21.233333333333334,
      "grad_norm": 3.252115493523888e-05,
      "learning_rate": 0.00040000987707821355,
      "loss": 0.001,
      "step": 6370
    },
    {
      "epoch": 21.266666666666666,
      "grad_norm": 0.00783352367579937,
      "learning_rate": 0.0003996288203961686,
      "loss": 0.0003,
      "step": 6380
    },
    {
      "epoch": 21.3,
      "grad_norm": 2.122505975421518e-05,
      "learning_rate": 0.0003992472212800307,
      "loss": 0.0171,
      "step": 6390
    },
    {
      "epoch": 21.333333333333332,
      "grad_norm": 14.490923881530762,
      "learning_rate": 0.000398865081113172,
      "loss": 0.0322,
      "step": 6400
    },
    {
      "epoch": 21.366666666666667,
      "grad_norm": 3.637007694123895e-06,
      "learning_rate": 0.0003984824012809265,
      "loss": 0.0305,
      "step": 6410
    },
    {
      "epoch": 21.4,
      "grad_norm": 5.9053168296813965,
      "learning_rate": 0.0003980991831705842,
      "loss": 0.0107,
      "step": 6420
    },
    {
      "epoch": 21.433333333333334,
      "grad_norm": 0.28526216745376587,
      "learning_rate": 0.0003977154281713866,
      "loss": 0.0684,
      "step": 6430
    },
    {
      "epoch": 21.466666666666665,
      "grad_norm": 1.392630696296692,
      "learning_rate": 0.00039733113767452164,
      "loss": 0.0005,
      "step": 6440
    },
    {
      "epoch": 21.5,
      "grad_norm": 5.3771942475577816e-05,
      "learning_rate": 0.0003969463130731183,
      "loss": 0.0007,
      "step": 6450
    },
    {
      "epoch": 21.533333333333335,
      "grad_norm": 0.5646133422851562,
      "learning_rate": 0.00039656095576224204,
      "loss": 0.0082,
      "step": 6460
    },
    {
      "epoch": 21.566666666666666,
      "grad_norm": 57.72877883911133,
      "learning_rate": 0.0003961750671388894,
      "loss": 0.0146,
      "step": 6470
    },
    {
      "epoch": 21.6,
      "grad_norm": 23.014808654785156,
      "learning_rate": 0.000395788648601983,
      "loss": 0.0442,
      "step": 6480
    },
    {
      "epoch": 21.633333333333333,
      "grad_norm": 0.09101602435112,
      "learning_rate": 0.00039540170155236647,
      "loss": 0.0481,
      "step": 6490
    },
    {
      "epoch": 21.666666666666668,
      "grad_norm": 0.040844641625881195,
      "learning_rate": 0.0003950142273927996,
      "loss": 0.0161,
      "step": 6500
    },
    {
      "epoch": 21.7,
      "grad_norm": 0.4568909704685211,
      "learning_rate": 0.0003946262275279527,
      "loss": 0.0081,
      "step": 6510
    },
    {
      "epoch": 21.733333333333334,
      "grad_norm": 8.483947749482468e-05,
      "learning_rate": 0.00039423770336440234,
      "loss": 0.0169,
      "step": 6520
    },
    {
      "epoch": 21.766666666666666,
      "grad_norm": 0.016545411199331284,
      "learning_rate": 0.00039384865631062534,
      "loss": 0.0074,
      "step": 6530
    },
    {
      "epoch": 21.8,
      "grad_norm": 0.023100852966308594,
      "learning_rate": 0.00039345908777699436,
      "loss": 0.0144,
      "step": 6540
    },
    {
      "epoch": 21.833333333333332,
      "grad_norm": 0.012311081402003765,
      "learning_rate": 0.00039306899917577245,
      "loss": 0.0004,
      "step": 6550
    },
    {
      "epoch": 21.866666666666667,
      "grad_norm": 0.00015020677528809756,
      "learning_rate": 0.000392678391921108,
      "loss": 0.0178,
      "step": 6560
    },
    {
      "epoch": 21.9,
      "grad_norm": 2.5779238058021292e-05,
      "learning_rate": 0.00039228726742902956,
      "loss": 0.0042,
      "step": 6570
    },
    {
      "epoch": 21.933333333333334,
      "grad_norm": 0.0032437986228615046,
      "learning_rate": 0.0003918956271174409,
      "loss": 0.011,
      "step": 6580
    },
    {
      "epoch": 21.966666666666665,
      "grad_norm": 0.00043358461698517203,
      "learning_rate": 0.0003915034724061156,
      "loss": 0.0977,
      "step": 6590
    },
    {
      "epoch": 22.0,
      "grad_norm": 2.70005443780974e-07,
      "learning_rate": 0.0003911108047166924,
      "loss": 0.0241,
      "step": 6600
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.995,
      "eval_f1": 0.9949978595351413,
      "eval_kappa": 0.9899274778404512,
      "eval_loss": 0.005487921182066202,
      "eval_precision": 0.9950458715596331,
      "eval_recall": 0.995,
      "eval_runtime": 7.6114,
      "eval_samples_per_second": 52.552,
      "eval_steps_per_second": 2.233,
      "step": 6600
    },
    {
      "epoch": 22.033333333333335,
      "grad_norm": 0.0010603450937196612,
      "learning_rate": 0.000390717625472669,
      "loss": 0.0413,
      "step": 6610
    },
    {
      "epoch": 22.066666666666666,
      "grad_norm": 0.1451718658208847,
      "learning_rate": 0.00039032393609939823,
      "loss": 0.0002,
      "step": 6620
    },
    {
      "epoch": 22.1,
      "grad_norm": 4.978695142199285e-05,
      "learning_rate": 0.00038992973802408186,
      "loss": 0.0105,
      "step": 6630
    },
    {
      "epoch": 22.133333333333333,
      "grad_norm": 4.238208930473775e-05,
      "learning_rate": 0.00038953503267576616,
      "loss": 0.0145,
      "step": 6640
    },
    {
      "epoch": 22.166666666666668,
      "grad_norm": 1.652227759361267,
      "learning_rate": 0.000389139821485336,
      "loss": 0.0046,
      "step": 6650
    },
    {
      "epoch": 22.2,
      "grad_norm": 1.4371596574783325,
      "learning_rate": 0.0003887441058855101,
      "loss": 0.0048,
      "step": 6660
    },
    {
      "epoch": 22.233333333333334,
      "grad_norm": 0.01756283827126026,
      "learning_rate": 0.000388347887310836,
      "loss": 0.0005,
      "step": 6670
    },
    {
      "epoch": 22.266666666666666,
      "grad_norm": 0.007431345991790295,
      "learning_rate": 0.0003879511671976844,
      "loss": 0.0211,
      "step": 6680
    },
    {
      "epoch": 22.3,
      "grad_norm": 0.05154158174991608,
      "learning_rate": 0.0003875539469842443,
      "loss": 0.0051,
      "step": 6690
    },
    {
      "epoch": 22.333333333333332,
      "grad_norm": 17.479228973388672,
      "learning_rate": 0.00038715622811051755,
      "loss": 0.0117,
      "step": 6700
    },
    {
      "epoch": 22.366666666666667,
      "grad_norm": 0.0018899671267718077,
      "learning_rate": 0.0003867580120183137,
      "loss": 0.0056,
      "step": 6710
    },
    {
      "epoch": 22.4,
      "grad_norm": 0.4511035084724426,
      "learning_rate": 0.000386359300151245,
      "loss": 0.0026,
      "step": 6720
    },
    {
      "epoch": 22.433333333333334,
      "grad_norm": 26.481822967529297,
      "learning_rate": 0.000385960093954721,
      "loss": 0.0373,
      "step": 6730
    },
    {
      "epoch": 22.466666666666665,
      "grad_norm": 5.34855325895478e-06,
      "learning_rate": 0.00038556039487594305,
      "loss": 0.0001,
      "step": 6740
    },
    {
      "epoch": 22.5,
      "grad_norm": 0.846415102481842,
      "learning_rate": 0.0003851602043638994,
      "loss": 0.009,
      "step": 6750
    },
    {
      "epoch": 22.533333333333335,
      "grad_norm": 0.0109387943521142,
      "learning_rate": 0.00038475952386936,
      "loss": 0.0027,
      "step": 6760
    },
    {
      "epoch": 22.566666666666666,
      "grad_norm": 0.01608428731560707,
      "learning_rate": 0.00038435835484487094,
      "loss": 0.0182,
      "step": 6770
    },
    {
      "epoch": 22.6,
      "grad_norm": 8.210320629586931e-06,
      "learning_rate": 0.00038395669874474915,
      "loss": 0.0012,
      "step": 6780
    },
    {
      "epoch": 22.633333333333333,
      "grad_norm": 4.5128417696105316e-05,
      "learning_rate": 0.0003835545570250778,
      "loss": 0.0017,
      "step": 6790
    },
    {
      "epoch": 22.666666666666668,
      "grad_norm": 9.459803550271317e-05,
      "learning_rate": 0.00038315193114369994,
      "loss": 0.0702,
      "step": 6800
    },
    {
      "epoch": 22.7,
      "grad_norm": 0.1442583054304123,
      "learning_rate": 0.00038274882256021436,
      "loss": 0.0114,
      "step": 6810
    },
    {
      "epoch": 22.733333333333334,
      "grad_norm": 4.343274213169934e-06,
      "learning_rate": 0.00038234523273596925,
      "loss": 0.0054,
      "step": 6820
    },
    {
      "epoch": 22.766666666666666,
      "grad_norm": 3.1445400714874268,
      "learning_rate": 0.00038194116313405776,
      "loss": 0.0012,
      "step": 6830
    },
    {
      "epoch": 22.8,
      "grad_norm": 2.3695269192103297e-05,
      "learning_rate": 0.00038153661521931215,
      "loss": 0.0299,
      "step": 6840
    },
    {
      "epoch": 22.833333333333332,
      "grad_norm": 0.009363389573991299,
      "learning_rate": 0.00038113159045829857,
      "loss": 0.0171,
      "step": 6850
    },
    {
      "epoch": 22.866666666666667,
      "grad_norm": 24.479642868041992,
      "learning_rate": 0.00038072609031931216,
      "loss": 0.0459,
      "step": 6860
    },
    {
      "epoch": 22.9,
      "grad_norm": 0.00038373778806999326,
      "learning_rate": 0.00038032011627237104,
      "loss": 0.0467,
      "step": 6870
    },
    {
      "epoch": 22.933333333333334,
      "grad_norm": 0.0011447573779150844,
      "learning_rate": 0.0003799136697892115,
      "loss": 0.0058,
      "step": 6880
    },
    {
      "epoch": 22.966666666666665,
      "grad_norm": 0.0019354552496224642,
      "learning_rate": 0.00037950675234328256,
      "loss": 0.0077,
      "step": 6890
    },
    {
      "epoch": 23.0,
      "grad_norm": 14.743107795715332,
      "learning_rate": 0.0003790993654097405,
      "loss": 0.0033,
      "step": 6900
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.99,
      "eval_f1": 0.9899957190702827,
      "eval_kappa": 0.9798549556809025,
      "eval_loss": 0.013646052218973637,
      "eval_precision": 0.990041334811977,
      "eval_recall": 0.99,
      "eval_runtime": 7.3674,
      "eval_samples_per_second": 54.294,
      "eval_steps_per_second": 2.307,
      "step": 6900
    },
    {
      "epoch": 23.033333333333335,
      "grad_norm": 0.00013050199777353555,
      "learning_rate": 0.0003786915104654436,
      "loss": 0.0,
      "step": 6910
    },
    {
      "epoch": 23.066666666666666,
      "grad_norm": 0.5303778648376465,
      "learning_rate": 0.00037828318898894665,
      "loss": 0.0036,
      "step": 6920
    },
    {
      "epoch": 23.1,
      "grad_norm": 8.454459930362646e-06,
      "learning_rate": 0.000377874402460496,
      "loss": 0.0046,
      "step": 6930
    },
    {
      "epoch": 23.133333333333333,
      "grad_norm": 0.005222962703555822,
      "learning_rate": 0.0003774651523620237,
      "loss": 0.0,
      "step": 6940
    },
    {
      "epoch": 23.166666666666668,
      "grad_norm": 0.1712953895330429,
      "learning_rate": 0.0003770554401771423,
      "loss": 0.0041,
      "step": 6950
    },
    {
      "epoch": 23.2,
      "grad_norm": 0.17076972126960754,
      "learning_rate": 0.00037664526739113955,
      "loss": 0.0001,
      "step": 6960
    },
    {
      "epoch": 23.233333333333334,
      "grad_norm": 0.0013726474717259407,
      "learning_rate": 0.00037623463549097313,
      "loss": 0.0001,
      "step": 6970
    },
    {
      "epoch": 23.266666666666666,
      "grad_norm": 2.5219618692062795e-05,
      "learning_rate": 0.0003758235459652649,
      "loss": 0.0013,
      "step": 6980
    },
    {
      "epoch": 23.3,
      "grad_norm": 0.31080183386802673,
      "learning_rate": 0.0003754120003042957,
      "loss": 0.0033,
      "step": 6990
    },
    {
      "epoch": 23.333333333333332,
      "grad_norm": 0.00040980897028930485,
      "learning_rate": 0.000375,
      "loss": 0.0,
      "step": 7000
    },
    {
      "epoch": 23.366666666666667,
      "grad_norm": 6.820825547038112e-06,
      "learning_rate": 0.0003745875465459606,
      "loss": 0.0021,
      "step": 7010
    },
    {
      "epoch": 23.4,
      "grad_norm": 0.22616206109523773,
      "learning_rate": 0.0003741746414374028,
      "loss": 0.0021,
      "step": 7020
    },
    {
      "epoch": 23.433333333333334,
      "grad_norm": 6.284021765168291e-06,
      "learning_rate": 0.0003737612861711894,
      "loss": 0.0005,
      "step": 7030
    },
    {
      "epoch": 23.466666666666665,
      "grad_norm": 0.004215302877128124,
      "learning_rate": 0.00037334748224581506,
      "loss": 0.0132,
      "step": 7040
    },
    {
      "epoch": 23.5,
      "grad_norm": 0.9243494272232056,
      "learning_rate": 0.000372933231161401,
      "loss": 0.0049,
      "step": 7050
    },
    {
      "epoch": 23.533333333333335,
      "grad_norm": 0.0001606469159014523,
      "learning_rate": 0.0003725185344196892,
      "loss": 0.0001,
      "step": 7060
    },
    {
      "epoch": 23.566666666666666,
      "grad_norm": 1.1334620714187622,
      "learning_rate": 0.0003721033935240376,
      "loss": 0.0027,
      "step": 7070
    },
    {
      "epoch": 23.6,
      "grad_norm": 1.3876824378967285,
      "learning_rate": 0.0003716878099794141,
      "loss": 0.0105,
      "step": 7080
    },
    {
      "epoch": 23.633333333333333,
      "grad_norm": 5.220254593041318e-07,
      "learning_rate": 0.00037127178529239123,
      "loss": 0.0146,
      "step": 7090
    },
    {
      "epoch": 23.666666666666668,
      "grad_norm": 5.209434986114502,
      "learning_rate": 0.00037085532097114095,
      "loss": 0.0073,
      "step": 7100
    },
    {
      "epoch": 23.7,
      "grad_norm": 0.0003162418433930725,
      "learning_rate": 0.0003704384185254288,
      "loss": 0.0816,
      "step": 7110
    },
    {
      "epoch": 23.733333333333334,
      "grad_norm": 0.3284040689468384,
      "learning_rate": 0.00037002107946660875,
      "loss": 0.0005,
      "step": 7120
    },
    {
      "epoch": 23.766666666666666,
      "grad_norm": 0.00015756633365526795,
      "learning_rate": 0.00036960330530761733,
      "loss": 0.0046,
      "step": 7130
    },
    {
      "epoch": 23.8,
      "grad_norm": 33.33992004394531,
      "learning_rate": 0.00036918509756296873,
      "loss": 0.0572,
      "step": 7140
    },
    {
      "epoch": 23.833333333333332,
      "grad_norm": 0.003860224736854434,
      "learning_rate": 0.00036876645774874876,
      "loss": 0.0015,
      "step": 7150
    },
    {
      "epoch": 23.866666666666667,
      "grad_norm": 2.565090539974335e-07,
      "learning_rate": 0.00036834738738260954,
      "loss": 0.009,
      "step": 7160
    },
    {
      "epoch": 23.9,
      "grad_norm": 0.0023236051201820374,
      "learning_rate": 0.0003679278879837642,
      "loss": 0.0012,
      "step": 7170
    },
    {
      "epoch": 23.933333333333334,
      "grad_norm": 21.017024993896484,
      "learning_rate": 0.00036750796107298106,
      "loss": 0.0585,
      "step": 7180
    },
    {
      "epoch": 23.966666666666665,
      "grad_norm": 0.0037448403891175985,
      "learning_rate": 0.00036708760817257837,
      "loss": 0.0031,
      "step": 7190
    },
    {
      "epoch": 24.0,
      "grad_norm": 18.846464157104492,
      "learning_rate": 0.00036666683080641843,
      "loss": 0.0181,
      "step": 7200
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.9925,
      "eval_f1": 0.9924950401511573,
      "eval_kappa": 0.9848851269649335,
      "eval_loss": 0.013661917299032211,
      "eval_precision": 0.9926027397260273,
      "eval_recall": 0.9925,
      "eval_runtime": 8.9153,
      "eval_samples_per_second": 44.867,
      "eval_steps_per_second": 1.907,
      "step": 7200
    },
    {
      "epoch": 24.033333333333335,
      "grad_norm": 0.0003208270645700395,
      "learning_rate": 0.0003662456304999027,
      "loss": 0.0176,
      "step": 7210
    },
    {
      "epoch": 24.066666666666666,
      "grad_norm": 0.011914746835827827,
      "learning_rate": 0.00036582400877996547,
      "loss": 0.0073,
      "step": 7220
    },
    {
      "epoch": 24.1,
      "grad_norm": 0.362394779920578,
      "learning_rate": 0.000365401967175069,
      "loss": 0.0193,
      "step": 7230
    },
    {
      "epoch": 24.133333333333333,
      "grad_norm": 1.1130025256989029e-07,
      "learning_rate": 0.0003649795072151977,
      "loss": 0.0026,
      "step": 7240
    },
    {
      "epoch": 24.166666666666668,
      "grad_norm": 0.0001176462828880176,
      "learning_rate": 0.0003645566304318526,
      "loss": 0.0278,
      "step": 7250
    },
    {
      "epoch": 24.2,
      "grad_norm": 18.362728118896484,
      "learning_rate": 0.0003641333383580456,
      "loss": 0.0113,
      "step": 7260
    },
    {
      "epoch": 24.233333333333334,
      "grad_norm": 0.10462316870689392,
      "learning_rate": 0.0003637096325282945,
      "loss": 0.0138,
      "step": 7270
    },
    {
      "epoch": 24.266666666666666,
      "grad_norm": 0.006980831269174814,
      "learning_rate": 0.0003632855144786164,
      "loss": 0.0073,
      "step": 7280
    },
    {
      "epoch": 24.3,
      "grad_norm": 0.013762867078185081,
      "learning_rate": 0.00036286098574652353,
      "loss": 0.0004,
      "step": 7290
    },
    {
      "epoch": 24.333333333333332,
      "grad_norm": 13.014883995056152,
      "learning_rate": 0.00036243604787101645,
      "loss": 0.041,
      "step": 7300
    },
    {
      "epoch": 24.366666666666667,
      "grad_norm": 0.011269000358879566,
      "learning_rate": 0.0003620107023925791,
      "loss": 0.0074,
      "step": 7310
    },
    {
      "epoch": 24.4,
      "grad_norm": 0.0007277583354152739,
      "learning_rate": 0.000361584950853173,
      "loss": 0.0003,
      "step": 7320
    },
    {
      "epoch": 24.433333333333334,
      "grad_norm": 24.452768325805664,
      "learning_rate": 0.00036115879479623185,
      "loss": 0.0162,
      "step": 7330
    },
    {
      "epoch": 24.466666666666665,
      "grad_norm": 0.004250858910381794,
      "learning_rate": 0.0003607322357666557,
      "loss": 0.0102,
      "step": 7340
    },
    {
      "epoch": 24.5,
      "grad_norm": 4.788829326629639,
      "learning_rate": 0.0003603052753108053,
      "loss": 0.002,
      "step": 7350
    },
    {
      "epoch": 24.533333333333335,
      "grad_norm": 5.666919605573639e-05,
      "learning_rate": 0.000359877914976497,
      "loss": 0.0132,
      "step": 7360
    },
    {
      "epoch": 24.566666666666666,
      "grad_norm": 0.00400648545473814,
      "learning_rate": 0.0003594501563129966,
      "loss": 0.0018,
      "step": 7370
    },
    {
      "epoch": 24.6,
      "grad_norm": 2.8069054678780958e-05,
      "learning_rate": 0.00035902200087101384,
      "loss": 0.0168,
      "step": 7380
    },
    {
      "epoch": 24.633333333333333,
      "grad_norm": 0.012254276312887669,
      "learning_rate": 0.000358593450202697,
      "loss": 0.0429,
      "step": 7390
    },
    {
      "epoch": 24.666666666666668,
      "grad_norm": 7.442674387903025e-08,
      "learning_rate": 0.00035816450586162706,
      "loss": 0.0025,
      "step": 7400
    },
    {
      "epoch": 24.7,
      "grad_norm": 9.398029327392578,
      "learning_rate": 0.00035773516940281223,
      "loss": 0.0135,
      "step": 7410
    },
    {
      "epoch": 24.733333333333334,
      "grad_norm": 1.0428972927911673e-05,
      "learning_rate": 0.00035730544238268206,
      "loss": 0.0181,
      "step": 7420
    },
    {
      "epoch": 24.766666666666666,
      "grad_norm": 0.0002591295342426747,
      "learning_rate": 0.00035687532635908216,
      "loss": 0.0039,
      "step": 7430
    },
    {
      "epoch": 24.8,
      "grad_norm": 0.00013015963486395776,
      "learning_rate": 0.0003564448228912682,
      "loss": 0.0033,
      "step": 7440
    },
    {
      "epoch": 24.833333333333332,
      "grad_norm": 0.19798079133033752,
      "learning_rate": 0.00035601393353990046,
      "loss": 0.0,
      "step": 7450
    },
    {
      "epoch": 24.866666666666667,
      "grad_norm": 0.18493784964084625,
      "learning_rate": 0.0003555826598670382,
      "loss": 0.0171,
      "step": 7460
    },
    {
      "epoch": 24.9,
      "grad_norm": 0.0026060056407004595,
      "learning_rate": 0.0003551510034361337,
      "loss": 0.0366,
      "step": 7470
    },
    {
      "epoch": 24.933333333333334,
      "grad_norm": 0.0010627699084579945,
      "learning_rate": 0.0003547189658120272,
      "loss": 0.0027,
      "step": 7480
    },
    {
      "epoch": 24.966666666666665,
      "grad_norm": 5.541090104088653e-06,
      "learning_rate": 0.0003542865485609404,
      "loss": 0.0009,
      "step": 7490
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.0014559195842593908,
      "learning_rate": 0.00035385375325047166,
      "loss": 0.0171,
      "step": 7500
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 1.0,
      "eval_f1": 1.0,
      "eval_kappa": 1.0,
      "eval_loss": 0.005007035564631224,
      "eval_precision": 1.0,
      "eval_recall": 1.0,
      "eval_runtime": 8.9128,
      "eval_samples_per_second": 44.879,
      "eval_steps_per_second": 1.907,
      "step": 7500
    }
  ],
  "logging_steps": 10,
  "max_steps": 18000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 60,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.89101405896704e+18,
  "train_batch_size": 24,
  "trial_name": null,
  "trial_params": null
}