leopard_phikon_31_may / trainer_state.json

Upload 8 files

ee011fb verified 8 months ago

137 kB

	{
	"best_metric": 1.0,
	"best_model_checkpoint": "phikon_leopard_2/checkpoint-7500",
	"epoch": 25.0,
	"eval_steps": 500,
	"global_step": 7500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 10.40684986114502,
	"learning_rate": 3.3333333333333337e-06,
	"loss": 0.8204,
	"step": 10
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 13.229052543640137,
	"learning_rate": 6.6666666666666675e-06,
	"loss": 0.8376,
	"step": 20
	},
	{
	"epoch": 0.1,
	"grad_norm": 14.727029800415039,
	"learning_rate": 1e-05,
	"loss": 0.8368,
	"step": 30
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 19.26563835144043,
	"learning_rate": 1.3333333333333335e-05,
	"loss": 0.6774,
	"step": 40
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 12.464519500732422,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.6611,
	"step": 50
	},
	{
	"epoch": 0.2,
	"grad_norm": 9.706178665161133,
	"learning_rate": 2e-05,
	"loss": 0.5936,
	"step": 60
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 20.20228385925293,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.5647,
	"step": 70
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 9.019632339477539,
	"learning_rate": 2.666666666666667e-05,
	"loss": 0.4235,
	"step": 80
	},
	{
	"epoch": 0.3,
	"grad_norm": 9.443696022033691,
	"learning_rate": 3e-05,
	"loss": 0.3427,
	"step": 90
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 13.720805168151855,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.3335,
	"step": 100
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 32.24056625366211,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.2616,
	"step": 110
	},
	{
	"epoch": 0.4,
	"grad_norm": 27.36871910095215,
	"learning_rate": 4e-05,
	"loss": 0.231,
	"step": 120
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 6.440493106842041,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.2306,
	"step": 130
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 3.979595422744751,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.1915,
	"step": 140
	},
	{
	"epoch": 0.5,
	"grad_norm": 14.703475952148438,
	"learning_rate": 5e-05,
	"loss": 0.2146,
	"step": 150
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 12.133000373840332,
	"learning_rate": 5.333333333333334e-05,
	"loss": 0.1677,
	"step": 160
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 3.946819305419922,
	"learning_rate": 5.6666666666666664e-05,
	"loss": 0.1136,
	"step": 170
	},
	{
	"epoch": 0.6,
	"grad_norm": 17.351539611816406,
	"learning_rate": 6e-05,
	"loss": 0.1685,
	"step": 180
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 8.088935852050781,
	"learning_rate": 6.333333333333335e-05,
	"loss": 0.2801,
	"step": 190
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 1.9004828929901123,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.1142,
	"step": 200
	},
	{
	"epoch": 0.7,
	"grad_norm": 22.632282257080078,
	"learning_rate": 7.000000000000001e-05,
	"loss": 0.1934,
	"step": 210
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 16.069622039794922,
	"learning_rate": 7.333333333333333e-05,
	"loss": 0.2116,
	"step": 220
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 4.640405178070068,
	"learning_rate": 7.666666666666667e-05,
	"loss": 0.2516,
	"step": 230
	},
	{
	"epoch": 0.8,
	"grad_norm": 21.024972915649414,
	"learning_rate": 8e-05,
	"loss": 0.2464,
	"step": 240
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 24.865827560424805,
	"learning_rate": 8.333333333333333e-05,
	"loss": 0.1282,
	"step": 250
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 57.33536911010742,
	"learning_rate": 8.666666666666667e-05,
	"loss": 0.1288,
	"step": 260
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.9938220977783203,
	"learning_rate": 8.999999999999999e-05,
	"loss": 0.0878,
	"step": 270
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 5.010091781616211,
	"learning_rate": 9.333333333333334e-05,
	"loss": 0.0548,
	"step": 280
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 11.914796829223633,
	"learning_rate": 9.666666666666667e-05,
	"loss": 0.1699,
	"step": 290
	},
	{
	"epoch": 1.0,
	"grad_norm": 3.1874632835388184,
	"learning_rate": 0.0001,
	"loss": 0.1314,
	"step": 300
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.965,
	"eval_f1": 0.9650526315789475,
	"eval_kappa": 0.9298878205128205,
	"eval_loss": 0.0974951758980751,
	"eval_precision": 0.9668427370948379,
	"eval_recall": 0.965,
	"eval_runtime": 7.3478,
	"eval_samples_per_second": 54.438,
	"eval_steps_per_second": 2.314,
	"step": 300
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 5.853661060333252,
	"learning_rate": 0.00010333333333333333,
	"loss": 0.1632,
	"step": 310
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 4.40404748916626,
	"learning_rate": 0.00010666666666666668,
	"loss": 0.179,
	"step": 320
	},
	{
	"epoch": 1.1,
	"grad_norm": 13.998967170715332,
	"learning_rate": 0.00011,
	"loss": 0.1205,
	"step": 330
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 2.588562488555908,
	"learning_rate": 0.00011333333333333333,
	"loss": 0.0696,
	"step": 340
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 58.213844299316406,
	"learning_rate": 0.00011666666666666667,
	"loss": 0.185,
	"step": 350
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.5367558598518372,
	"learning_rate": 0.00012,
	"loss": 0.0978,
	"step": 360
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 5.09960412979126,
	"learning_rate": 0.00012333333333333334,
	"loss": 0.0441,
	"step": 370
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 8.864643096923828,
	"learning_rate": 0.0001266666666666667,
	"loss": 0.133,
	"step": 380
	},
	{
	"epoch": 1.3,
	"grad_norm": 18.213979721069336,
	"learning_rate": 0.00013000000000000002,
	"loss": 0.1125,
	"step": 390
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 43.96633529663086,
	"learning_rate": 0.00013333333333333334,
	"loss": 0.081,
	"step": 400
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 16.093639373779297,
	"learning_rate": 0.00013666666666666666,
	"loss": 0.2059,
	"step": 410
	},
	{
	"epoch": 1.4,
	"grad_norm": 5.3681182861328125,
	"learning_rate": 0.00014000000000000001,
	"loss": 0.1092,
	"step": 420
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 22.289615631103516,
	"learning_rate": 0.00014333333333333334,
	"loss": 0.1799,
	"step": 430
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 10.704950332641602,
	"learning_rate": 0.00014666666666666666,
	"loss": 0.0896,
	"step": 440
	},
	{
	"epoch": 1.5,
	"grad_norm": 9.731138229370117,
	"learning_rate": 0.00015,
	"loss": 0.084,
	"step": 450
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 73.84809875488281,
	"learning_rate": 0.00015333333333333334,
	"loss": 0.1068,
	"step": 460
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 11.718538284301758,
	"learning_rate": 0.0001566666666666667,
	"loss": 0.1381,
	"step": 470
	},
	{
	"epoch": 1.6,
	"grad_norm": 6.703563690185547,
	"learning_rate": 0.00016,
	"loss": 0.1447,
	"step": 480
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 0.5254905223846436,
	"learning_rate": 0.00016333333333333334,
	"loss": 0.1534,
	"step": 490
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 15.59839153289795,
	"learning_rate": 0.00016666666666666666,
	"loss": 0.0839,
	"step": 500
	},
	{
	"epoch": 1.7,
	"grad_norm": 51.54722595214844,
	"learning_rate": 0.00017,
	"loss": 0.0946,
	"step": 510
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 0.4045482277870178,
	"learning_rate": 0.00017333333333333334,
	"loss": 0.1094,
	"step": 520
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 1.8732757568359375,
	"learning_rate": 0.00017666666666666666,
	"loss": 0.0615,
	"step": 530
	},
	{
	"epoch": 1.8,
	"grad_norm": 2.8650341033935547,
	"learning_rate": 0.00017999999999999998,
	"loss": 0.0313,
	"step": 540
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 53.85961151123047,
	"learning_rate": 0.00018333333333333334,
	"loss": 0.2269,
	"step": 550
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 22.627843856811523,
	"learning_rate": 0.0001866666666666667,
	"loss": 0.1654,
	"step": 560
	},
	{
	"epoch": 1.9,
	"grad_norm": 26.226465225219727,
	"learning_rate": 0.00019,
	"loss": 0.0884,
	"step": 570
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 2.285435676574707,
	"learning_rate": 0.00019333333333333333,
	"loss": 0.1131,
	"step": 580
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 25.028507232666016,
	"learning_rate": 0.00019666666666666666,
	"loss": 0.1031,
	"step": 590
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.4155627489089966,
	"learning_rate": 0.0002,
	"loss": 0.0514,
	"step": 600
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924984425244319,
	"eval_kappa": 0.9848973016512284,
	"eval_loss": 0.032248713076114655,
	"eval_precision": 0.9925093802724686,
	"eval_recall": 0.9925,
	"eval_runtime": 7.4789,
	"eval_samples_per_second": 53.484,
	"eval_steps_per_second": 2.273,
	"step": 600
	},
	{
	"epoch": 2.033333333333333,
	"grad_norm": 11.480493545532227,
	"learning_rate": 0.00020333333333333333,
	"loss": 0.1238,
	"step": 610
	},
	{
	"epoch": 2.066666666666667,
	"grad_norm": 34.10750198364258,
	"learning_rate": 0.00020666666666666666,
	"loss": 0.1613,
	"step": 620
	},
	{
	"epoch": 2.1,
	"grad_norm": 59.7767333984375,
	"learning_rate": 0.00021,
	"loss": 0.153,
	"step": 630
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 0.030956873670220375,
	"learning_rate": 0.00021333333333333336,
	"loss": 0.0362,
	"step": 640
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 0.7113701105117798,
	"learning_rate": 0.00021666666666666668,
	"loss": 0.1279,
	"step": 650
	},
	{
	"epoch": 2.2,
	"grad_norm": 0.036753419786691666,
	"learning_rate": 0.00022,
	"loss": 0.0826,
	"step": 660
	},
	{
	"epoch": 2.2333333333333334,
	"grad_norm": 31.153987884521484,
	"learning_rate": 0.00022333333333333333,
	"loss": 0.0544,
	"step": 670
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 41.63099670410156,
	"learning_rate": 0.00022666666666666666,
	"loss": 0.1596,
	"step": 680
	},
	{
	"epoch": 2.3,
	"grad_norm": 16.148771286010742,
	"learning_rate": 0.00023,
	"loss": 0.3149,
	"step": 690
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 3.936267852783203,
	"learning_rate": 0.00023333333333333333,
	"loss": 0.087,
	"step": 700
	},
	{
	"epoch": 2.3666666666666667,
	"grad_norm": 10.360591888427734,
	"learning_rate": 0.00023666666666666668,
	"loss": 0.0539,
	"step": 710
	},
	{
	"epoch": 2.4,
	"grad_norm": 7.021051406860352,
	"learning_rate": 0.00024,
	"loss": 0.1349,
	"step": 720
	},
	{
	"epoch": 2.4333333333333336,
	"grad_norm": 19.7969913482666,
	"learning_rate": 0.00024333333333333336,
	"loss": 0.1902,
	"step": 730
	},
	{
	"epoch": 2.466666666666667,
	"grad_norm": 3.9114363193511963,
	"learning_rate": 0.0002466666666666667,
	"loss": 0.1267,
	"step": 740
	},
	{
	"epoch": 2.5,
	"grad_norm": 7.794479846954346,
	"learning_rate": 0.00025,
	"loss": 0.06,
	"step": 750
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 6.126293659210205,
	"learning_rate": 0.0002533333333333334,
	"loss": 0.1415,
	"step": 760
	},
	{
	"epoch": 2.5666666666666664,
	"grad_norm": 37.84233474731445,
	"learning_rate": 0.00025666666666666665,
	"loss": 0.1258,
	"step": 770
	},
	{
	"epoch": 2.6,
	"grad_norm": 23.545204162597656,
	"learning_rate": 0.00026000000000000003,
	"loss": 0.171,
	"step": 780
	},
	{
	"epoch": 2.6333333333333333,
	"grad_norm": 28.475013732910156,
	"learning_rate": 0.0002633333333333333,
	"loss": 0.257,
	"step": 790
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 3.5256567001342773,
	"learning_rate": 0.0002666666666666667,
	"loss": 0.0947,
	"step": 800
	},
	{
	"epoch": 2.7,
	"grad_norm": 3.099149703979492,
	"learning_rate": 0.00027,
	"loss": 0.064,
	"step": 810
	},
	{
	"epoch": 2.7333333333333334,
	"grad_norm": 0.26131123304367065,
	"learning_rate": 0.00027333333333333333,
	"loss": 0.0546,
	"step": 820
	},
	{
	"epoch": 2.7666666666666666,
	"grad_norm": 12.054543495178223,
	"learning_rate": 0.00027666666666666665,
	"loss": 0.0212,
	"step": 830
	},
	{
	"epoch": 2.8,
	"grad_norm": 0.029533645138144493,
	"learning_rate": 0.00028000000000000003,
	"loss": 0.1015,
	"step": 840
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 15.776507377624512,
	"learning_rate": 0.00028333333333333335,
	"loss": 0.0697,
	"step": 850
	},
	{
	"epoch": 2.8666666666666667,
	"grad_norm": 27.243316650390625,
	"learning_rate": 0.0002866666666666667,
	"loss": 0.0792,
	"step": 860
	},
	{
	"epoch": 2.9,
	"grad_norm": 1.336427092552185,
	"learning_rate": 0.00029,
	"loss": 0.0692,
	"step": 870
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 0.8693376183509827,
	"learning_rate": 0.0002933333333333333,
	"loss": 0.1561,
	"step": 880
	},
	{
	"epoch": 2.966666666666667,
	"grad_norm": 23.98179054260254,
	"learning_rate": 0.0002966666666666667,
	"loss": 0.0723,
	"step": 890
	},
	{
	"epoch": 3.0,
	"grad_norm": 7.080474853515625,
	"learning_rate": 0.0003,
	"loss": 0.0331,
	"step": 900
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.975,
	"eval_f1": 0.9749336434186909,
	"eval_kappa": 0.9494745351657236,
	"eval_loss": 0.07423003017902374,
	"eval_precision": 0.9761061946902655,
	"eval_recall": 0.975,
	"eval_runtime": 7.4439,
	"eval_samples_per_second": 53.735,
	"eval_steps_per_second": 2.284,
	"step": 900
	},
	{
	"epoch": 3.033333333333333,
	"grad_norm": 0.6346681714057922,
	"learning_rate": 0.00030333333333333335,
	"loss": 0.0951,
	"step": 910
	},
	{
	"epoch": 3.066666666666667,
	"grad_norm": 5.4937262535095215,
	"learning_rate": 0.0003066666666666667,
	"loss": 0.0309,
	"step": 920
	},
	{
	"epoch": 3.1,
	"grad_norm": 0.28873440623283386,
	"learning_rate": 0.00031,
	"loss": 0.0722,
	"step": 930
	},
	{
	"epoch": 3.1333333333333333,
	"grad_norm": 23.229862213134766,
	"learning_rate": 0.0003133333333333334,
	"loss": 0.1332,
	"step": 940
	},
	{
	"epoch": 3.1666666666666665,
	"grad_norm": 12.44790267944336,
	"learning_rate": 0.00031666666666666665,
	"loss": 0.1945,
	"step": 950
	},
	{
	"epoch": 3.2,
	"grad_norm": 24.034635543823242,
	"learning_rate": 0.00032,
	"loss": 0.0665,
	"step": 960
	},
	{
	"epoch": 3.2333333333333334,
	"grad_norm": 4.845742225646973,
	"learning_rate": 0.0003233333333333333,
	"loss": 0.1132,
	"step": 970
	},
	{
	"epoch": 3.2666666666666666,
	"grad_norm": 13.879509925842285,
	"learning_rate": 0.0003266666666666667,
	"loss": 0.1168,
	"step": 980
	},
	{
	"epoch": 3.3,
	"grad_norm": 0.8819650411605835,
	"learning_rate": 0.00033,
	"loss": 0.03,
	"step": 990
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 20.817033767700195,
	"learning_rate": 0.0003333333333333333,
	"loss": 0.1599,
	"step": 1000
	},
	{
	"epoch": 3.3666666666666667,
	"grad_norm": 0.08637402951717377,
	"learning_rate": 0.0003366666666666667,
	"loss": 0.0989,
	"step": 1010
	},
	{
	"epoch": 3.4,
	"grad_norm": 12.32111644744873,
	"learning_rate": 0.00034,
	"loss": 0.064,
	"step": 1020
	},
	{
	"epoch": 3.4333333333333336,
	"grad_norm": 4.319044589996338,
	"learning_rate": 0.00034333333333333335,
	"loss": 0.1845,
	"step": 1030
	},
	{
	"epoch": 3.466666666666667,
	"grad_norm": 4.642833232879639,
	"learning_rate": 0.00034666666666666667,
	"loss": 0.0245,
	"step": 1040
	},
	{
	"epoch": 3.5,
	"grad_norm": 4.123671531677246,
	"learning_rate": 0.00035,
	"loss": 0.0534,
	"step": 1050
	},
	{
	"epoch": 3.533333333333333,
	"grad_norm": 39.12535858154297,
	"learning_rate": 0.0003533333333333333,
	"loss": 0.2904,
	"step": 1060
	},
	{
	"epoch": 3.5666666666666664,
	"grad_norm": 0.37203097343444824,
	"learning_rate": 0.0003566666666666667,
	"loss": 0.1135,
	"step": 1070
	},
	{
	"epoch": 3.6,
	"grad_norm": 0.8821052312850952,
	"learning_rate": 0.00035999999999999997,
	"loss": 0.1018,
	"step": 1080
	},
	{
	"epoch": 3.6333333333333333,
	"grad_norm": 16.677507400512695,
	"learning_rate": 0.00036333333333333335,
	"loss": 0.1235,
	"step": 1090
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 1.3173631429672241,
	"learning_rate": 0.00036666666666666667,
	"loss": 0.0596,
	"step": 1100
	},
	{
	"epoch": 3.7,
	"grad_norm": 1.2510654926300049,
	"learning_rate": 0.00037,
	"loss": 0.0666,
	"step": 1110
	},
	{
	"epoch": 3.7333333333333334,
	"grad_norm": 14.92336654663086,
	"learning_rate": 0.0003733333333333334,
	"loss": 0.1338,
	"step": 1120
	},
	{
	"epoch": 3.7666666666666666,
	"grad_norm": 39.0262336730957,
	"learning_rate": 0.00037666666666666664,
	"loss": 0.0891,
	"step": 1130
	},
	{
	"epoch": 3.8,
	"grad_norm": 0.018070606514811516,
	"learning_rate": 0.00038,
	"loss": 0.031,
	"step": 1140
	},
	{
	"epoch": 3.8333333333333335,
	"grad_norm": 22.499074935913086,
	"learning_rate": 0.00038333333333333334,
	"loss": 0.0426,
	"step": 1150
	},
	{
	"epoch": 3.8666666666666667,
	"grad_norm": 8.244810104370117,
	"learning_rate": 0.00038666666666666667,
	"loss": 0.0845,
	"step": 1160
	},
	{
	"epoch": 3.9,
	"grad_norm": 2.2742626667022705,
	"learning_rate": 0.00039000000000000005,
	"loss": 0.0561,
	"step": 1170
	},
	{
	"epoch": 3.9333333333333336,
	"grad_norm": 0.7521847486495972,
	"learning_rate": 0.0003933333333333333,
	"loss": 0.0572,
	"step": 1180
	},
	{
	"epoch": 3.966666666666667,
	"grad_norm": 0.09927993267774582,
	"learning_rate": 0.0003966666666666667,
	"loss": 0.1111,
	"step": 1190
	},
	{
	"epoch": 4.0,
	"grad_norm": 18.968303680419922,
	"learning_rate": 0.0004,
	"loss": 0.1484,
	"step": 1200
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.99,
	"eval_f1": 0.989990926504688,
	"eval_kappa": 0.9798387096774194,
	"eval_loss": 0.04373510926961899,
	"eval_precision": 0.9901818181818182,
	"eval_recall": 0.99,
	"eval_runtime": 7.4926,
	"eval_samples_per_second": 53.386,
	"eval_steps_per_second": 2.269,
	"step": 1200
	},
	{
	"epoch": 4.033333333333333,
	"grad_norm": 25.371929168701172,
	"learning_rate": 0.00040333333333333334,
	"loss": 0.0635,
	"step": 1210
	},
	{
	"epoch": 4.066666666666666,
	"grad_norm": 14.979025840759277,
	"learning_rate": 0.00040666666666666667,
	"loss": 0.2519,
	"step": 1220
	},
	{
	"epoch": 4.1,
	"grad_norm": 12.460908889770508,
	"learning_rate": 0.00041,
	"loss": 0.1177,
	"step": 1230
	},
	{
	"epoch": 4.133333333333334,
	"grad_norm": 1.3772943019866943,
	"learning_rate": 0.0004133333333333333,
	"loss": 0.0524,
	"step": 1240
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 29.62944221496582,
	"learning_rate": 0.0004166666666666667,
	"loss": 0.0839,
	"step": 1250
	},
	{
	"epoch": 4.2,
	"grad_norm": 15.755326271057129,
	"learning_rate": 0.00042,
	"loss": 0.2239,
	"step": 1260
	},
	{
	"epoch": 4.233333333333333,
	"grad_norm": 2.076596975326538,
	"learning_rate": 0.00042333333333333334,
	"loss": 0.0918,
	"step": 1270
	},
	{
	"epoch": 4.266666666666667,
	"grad_norm": 3.272007703781128,
	"learning_rate": 0.0004266666666666667,
	"loss": 0.0529,
	"step": 1280
	},
	{
	"epoch": 4.3,
	"grad_norm": 1.8795185089111328,
	"learning_rate": 0.00043,
	"loss": 0.069,
	"step": 1290
	},
	{
	"epoch": 4.333333333333333,
	"grad_norm": 0.2725735902786255,
	"learning_rate": 0.00043333333333333337,
	"loss": 0.0404,
	"step": 1300
	},
	{
	"epoch": 4.366666666666666,
	"grad_norm": 28.226680755615234,
	"learning_rate": 0.00043666666666666664,
	"loss": 0.0561,
	"step": 1310
	},
	{
	"epoch": 4.4,
	"grad_norm": 5.252725601196289,
	"learning_rate": 0.00044,
	"loss": 0.1038,
	"step": 1320
	},
	{
	"epoch": 4.433333333333334,
	"grad_norm": 1.2938400506973267,
	"learning_rate": 0.00044333333333333334,
	"loss": 0.2152,
	"step": 1330
	},
	{
	"epoch": 4.466666666666667,
	"grad_norm": 9.768004417419434,
	"learning_rate": 0.00044666666666666666,
	"loss": 0.0891,
	"step": 1340
	},
	{
	"epoch": 4.5,
	"grad_norm": 0.7659115791320801,
	"learning_rate": 0.00045000000000000004,
	"loss": 0.0769,
	"step": 1350
	},
	{
	"epoch": 4.533333333333333,
	"grad_norm": 0.8454284071922302,
	"learning_rate": 0.0004533333333333333,
	"loss": 0.0795,
	"step": 1360
	},
	{
	"epoch": 4.566666666666666,
	"grad_norm": 19.232542037963867,
	"learning_rate": 0.0004566666666666667,
	"loss": 0.0874,
	"step": 1370
	},
	{
	"epoch": 4.6,
	"grad_norm": 20.568710327148438,
	"learning_rate": 0.00046,
	"loss": 0.0861,
	"step": 1380
	},
	{
	"epoch": 4.633333333333333,
	"grad_norm": 14.232442855834961,
	"learning_rate": 0.00046333333333333334,
	"loss": 0.0653,
	"step": 1390
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 0.21883870661258698,
	"learning_rate": 0.00046666666666666666,
	"loss": 0.0606,
	"step": 1400
	},
	{
	"epoch": 4.7,
	"grad_norm": 6.472827911376953,
	"learning_rate": 0.00047,
	"loss": 0.0891,
	"step": 1410
	},
	{
	"epoch": 4.733333333333333,
	"grad_norm": 4.268059253692627,
	"learning_rate": 0.00047333333333333336,
	"loss": 0.0715,
	"step": 1420
	},
	{
	"epoch": 4.766666666666667,
	"grad_norm": 1.4576590061187744,
	"learning_rate": 0.0004766666666666667,
	"loss": 0.1292,
	"step": 1430
	},
	{
	"epoch": 4.8,
	"grad_norm": 36.225502014160156,
	"learning_rate": 0.00048,
	"loss": 0.154,
	"step": 1440
	},
	{
	"epoch": 4.833333333333333,
	"grad_norm": 0.5948257446289062,
	"learning_rate": 0.00048333333333333334,
	"loss": 0.0321,
	"step": 1450
	},
	{
	"epoch": 4.866666666666667,
	"grad_norm": 0.3781585693359375,
	"learning_rate": 0.0004866666666666667,
	"loss": 0.0378,
	"step": 1460
	},
	{
	"epoch": 4.9,
	"grad_norm": 16.30947494506836,
	"learning_rate": 0.00049,
	"loss": 0.1035,
	"step": 1470
	},
	{
	"epoch": 4.933333333333334,
	"grad_norm": 12.747450828552246,
	"learning_rate": 0.0004933333333333334,
	"loss": 0.0539,
	"step": 1480
	},
	{
	"epoch": 4.966666666666667,
	"grad_norm": 20.051815032958984,
	"learning_rate": 0.0004966666666666666,
	"loss": 0.097,
	"step": 1490
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.6473357677459717,
	"learning_rate": 0.0005,
	"loss": 0.1261,
	"step": 1500
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924984425244319,
	"eval_kappa": 0.9848973016512284,
	"eval_loss": 0.04971776530146599,
	"eval_precision": 0.9925093802724686,
	"eval_recall": 0.9925,
	"eval_runtime": 7.2832,
	"eval_samples_per_second": 54.921,
	"eval_steps_per_second": 2.334,
	"step": 1500
	},
	{
	"epoch": 5.033333333333333,
	"grad_norm": 0.21915239095687866,
	"learning_rate": 0.0004999995468502563,
	"loss": 0.1911,
	"step": 1510
	},
	{
	"epoch": 5.066666666666666,
	"grad_norm": 4.358417987823486,
	"learning_rate": 0.0004999981874026677,
	"loss": 0.1721,
	"step": 1520
	},
	{
	"epoch": 5.1,
	"grad_norm": 2.60898756980896,
	"learning_rate": 0.0004999959216621625,
	"loss": 0.0663,
	"step": 1530
	},
	{
	"epoch": 5.133333333333334,
	"grad_norm": 2.521845579147339,
	"learning_rate": 0.0004999927496369547,
	"loss": 0.0661,
	"step": 1540
	},
	{
	"epoch": 5.166666666666667,
	"grad_norm": 17.43767547607422,
	"learning_rate": 0.0004999886713385432,
	"loss": 0.0643,
	"step": 1550
	},
	{
	"epoch": 5.2,
	"grad_norm": 10.015254974365234,
	"learning_rate": 0.000499983686781713,
	"loss": 0.1634,
	"step": 1560
	},
	{
	"epoch": 5.233333333333333,
	"grad_norm": 14.734820365905762,
	"learning_rate": 0.0004999777959845337,
	"loss": 0.0929,
	"step": 1570
	},
	{
	"epoch": 5.266666666666667,
	"grad_norm": 18.222352981567383,
	"learning_rate": 0.0004999709989683607,
	"loss": 0.1415,
	"step": 1580
	},
	{
	"epoch": 5.3,
	"grad_norm": 4.770617961883545,
	"learning_rate": 0.0004999632957578349,
	"loss": 0.0573,
	"step": 1590
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 31.683618545532227,
	"learning_rate": 0.0004999546863808815,
	"loss": 0.129,
	"step": 1600
	},
	{
	"epoch": 5.366666666666666,
	"grad_norm": 0.03848810866475105,
	"learning_rate": 0.0004999451708687113,
	"loss": 0.0678,
	"step": 1610
	},
	{
	"epoch": 5.4,
	"grad_norm": 0.01938723959028721,
	"learning_rate": 0.0004999347492558202,
	"loss": 0.1103,
	"step": 1620
	},
	{
	"epoch": 5.433333333333334,
	"grad_norm": 12.235125541687012,
	"learning_rate": 0.0004999234215799884,
	"loss": 0.2061,
	"step": 1630
	},
	{
	"epoch": 5.466666666666667,
	"grad_norm": 3.241697311401367,
	"learning_rate": 0.0004999111878822808,
	"loss": 0.0229,
	"step": 1640
	},
	{
	"epoch": 5.5,
	"grad_norm": 18.129112243652344,
	"learning_rate": 0.0004998980482070473,
	"loss": 0.1596,
	"step": 1650
	},
	{
	"epoch": 5.533333333333333,
	"grad_norm": 0.8510303497314453,
	"learning_rate": 0.0004998840026019216,
	"loss": 0.0243,
	"step": 1660
	},
	{
	"epoch": 5.566666666666666,
	"grad_norm": 0.5481222867965698,
	"learning_rate": 0.000499869051117822,
	"loss": 0.0365,
	"step": 1670
	},
	{
	"epoch": 5.6,
	"grad_norm": 0.0010958850616589189,
	"learning_rate": 0.0004998531938089503,
	"loss": 0.1484,
	"step": 1680
	},
	{
	"epoch": 5.633333333333333,
	"grad_norm": 8.034405708312988,
	"learning_rate": 0.0004998364307327927,
	"loss": 0.0568,
	"step": 1690
	},
	{
	"epoch": 5.666666666666667,
	"grad_norm": 2.918168544769287,
	"learning_rate": 0.0004998187619501184,
	"loss": 0.0234,
	"step": 1700
	},
	{
	"epoch": 5.7,
	"grad_norm": 7.948535442352295,
	"learning_rate": 0.0004998001875249804,
	"loss": 0.0457,
	"step": 1710
	},
	{
	"epoch": 5.733333333333333,
	"grad_norm": 1.4337245225906372,
	"learning_rate": 0.0004997807075247146,
	"loss": 0.1755,
	"step": 1720
	},
	{
	"epoch": 5.766666666666667,
	"grad_norm": 0.09344102442264557,
	"learning_rate": 0.0004997603220199398,
	"loss": 0.0266,
	"step": 1730
	},
	{
	"epoch": 5.8,
	"grad_norm": 29.620872497558594,
	"learning_rate": 0.0004997390310845578,
	"loss": 0.1196,
	"step": 1740
	},
	{
	"epoch": 5.833333333333333,
	"grad_norm": 0.45817267894744873,
	"learning_rate": 0.000499716834795752,
	"loss": 0.0245,
	"step": 1750
	},
	{
	"epoch": 5.866666666666667,
	"grad_norm": 22.253326416015625,
	"learning_rate": 0.0004996937332339887,
	"loss": 0.1039,
	"step": 1760
	},
	{
	"epoch": 5.9,
	"grad_norm": 20.02093505859375,
	"learning_rate": 0.0004996697264830153,
	"loss": 0.0605,
	"step": 1770
	},
	{
	"epoch": 5.933333333333334,
	"grad_norm": 6.386890888214111,
	"learning_rate": 0.0004996448146298614,
	"loss": 0.0826,
	"step": 1780
	},
	{
	"epoch": 5.966666666666667,
	"grad_norm": 1.342224359512329,
	"learning_rate": 0.0004996189977648372,
	"loss": 0.0278,
	"step": 1790
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.06541286408901215,
	"learning_rate": 0.0004995922759815339,
	"loss": 0.0965,
	"step": 1800
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.99,
	"eval_f1": 0.9900037712130737,
	"eval_kappa": 0.9798873692679002,
	"eval_loss": 0.031534310430288315,
	"eval_precision": 0.990057280675309,
	"eval_recall": 0.99,
	"eval_runtime": 7.3582,
	"eval_samples_per_second": 54.361,
	"eval_steps_per_second": 2.31,
	"step": 1800
	},
	{
	"epoch": 6.033333333333333,
	"grad_norm": 11.891799926757812,
	"learning_rate": 0.0004995646493768233,
	"loss": 0.1096,
	"step": 1810
	},
	{
	"epoch": 6.066666666666666,
	"grad_norm": 4.773056507110596,
	"learning_rate": 0.0004995361180508575,
	"loss": 0.0887,
	"step": 1820
	},
	{
	"epoch": 6.1,
	"grad_norm": 0.0633956715464592,
	"learning_rate": 0.0004995066821070679,
	"loss": 0.0595,
	"step": 1830
	},
	{
	"epoch": 6.133333333333334,
	"grad_norm": 1.1848310232162476,
	"learning_rate": 0.0004994763416521659,
	"loss": 0.0457,
	"step": 1840
	},
	{
	"epoch": 6.166666666666667,
	"grad_norm": 1.9995553493499756,
	"learning_rate": 0.0004994450967961413,
	"loss": 0.081,
	"step": 1850
	},
	{
	"epoch": 6.2,
	"grad_norm": 6.867255210876465,
	"learning_rate": 0.0004994129476522632,
	"loss": 0.0517,
	"step": 1860
	},
	{
	"epoch": 6.233333333333333,
	"grad_norm": 20.199514389038086,
	"learning_rate": 0.0004993798943370785,
	"loss": 0.0343,
	"step": 1870
	},
	{
	"epoch": 6.266666666666667,
	"grad_norm": 0.19586598873138428,
	"learning_rate": 0.0004993459369704121,
	"loss": 0.0611,
	"step": 1880
	},
	{
	"epoch": 6.3,
	"grad_norm": 21.155536651611328,
	"learning_rate": 0.0004993110756753659,
	"loss": 0.021,
	"step": 1890
	},
	{
	"epoch": 6.333333333333333,
	"grad_norm": 3.191210985183716,
	"learning_rate": 0.0004992753105783193,
	"loss": 0.2308,
	"step": 1900
	},
	{
	"epoch": 6.366666666666666,
	"grad_norm": 0.9887709617614746,
	"learning_rate": 0.0004992386418089279,
	"loss": 0.0864,
	"step": 1910
	},
	{
	"epoch": 6.4,
	"grad_norm": 27.715328216552734,
	"learning_rate": 0.0004992010695001229,
	"loss": 0.1266,
	"step": 1920
	},
	{
	"epoch": 6.433333333333334,
	"grad_norm": 10.004547119140625,
	"learning_rate": 0.0004991625937881116,
	"loss": 0.0841,
	"step": 1930
	},
	{
	"epoch": 6.466666666666667,
	"grad_norm": 0.22679829597473145,
	"learning_rate": 0.0004991232148123761,
	"loss": 0.0279,
	"step": 1940
	},
	{
	"epoch": 6.5,
	"grad_norm": 0.405646950006485,
	"learning_rate": 0.0004990829327156728,
	"loss": 0.0645,
	"step": 1950
	},
	{
	"epoch": 6.533333333333333,
	"grad_norm": 14.19960880279541,
	"learning_rate": 0.0004990417476440325,
	"loss": 0.0783,
	"step": 1960
	},
	{
	"epoch": 6.566666666666666,
	"grad_norm": 10.112009048461914,
	"learning_rate": 0.0004989996597467591,
	"loss": 0.0241,
	"step": 1970
	},
	{
	"epoch": 6.6,
	"grad_norm": 34.6565055847168,
	"learning_rate": 0.0004989566691764295,
	"loss": 0.0517,
	"step": 1980
	},
	{
	"epoch": 6.633333333333333,
	"grad_norm": 0.17711442708969116,
	"learning_rate": 0.0004989127760888931,
	"loss": 0.0669,
	"step": 1990
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 8.408811569213867,
	"learning_rate": 0.0004988679806432712,
	"loss": 0.0336,
	"step": 2000
	},
	{
	"epoch": 6.7,
	"grad_norm": 0.44612711668014526,
	"learning_rate": 0.0004988222830019559,
	"loss": 0.0445,
	"step": 2010
	},
	{
	"epoch": 6.733333333333333,
	"grad_norm": 19.24823570251465,
	"learning_rate": 0.0004987756833306102,
	"loss": 0.0573,
	"step": 2020
	},
	{
	"epoch": 6.766666666666667,
	"grad_norm": 3.0871477127075195,
	"learning_rate": 0.0004987281817981674,
	"loss": 0.0759,
	"step": 2030
	},
	{
	"epoch": 6.8,
	"grad_norm": 9.81881332397461,
	"learning_rate": 0.0004986797785768297,
	"loss": 0.0194,
	"step": 2040
	},
	{
	"epoch": 6.833333333333333,
	"grad_norm": 0.020128833130002022,
	"learning_rate": 0.0004986304738420684,
	"loss": 0.1081,
	"step": 2050
	},
	{
	"epoch": 6.866666666666667,
	"grad_norm": 14.229121208190918,
	"learning_rate": 0.000498580267772623,
	"loss": 0.1216,
	"step": 2060
	},
	{
	"epoch": 6.9,
	"grad_norm": 10.793590545654297,
	"learning_rate": 0.0004985291605505004,
	"loss": 0.0393,
	"step": 2070
	},
	{
	"epoch": 6.933333333333334,
	"grad_norm": 34.25983428955078,
	"learning_rate": 0.0004984771523609743,
	"loss": 0.1162,
	"step": 2080
	},
	{
	"epoch": 6.966666666666667,
	"grad_norm": 1.280573844909668,
	"learning_rate": 0.0004984242433925849,
	"loss": 0.0228,
	"step": 2090
	},
	{
	"epoch": 7.0,
	"grad_norm": 5.426878452301025,
	"learning_rate": 0.0004983704338371376,
	"loss": 0.0198,
	"step": 2100
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.995,
	"eval_f1": 0.9949978595351413,
	"eval_kappa": 0.9899274778404512,
	"eval_loss": 0.013717448338866234,
	"eval_precision": 0.9950458715596331,
	"eval_recall": 0.995,
	"eval_runtime": 7.3893,
	"eval_samples_per_second": 54.132,
	"eval_steps_per_second": 2.301,
	"step": 2100
	},
	{
	"epoch": 7.033333333333333,
	"grad_norm": 0.8536394238471985,
	"learning_rate": 0.0004983157238897026,
	"loss": 0.0459,
	"step": 2110
	},
	{
	"epoch": 7.066666666666666,
	"grad_norm": 11.758991241455078,
	"learning_rate": 0.0004982601137486143,
	"loss": 0.0732,
	"step": 2120
	},
	{
	"epoch": 7.1,
	"grad_norm": 0.6861909627914429,
	"learning_rate": 0.0004982036036154706,
	"loss": 0.1708,
	"step": 2130
	},
	{
	"epoch": 7.133333333333334,
	"grad_norm": 0.11518755555152893,
	"learning_rate": 0.0004981461936951319,
	"loss": 0.0295,
	"step": 2140
	},
	{
	"epoch": 7.166666666666667,
	"grad_norm": 0.07353509962558746,
	"learning_rate": 0.0004980878841957203,
	"loss": 0.0511,
	"step": 2150
	},
	{
	"epoch": 7.2,
	"grad_norm": 0.008462195284664631,
	"learning_rate": 0.0004980286753286195,
	"loss": 0.0061,
	"step": 2160
	},
	{
	"epoch": 7.233333333333333,
	"grad_norm": 1.4422004222869873,
	"learning_rate": 0.0004979685673084733,
	"loss": 0.0977,
	"step": 2170
	},
	{
	"epoch": 7.266666666666667,
	"grad_norm": 0.00832983199506998,
	"learning_rate": 0.0004979075603531852,
	"loss": 0.0615,
	"step": 2180
	},
	{
	"epoch": 7.3,
	"grad_norm": 8.086910247802734,
	"learning_rate": 0.0004978456546839174,
	"loss": 0.0474,
	"step": 2190
	},
	{
	"epoch": 7.333333333333333,
	"grad_norm": 10.531082153320312,
	"learning_rate": 0.0004977828505250904,
	"loss": 0.0291,
	"step": 2200
	},
	{
	"epoch": 7.366666666666666,
	"grad_norm": 0.0030356640927493572,
	"learning_rate": 0.0004977191481043814,
	"loss": 0.0801,
	"step": 2210
	},
	{
	"epoch": 7.4,
	"grad_norm": 0.24155472218990326,
	"learning_rate": 0.0004976545476527245,
	"loss": 0.0406,
	"step": 2220
	},
	{
	"epoch": 7.433333333333334,
	"grad_norm": 14.044878959655762,
	"learning_rate": 0.0004975890494043092,
	"loss": 0.2774,
	"step": 2230
	},
	{
	"epoch": 7.466666666666667,
	"grad_norm": 15.277134895324707,
	"learning_rate": 0.0004975226535965794,
	"loss": 0.0467,
	"step": 2240
	},
	{
	"epoch": 7.5,
	"grad_norm": 11.408771514892578,
	"learning_rate": 0.0004974553604702333,
	"loss": 0.1214,
	"step": 2250
	},
	{
	"epoch": 7.533333333333333,
	"grad_norm": 25.75912857055664,
	"learning_rate": 0.0004973871702692214,
	"loss": 0.0689,
	"step": 2260
	},
	{
	"epoch": 7.566666666666666,
	"grad_norm": 5.471491813659668,
	"learning_rate": 0.0004973180832407472,
	"loss": 0.004,
	"step": 2270
	},
	{
	"epoch": 7.6,
	"grad_norm": 0.7957646250724792,
	"learning_rate": 0.0004972480996352644,
	"loss": 0.1066,
	"step": 2280
	},
	{
	"epoch": 7.633333333333333,
	"grad_norm": 0.13768936693668365,
	"learning_rate": 0.0004971772197064775,
	"loss": 0.0636,
	"step": 2290
	},
	{
	"epoch": 7.666666666666667,
	"grad_norm": 0.004563705530017614,
	"learning_rate": 0.0004971054437113406,
	"loss": 0.0168,
	"step": 2300
	},
	{
	"epoch": 7.7,
	"grad_norm": 24.983537673950195,
	"learning_rate": 0.0004970327719100556,
	"loss": 0.0853,
	"step": 2310
	},
	{
	"epoch": 7.733333333333333,
	"grad_norm": 2.120246648788452,
	"learning_rate": 0.0004969592045660722,
	"loss": 0.0859,
	"step": 2320
	},
	{
	"epoch": 7.766666666666667,
	"grad_norm": 15.012920379638672,
	"learning_rate": 0.0004968847419460867,
	"loss": 0.0281,
	"step": 2330
	},
	{
	"epoch": 7.8,
	"grad_norm": 12.018982887268066,
	"learning_rate": 0.0004968093843200407,
	"loss": 0.0273,
	"step": 2340
	},
	{
	"epoch": 7.833333333333333,
	"grad_norm": 14.459258079528809,
	"learning_rate": 0.0004967331319611206,
	"loss": 0.1001,
	"step": 2350
	},
	{
	"epoch": 7.866666666666667,
	"grad_norm": 27.96418571472168,
	"learning_rate": 0.0004966559851457562,
	"loss": 0.0954,
	"step": 2360
	},
	{
	"epoch": 7.9,
	"grad_norm": 0.1574789136648178,
	"learning_rate": 0.0004965779441536201,
	"loss": 0.0795,
	"step": 2370
	},
	{
	"epoch": 7.933333333333334,
	"grad_norm": 0.44669950008392334,
	"learning_rate": 0.0004964990092676262,
	"loss": 0.03,
	"step": 2380
	},
	{
	"epoch": 7.966666666666667,
	"grad_norm": 0.3899398446083069,
	"learning_rate": 0.0004964191807739293,
	"loss": 0.0459,
	"step": 2390
	},
	{
	"epoch": 8.0,
	"grad_norm": 2.4037952423095703,
	"learning_rate": 0.0004963384589619233,
	"loss": 0.016,
	"step": 2400
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924984425244319,
	"eval_kappa": 0.9848973016512284,
	"eval_loss": 0.009391581639647484,
	"eval_precision": 0.9925093802724686,
	"eval_recall": 0.9925,
	"eval_runtime": 7.3286,
	"eval_samples_per_second": 54.581,
	"eval_steps_per_second": 2.32,
	"step": 2400
	},
	{
	"epoch": 8.033333333333333,
	"grad_norm": 18.691381454467773,
	"learning_rate": 0.0004962568441242408,
	"loss": 0.0886,
	"step": 2410
	},
	{
	"epoch": 8.066666666666666,
	"grad_norm": 0.7050238251686096,
	"learning_rate": 0.0004961743365567517,
	"loss": 0.0191,
	"step": 2420
	},
	{
	"epoch": 8.1,
	"grad_norm": 0.16664516925811768,
	"learning_rate": 0.0004960909365585624,
	"loss": 0.0635,
	"step": 2430
	},
	{
	"epoch": 8.133333333333333,
	"grad_norm": 0.9202438592910767,
	"learning_rate": 0.0004960066444320143,
	"loss": 0.0296,
	"step": 2440
	},
	{
	"epoch": 8.166666666666666,
	"grad_norm": 0.17928561568260193,
	"learning_rate": 0.0004959214604826831,
	"loss": 0.0237,
	"step": 2450
	},
	{
	"epoch": 8.2,
	"grad_norm": 0.00436717364937067,
	"learning_rate": 0.0004958353850193773,
	"loss": 0.0007,
	"step": 2460
	},
	{
	"epoch": 8.233333333333333,
	"grad_norm": 23.427932739257812,
	"learning_rate": 0.0004957484183541377,
	"loss": 0.0538,
	"step": 2470
	},
	{
	"epoch": 8.266666666666667,
	"grad_norm": 0.4889396131038666,
	"learning_rate": 0.0004956605608022357,
	"loss": 0.091,
	"step": 2480
	},
	{
	"epoch": 8.3,
	"grad_norm": 53.982887268066406,
	"learning_rate": 0.0004955718126821722,
	"loss": 0.0239,
	"step": 2490
	},
	{
	"epoch": 8.333333333333334,
	"grad_norm": 0.060606587678194046,
	"learning_rate": 0.0004954821743156767,
	"loss": 0.0367,
	"step": 2500
	},
	{
	"epoch": 8.366666666666667,
	"grad_norm": 0.0266529843211174,
	"learning_rate": 0.000495391646027706,
	"loss": 0.0489,
	"step": 2510
	},
	{
	"epoch": 8.4,
	"grad_norm": 0.733482301235199,
	"learning_rate": 0.0004953002281464432,
	"loss": 0.1085,
	"step": 2520
	},
	{
	"epoch": 8.433333333333334,
	"grad_norm": 0.002645180793479085,
	"learning_rate": 0.0004952079210032961,
	"loss": 0.0542,
	"step": 2530
	},
	{
	"epoch": 8.466666666666667,
	"grad_norm": 0.02045312523841858,
	"learning_rate": 0.0004951147249328964,
	"loss": 0.1004,
	"step": 2540
	},
	{
	"epoch": 8.5,
	"grad_norm": 0.25311747193336487,
	"learning_rate": 0.0004950206402730983,
	"loss": 0.0064,
	"step": 2550
	},
	{
	"epoch": 8.533333333333333,
	"grad_norm": 14.137146949768066,
	"learning_rate": 0.0004949256673649774,
	"loss": 0.0736,
	"step": 2560
	},
	{
	"epoch": 8.566666666666666,
	"grad_norm": 18.044233322143555,
	"learning_rate": 0.0004948298065528292,
	"loss": 0.043,
	"step": 2570
	},
	{
	"epoch": 8.6,
	"grad_norm": 0.20478780567646027,
	"learning_rate": 0.000494733058184168,
	"loss": 0.0476,
	"step": 2580
	},
	{
	"epoch": 8.633333333333333,
	"grad_norm": 0.0009861149592325091,
	"learning_rate": 0.0004946354226097261,
	"loss": 0.0541,
	"step": 2590
	},
	{
	"epoch": 8.666666666666666,
	"grad_norm": 4.064932346343994,
	"learning_rate": 0.0004945369001834514,
	"loss": 0.015,
	"step": 2600
	},
	{
	"epoch": 8.7,
	"grad_norm": 12.540112495422363,
	"learning_rate": 0.0004944374912625076,
	"loss": 0.0594,
	"step": 2610
	},
	{
	"epoch": 8.733333333333333,
	"grad_norm": 0.008549841120839119,
	"learning_rate": 0.0004943371962072713,
	"loss": 0.0707,
	"step": 2620
	},
	{
	"epoch": 8.766666666666667,
	"grad_norm": 1.925380825996399,
	"learning_rate": 0.0004942360153813324,
	"loss": 0.0297,
	"step": 2630
	},
	{
	"epoch": 8.8,
	"grad_norm": 1.1041579246520996,
	"learning_rate": 0.0004941339491514909,
	"loss": 0.0976,
	"step": 2640
	},
	{
	"epoch": 8.833333333333334,
	"grad_norm": 0.7771681547164917,
	"learning_rate": 0.0004940309978877575,
	"loss": 0.0169,
	"step": 2650
	},
	{
	"epoch": 8.866666666666667,
	"grad_norm": 11.451831817626953,
	"learning_rate": 0.0004939271619633507,
	"loss": 0.0108,
	"step": 2660
	},
	{
	"epoch": 8.9,
	"grad_norm": 0.0025792683009058237,
	"learning_rate": 0.0004938224417546965,
	"loss": 0.0252,
	"step": 2670
	},
	{
	"epoch": 8.933333333333334,
	"grad_norm": 0.5602428317070007,
	"learning_rate": 0.0004937168376414261,
	"loss": 0.0203,
	"step": 2680
	},
	{
	"epoch": 8.966666666666667,
	"grad_norm": 0.026095090433955193,
	"learning_rate": 0.0004936103500063755,
	"loss": 0.0331,
	"step": 2690
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.06067637726664543,
	"learning_rate": 0.0004935029792355834,
	"loss": 0.1923,
	"step": 2700
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9875,
	"eval_f1": 0.9875068327898516,
	"eval_kappa": 0.9748693204664254,
	"eval_loss": 0.028073739260435104,
	"eval_precision": 0.987625216539881,
	"eval_recall": 0.9875,
	"eval_runtime": 7.3626,
	"eval_samples_per_second": 54.329,
	"eval_steps_per_second": 2.309,
	"step": 2700
	},
	{
	"epoch": 9.033333333333333,
	"grad_norm": 0.19523067772388458,
	"learning_rate": 0.0004933947257182901,
	"loss": 0.0199,
	"step": 2710
	},
	{
	"epoch": 9.066666666666666,
	"grad_norm": 3.053314208984375,
	"learning_rate": 0.000493285589846936,
	"loss": 0.0068,
	"step": 2720
	},
	{
	"epoch": 9.1,
	"grad_norm": 0.22583183646202087,
	"learning_rate": 0.0004931755720171603,
	"loss": 0.0929,
	"step": 2730
	},
	{
	"epoch": 9.133333333333333,
	"grad_norm": 0.2969551086425781,
	"learning_rate": 0.0004930646726277994,
	"loss": 0.0073,
	"step": 2740
	},
	{
	"epoch": 9.166666666666666,
	"grad_norm": 1.7761553525924683,
	"learning_rate": 0.0004929528920808855,
	"loss": 0.0699,
	"step": 2750
	},
	{
	"epoch": 9.2,
	"grad_norm": 35.166629791259766,
	"learning_rate": 0.0004928402307816451,
	"loss": 0.0186,
	"step": 2760
	},
	{
	"epoch": 9.233333333333333,
	"grad_norm": 2.6943020820617676,
	"learning_rate": 0.000492726689138498,
	"loss": 0.0249,
	"step": 2770
	},
	{
	"epoch": 9.266666666666667,
	"grad_norm": 15.054105758666992,
	"learning_rate": 0.0004926122675630548,
	"loss": 0.04,
	"step": 2780
	},
	{
	"epoch": 9.3,
	"grad_norm": 0.00670548714697361,
	"learning_rate": 0.0004924969664701168,
	"loss": 0.0222,
	"step": 2790
	},
	{
	"epoch": 9.333333333333334,
	"grad_norm": 3.6571757793426514,
	"learning_rate": 0.0004923807862776728,
	"loss": 0.0185,
	"step": 2800
	},
	{
	"epoch": 9.366666666666667,
	"grad_norm": 0.4846095144748688,
	"learning_rate": 0.0004922637274068993,
	"loss": 0.0069,
	"step": 2810
	},
	{
	"epoch": 9.4,
	"grad_norm": 0.04100838676095009,
	"learning_rate": 0.0004921457902821578,
	"loss": 0.0038,
	"step": 2820
	},
	{
	"epoch": 9.433333333333334,
	"grad_norm": 0.06146049499511719,
	"learning_rate": 0.0004920269753309937,
	"loss": 0.0594,
	"step": 2830
	},
	{
	"epoch": 9.466666666666667,
	"grad_norm": 32.66959762573242,
	"learning_rate": 0.0004919072829841347,
	"loss": 0.0733,
	"step": 2840
	},
	{
	"epoch": 9.5,
	"grad_norm": 13.61474609375,
	"learning_rate": 0.0004917867136754893,
	"loss": 0.1538,
	"step": 2850
	},
	{
	"epoch": 9.533333333333333,
	"grad_norm": 0.23982226848602295,
	"learning_rate": 0.000491665267842145,
	"loss": 0.1145,
	"step": 2860
	},
	{
	"epoch": 9.566666666666666,
	"grad_norm": 4.305579662322998,
	"learning_rate": 0.0004915429459243672,
	"loss": 0.0113,
	"step": 2870
	},
	{
	"epoch": 9.6,
	"grad_norm": 0.8647874593734741,
	"learning_rate": 0.000491419748365597,
	"loss": 0.1841,
	"step": 2880
	},
	{
	"epoch": 9.633333333333333,
	"grad_norm": 9.716819763183594,
	"learning_rate": 0.0004912956756124498,
	"loss": 0.0264,
	"step": 2890
	},
	{
	"epoch": 9.666666666666666,
	"grad_norm": 7.745243549346924,
	"learning_rate": 0.000491170728114714,
	"loss": 0.0088,
	"step": 2900
	},
	{
	"epoch": 9.7,
	"grad_norm": 1.824566125869751,
	"learning_rate": 0.0004910449063253489,
	"loss": 0.0947,
	"step": 2910
	},
	{
	"epoch": 9.733333333333333,
	"grad_norm": 1.2929129600524902,
	"learning_rate": 0.0004909182107004834,
	"loss": 0.0421,
	"step": 2920
	},
	{
	"epoch": 9.766666666666667,
	"grad_norm": 4.2170281410217285,
	"learning_rate": 0.0004907906416994146,
	"loss": 0.1019,
	"step": 2930
	},
	{
	"epoch": 9.8,
	"grad_norm": 1.5145924091339111,
	"learning_rate": 0.0004906621997846049,
	"loss": 0.0748,
	"step": 2940
	},
	{
	"epoch": 9.833333333333334,
	"grad_norm": 29.543188095092773,
	"learning_rate": 0.0004905328854216818,
	"loss": 0.0423,
	"step": 2950
	},
	{
	"epoch": 9.866666666666667,
	"grad_norm": 0.030437791720032692,
	"learning_rate": 0.0004904026990794355,
	"loss": 0.0316,
	"step": 2960
	},
	{
	"epoch": 9.9,
	"grad_norm": 0.0006298078806139529,
	"learning_rate": 0.0004902716412298174,
	"loss": 0.0251,
	"step": 2970
	},
	{
	"epoch": 9.933333333333334,
	"grad_norm": 0.7163373231887817,
	"learning_rate": 0.000490139712347938,
	"loss": 0.0319,
	"step": 2980
	},
	{
	"epoch": 9.966666666666667,
	"grad_norm": 1.6022979021072388,
	"learning_rate": 0.0004900069129120655,
	"loss": 0.0531,
	"step": 2990
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.18895569443702698,
	"learning_rate": 0.0004898732434036243,
	"loss": 0.0318,
	"step": 3000
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.995,
	"eval_f1": 0.9949978595351413,
	"eval_kappa": 0.9899274778404512,
	"eval_loss": 0.02089308761060238,
	"eval_precision": 0.9950458715596331,
	"eval_recall": 0.995,
	"eval_runtime": 7.4318,
	"eval_samples_per_second": 53.823,
	"eval_steps_per_second": 2.287,
	"step": 3000
	},
	{
	"epoch": 10.033333333333333,
	"grad_norm": 17.70781135559082,
	"learning_rate": 0.000489738704307193,
	"loss": 0.0229,
	"step": 3010
	},
	{
	"epoch": 10.066666666666666,
	"grad_norm": 0.03209957107901573,
	"learning_rate": 0.000489603296110502,
	"loss": 0.0077,
	"step": 3020
	},
	{
	"epoch": 10.1,
	"grad_norm": 1.0363398790359497,
	"learning_rate": 0.0004894670193044332,
	"loss": 0.0899,
	"step": 3030
	},
	{
	"epoch": 10.133333333333333,
	"grad_norm": 0.20282617211341858,
	"learning_rate": 0.0004893298743830168,
	"loss": 0.0265,
	"step": 3040
	},
	{
	"epoch": 10.166666666666666,
	"grad_norm": 0.004087963607162237,
	"learning_rate": 0.0004891918618434304,
	"loss": 0.01,
	"step": 3050
	},
	{
	"epoch": 10.2,
	"grad_norm": 0.07597868889570236,
	"learning_rate": 0.0004890529821859968,
	"loss": 0.0049,
	"step": 3060
	},
	{
	"epoch": 10.233333333333333,
	"grad_norm": 4.141262531280518,
	"learning_rate": 0.0004889132359141822,
	"loss": 0.0525,
	"step": 3070
	},
	{
	"epoch": 10.266666666666667,
	"grad_norm": 5.220034122467041,
	"learning_rate": 0.0004887726235345942,
	"loss": 0.0373,
	"step": 3080
	},
	{
	"epoch": 10.3,
	"grad_norm": 0.994594156742096,
	"learning_rate": 0.0004886311455569811,
	"loss": 0.0195,
	"step": 3090
	},
	{
	"epoch": 10.333333333333334,
	"grad_norm": 10.113892555236816,
	"learning_rate": 0.0004884888024942282,
	"loss": 0.0217,
	"step": 3100
	},
	{
	"epoch": 10.366666666666667,
	"grad_norm": 0.008713426068425179,
	"learning_rate": 0.0004883455948623573,
	"loss": 0.0918,
	"step": 3110
	},
	{
	"epoch": 10.4,
	"grad_norm": 11.263032913208008,
	"learning_rate": 0.00048820152318052447,
	"loss": 0.0217,
	"step": 3120
	},
	{
	"epoch": 10.433333333333334,
	"grad_norm": 0.07357630878686905,
	"learning_rate": 0.000488056587971018,
	"loss": 0.1833,
	"step": 3130
	},
	{
	"epoch": 10.466666666666667,
	"grad_norm": 0.03532209247350693,
	"learning_rate": 0.00048791078975925694,
	"loss": 0.0174,
	"step": 3140
	},
	{
	"epoch": 10.5,
	"grad_norm": 0.022222023457288742,
	"learning_rate": 0.0004877641290737884,
	"loss": 0.0047,
	"step": 3150
	},
	{
	"epoch": 10.533333333333333,
	"grad_norm": 0.18489806354045868,
	"learning_rate": 0.00048761660644628654,
	"loss": 0.0136,
	"step": 3160
	},
	{
	"epoch": 10.566666666666666,
	"grad_norm": 0.00013999214570503682,
	"learning_rate": 0.00048746822241155,
	"loss": 0.0783,
	"step": 3170
	},
	{
	"epoch": 10.6,
	"grad_norm": 0.05402855575084686,
	"learning_rate": 0.00048731897750750044,
	"loss": 0.1268,
	"step": 3180
	},
	{
	"epoch": 10.633333333333333,
	"grad_norm": 0.3978906273841858,
	"learning_rate": 0.00048716887227517994,
	"loss": 0.0013,
	"step": 3190
	},
	{
	"epoch": 10.666666666666666,
	"grad_norm": 0.0717267394065857,
	"learning_rate": 0.0004870179072587499,
	"loss": 0.0009,
	"step": 3200
	},
	{
	"epoch": 10.7,
	"grad_norm": 1.2164305448532104,
	"learning_rate": 0.0004868660830054883,
	"loss": 0.0317,
	"step": 3210
	},
	{
	"epoch": 10.733333333333333,
	"grad_norm": 0.06170390173792839,
	"learning_rate": 0.000486713400065788,
	"loss": 0.1632,
	"step": 3220
	},
	{
	"epoch": 10.766666666666667,
	"grad_norm": 0.0237569622695446,
	"learning_rate": 0.00048655985899315516,
	"loss": 0.0056,
	"step": 3230
	},
	{
	"epoch": 10.8,
	"grad_norm": 11.921058654785156,
	"learning_rate": 0.00048640546034420625,
	"loss": 0.0592,
	"step": 3240
	},
	{
	"epoch": 10.833333333333334,
	"grad_norm": 0.023388676345348358,
	"learning_rate": 0.0004862502046786671,
	"loss": 0.0057,
	"step": 3250
	},
	{
	"epoch": 10.866666666666667,
	"grad_norm": 0.004828088451176882,
	"learning_rate": 0.0004860940925593703,
	"loss": 0.0587,
	"step": 3260
	},
	{
	"epoch": 10.9,
	"grad_norm": 0.010196227580308914,
	"learning_rate": 0.00048593712455225304,
	"loss": 0.1446,
	"step": 3270
	},
	{
	"epoch": 10.933333333333334,
	"grad_norm": 1.6788548231124878,
	"learning_rate": 0.0004857793012263554,
	"loss": 0.0254,
	"step": 3280
	},
	{
	"epoch": 10.966666666666667,
	"grad_norm": 0.003925603814423084,
	"learning_rate": 0.0004856206231538184,
	"loss": 0.0493,
	"step": 3290
	},
	{
	"epoch": 11.0,
	"grad_norm": 8.052026748657227,
	"learning_rate": 0.0004854610909098812,
	"loss": 0.0944,
	"step": 3300
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9975,
	"eval_f1": 0.9975004873018568,
	"eval_kappa": 0.9949698189134809,
	"eval_loss": 0.015911616384983063,
	"eval_precision": 0.9975135135135136,
	"eval_recall": 0.9975,
	"eval_runtime": 7.3757,
	"eval_samples_per_second": 54.232,
	"eval_steps_per_second": 2.305,
	"step": 3300
	},
	{
	"epoch": 11.033333333333333,
	"grad_norm": 2.871225357055664,
	"learning_rate": 0.00048530070507287994,
	"loss": 0.0121,
	"step": 3310
	},
	{
	"epoch": 11.066666666666666,
	"grad_norm": 0.5825998187065125,
	"learning_rate": 0.00048513946622424486,
	"loss": 0.0307,
	"step": 3320
	},
	{
	"epoch": 11.1,
	"grad_norm": 0.0036350239533931017,
	"learning_rate": 0.00048497737494849894,
	"loss": 0.0342,
	"step": 3330
	},
	{
	"epoch": 11.133333333333333,
	"grad_norm": 0.008223793469369411,
	"learning_rate": 0.0004848144318332549,
	"loss": 0.023,
	"step": 3340
	},
	{
	"epoch": 11.166666666666666,
	"grad_norm": 0.03048713505268097,
	"learning_rate": 0.00048465063746921396,
	"loss": 0.0458,
	"step": 3350
	},
	{
	"epoch": 11.2,
	"grad_norm": 3.248398542404175,
	"learning_rate": 0.000484485992450163,
	"loss": 0.0071,
	"step": 3360
	},
	{
	"epoch": 11.233333333333333,
	"grad_norm": 0.0007288438500836492,
	"learning_rate": 0.0004843204973729729,
	"loss": 0.0216,
	"step": 3370
	},
	{
	"epoch": 11.266666666666667,
	"grad_norm": 0.02933153323829174,
	"learning_rate": 0.000484154152837596,
	"loss": 0.1388,
	"step": 3380
	},
	{
	"epoch": 11.3,
	"grad_norm": 19.944454193115234,
	"learning_rate": 0.00048398695944706417,
	"loss": 0.0199,
	"step": 3390
	},
	{
	"epoch": 11.333333333333334,
	"grad_norm": 0.01811784878373146,
	"learning_rate": 0.00048381891780748665,
	"loss": 0.0018,
	"step": 3400
	},
	{
	"epoch": 11.366666666666667,
	"grad_norm": 1.3311184644699097,
	"learning_rate": 0.0004836500285280475,
	"loss": 0.0084,
	"step": 3410
	},
	{
	"epoch": 11.4,
	"grad_norm": 0.023560378700494766,
	"learning_rate": 0.0004834802922210039,
	"loss": 0.0131,
	"step": 3420
	},
	{
	"epoch": 11.433333333333334,
	"grad_norm": 0.14196720719337463,
	"learning_rate": 0.0004833097095016835,
	"loss": 0.0643,
	"step": 3430
	},
	{
	"epoch": 11.466666666666667,
	"grad_norm": 0.022539904341101646,
	"learning_rate": 0.0004831382809884825,
	"loss": 0.0072,
	"step": 3440
	},
	{
	"epoch": 11.5,
	"grad_norm": 0.002136025344952941,
	"learning_rate": 0.0004829660073028631,
	"loss": 0.0148,
	"step": 3450
	},
	{
	"epoch": 11.533333333333333,
	"grad_norm": 0.015343907289206982,
	"learning_rate": 0.0004827928890693515,
	"loss": 0.0686,
	"step": 3460
	},
	{
	"epoch": 11.566666666666666,
	"grad_norm": 0.2076902538537979,
	"learning_rate": 0.00048261892691553573,
	"loss": 0.0235,
	"step": 3470
	},
	{
	"epoch": 11.6,
	"grad_norm": 7.497281551361084,
	"learning_rate": 0.00048244412147206283,
	"loss": 0.0197,
	"step": 3480
	},
	{
	"epoch": 11.633333333333333,
	"grad_norm": 0.543480634689331,
	"learning_rate": 0.0004822684733726373,
	"loss": 0.0415,
	"step": 3490
	},
	{
	"epoch": 11.666666666666666,
	"grad_norm": 7.600778102874756,
	"learning_rate": 0.00048209198325401817,
	"loss": 0.0165,
	"step": 3500
	},
	{
	"epoch": 11.7,
	"grad_norm": 28.45496368408203,
	"learning_rate": 0.00048191465175601706,
	"loss": 0.0572,
	"step": 3510
	},
	{
	"epoch": 11.733333333333333,
	"grad_norm": 0.8768689036369324,
	"learning_rate": 0.0004817364795214958,
	"loss": 0.0068,
	"step": 3520
	},
	{
	"epoch": 11.766666666666667,
	"grad_norm": 0.0015293970936909318,
	"learning_rate": 0.00048155746719636403,
	"loss": 0.0524,
	"step": 3530
	},
	{
	"epoch": 11.8,
	"grad_norm": 0.21707843244075775,
	"learning_rate": 0.0004813776154295767,
	"loss": 0.0544,
	"step": 3540
	},
	{
	"epoch": 11.833333333333334,
	"grad_norm": 2.173311948776245,
	"learning_rate": 0.00048119692487313227,
	"loss": 0.0461,
	"step": 3550
	},
	{
	"epoch": 11.866666666666667,
	"grad_norm": 0.029398364946246147,
	"learning_rate": 0.0004810153961820697,
	"loss": 0.0251,
	"step": 3560
	},
	{
	"epoch": 11.9,
	"grad_norm": 0.07431753724813461,
	"learning_rate": 0.00048083303001446645,
	"loss": 0.0162,
	"step": 3570
	},
	{
	"epoch": 11.933333333333334,
	"grad_norm": 12.078067779541016,
	"learning_rate": 0.0004806498270314359,
	"loss": 0.0503,
	"step": 3580
	},
	{
	"epoch": 11.966666666666667,
	"grad_norm": 1.0195358991622925,
	"learning_rate": 0.00048046578789712516,
	"loss": 0.014,
	"step": 3590
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.003098301822319627,
	"learning_rate": 0.00048028091327871256,
	"loss": 0.0229,
	"step": 3600
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.995,
	"eval_f1": 0.9950018856065367,
	"eval_kappa": 0.9899436846339501,
	"eval_loss": 0.007985816337168217,
	"eval_precision": 0.9950537634408602,
	"eval_recall": 0.995,
	"eval_runtime": 7.4244,
	"eval_samples_per_second": 53.877,
	"eval_steps_per_second": 2.29,
	"step": 3600
	},
	{
	"epoch": 12.033333333333333,
	"grad_norm": 0.14159473776817322,
	"learning_rate": 0.00048009520384640513,
	"loss": 0.0303,
	"step": 3610
	},
	{
	"epoch": 12.066666666666666,
	"grad_norm": 3.98813796043396,
	"learning_rate": 0.0004799086602734364,
	"loss": 0.0183,
	"step": 3620
	},
	{
	"epoch": 12.1,
	"grad_norm": 0.06656892597675323,
	"learning_rate": 0.0004797212832360637,
	"loss": 0.0056,
	"step": 3630
	},
	{
	"epoch": 12.133333333333333,
	"grad_norm": 0.39640679955482483,
	"learning_rate": 0.0004795330734135659,
	"loss": 0.0314,
	"step": 3640
	},
	{
	"epoch": 12.166666666666666,
	"grad_norm": 0.09042102843523026,
	"learning_rate": 0.00047934403148824087,
	"loss": 0.0424,
	"step": 3650
	},
	{
	"epoch": 12.2,
	"grad_norm": 0.0011783058289438486,
	"learning_rate": 0.000479154158145403,
	"loss": 0.0301,
	"step": 3660
	},
	{
	"epoch": 12.233333333333333,
	"grad_norm": 16.78108787536621,
	"learning_rate": 0.0004789634540733807,
	"loss": 0.0181,
	"step": 3670
	},
	{
	"epoch": 12.266666666666667,
	"grad_norm": 0.0844041258096695,
	"learning_rate": 0.00047877191996351397,
	"loss": 0.0575,
	"step": 3680
	},
	{
	"epoch": 12.3,
	"grad_norm": 0.0004439417680259794,
	"learning_rate": 0.00047857955651015195,
	"loss": 0.0118,
	"step": 3690
	},
	{
	"epoch": 12.333333333333334,
	"grad_norm": 0.00219926075078547,
	"learning_rate": 0.0004783863644106502,
	"loss": 0.0429,
	"step": 3700
	},
	{
	"epoch": 12.366666666666667,
	"grad_norm": 0.04280629754066467,
	"learning_rate": 0.0004781923443653684,
	"loss": 0.0268,
	"step": 3710
	},
	{
	"epoch": 12.4,
	"grad_norm": 0.11606118083000183,
	"learning_rate": 0.00047799749707766746,
	"loss": 0.019,
	"step": 3720
	},
	{
	"epoch": 12.433333333333334,
	"grad_norm": 0.3587077856063843,
	"learning_rate": 0.0004778018232539075,
	"loss": 0.1508,
	"step": 3730
	},
	{
	"epoch": 12.466666666666667,
	"grad_norm": 0.012295096181333065,
	"learning_rate": 0.0004776053236034449,
	"loss": 0.0567,
	"step": 3740
	},
	{
	"epoch": 12.5,
	"grad_norm": 4.565114068100229e-05,
	"learning_rate": 0.0004774079988386296,
	"loss": 0.0249,
	"step": 3750
	},
	{
	"epoch": 12.533333333333333,
	"grad_norm": 0.003383655333891511,
	"learning_rate": 0.0004772098496748031,
	"loss": 0.0433,
	"step": 3760
	},
	{
	"epoch": 12.566666666666666,
	"grad_norm": 0.004308935720473528,
	"learning_rate": 0.00047701087683029526,
	"loss": 0.0075,
	"step": 3770
	},
	{
	"epoch": 12.6,
	"grad_norm": 0.03766516223549843,
	"learning_rate": 0.00047681108102642206,
	"loss": 0.0398,
	"step": 3780
	},
	{
	"epoch": 12.633333333333333,
	"grad_norm": 1.6207733154296875,
	"learning_rate": 0.0004766104629874829,
	"loss": 0.008,
	"step": 3790
	},
	{
	"epoch": 12.666666666666666,
	"grad_norm": 9.335482597351074,
	"learning_rate": 0.0004764090234407577,
	"loss": 0.0203,
	"step": 3800
	},
	{
	"epoch": 12.7,
	"grad_norm": 0.003392050275579095,
	"learning_rate": 0.0004762067631165049,
	"loss": 0.0294,
	"step": 3810
	},
	{
	"epoch": 12.733333333333333,
	"grad_norm": 0.3824714720249176,
	"learning_rate": 0.0004760036827479581,
	"loss": 0.0055,
	"step": 3820
	},
	{
	"epoch": 12.766666666666667,
	"grad_norm": 0.01920243538916111,
	"learning_rate": 0.0004757997830713239,
	"loss": 0.1337,
	"step": 3830
	},
	{
	"epoch": 12.8,
	"grad_norm": 0.002765109995380044,
	"learning_rate": 0.00047559506482577885,
	"loss": 0.0725,
	"step": 3840
	},
	{
	"epoch": 12.833333333333334,
	"grad_norm": 0.49867746233940125,
	"learning_rate": 0.0004753895287534673,
	"loss": 0.0333,
	"step": 3850
	},
	{
	"epoch": 12.866666666666667,
	"grad_norm": 0.5436999201774597,
	"learning_rate": 0.0004751831755994981,
	"loss": 0.0722,
	"step": 3860
	},
	{
	"epoch": 12.9,
	"grad_norm": 0.13900534808635712,
	"learning_rate": 0.0004749760061119422,
	"loss": 0.0514,
	"step": 3870
	},
	{
	"epoch": 12.933333333333334,
	"grad_norm": 0.5604411959648132,
	"learning_rate": 0.00047476802104183015,
	"loss": 0.0353,
	"step": 3880
	},
	{
	"epoch": 12.966666666666667,
	"grad_norm": 18.976787567138672,
	"learning_rate": 0.000474559221143149,
	"loss": 0.0893,
	"step": 3890
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.030641691759228706,
	"learning_rate": 0.0004743496071728396,
	"loss": 0.0104,
	"step": 3900
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.98,
	"eval_f1": 0.9799595959595959,
	"eval_kappa": 0.9596122778675282,
	"eval_loss": 0.05243048071861267,
	"eval_precision": 0.9807142857142856,
	"eval_recall": 0.98,
	"eval_runtime": 7.3583,
	"eval_samples_per_second": 54.36,
	"eval_steps_per_second": 2.31,
	"step": 3900
	},
	{
	"epoch": 13.033333333333333,
	"grad_norm": 23.265657424926758,
	"learning_rate": 0.00047413917989079415,
	"loss": 0.0245,
	"step": 3910
	},
	{
	"epoch": 13.066666666666666,
	"grad_norm": 2.9652233123779297,
	"learning_rate": 0.0004739279400598532,
	"loss": 0.0199,
	"step": 3920
	},
	{
	"epoch": 13.1,
	"grad_norm": 2.5520131587982178,
	"learning_rate": 0.00047371588844580297,
	"loss": 0.0785,
	"step": 3930
	},
	{
	"epoch": 13.133333333333333,
	"grad_norm": 4.938477993011475,
	"learning_rate": 0.0004735030258173725,
	"loss": 0.1211,
	"step": 3940
	},
	{
	"epoch": 13.166666666666666,
	"grad_norm": 0.23714496195316315,
	"learning_rate": 0.000473289352946231,
	"loss": 0.0162,
	"step": 3950
	},
	{
	"epoch": 13.2,
	"grad_norm": 0.4921053946018219,
	"learning_rate": 0.00047307487060698486,
	"loss": 0.0271,
	"step": 3960
	},
	{
	"epoch": 13.233333333333333,
	"grad_norm": 3.513289451599121,
	"learning_rate": 0.000472859579577175,
	"loss": 0.0485,
	"step": 3970
	},
	{
	"epoch": 13.266666666666667,
	"grad_norm": 1.9259859323501587,
	"learning_rate": 0.00047264348063727414,
	"loss": 0.0263,
	"step": 3980
	},
	{
	"epoch": 13.3,
	"grad_norm": 0.00044262909796088934,
	"learning_rate": 0.0004724265745706836,
	"loss": 0.0223,
	"step": 3990
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 1.4673163890838623,
	"learning_rate": 0.0004722088621637309,
	"loss": 0.0069,
	"step": 4000
	},
	{
	"epoch": 13.366666666666667,
	"grad_norm": 0.00814584270119667,
	"learning_rate": 0.0004719903442056665,
	"loss": 0.093,
	"step": 4010
	},
	{
	"epoch": 13.4,
	"grad_norm": 0.03399132937192917,
	"learning_rate": 0.00047177102148866133,
	"loss": 0.0224,
	"step": 4020
	},
	{
	"epoch": 13.433333333333334,
	"grad_norm": 0.5761755704879761,
	"learning_rate": 0.00047155089480780364,
	"loss": 0.0012,
	"step": 4030
	},
	{
	"epoch": 13.466666666666667,
	"grad_norm": 1.2075037956237793,
	"learning_rate": 0.00047132996496109626,
	"loss": 0.0198,
	"step": 4040
	},
	{
	"epoch": 13.5,
	"grad_norm": 0.0027148097287863493,
	"learning_rate": 0.0004711082327494536,
	"loss": 0.0089,
	"step": 4050
	},
	{
	"epoch": 13.533333333333333,
	"grad_norm": 0.02435988560318947,
	"learning_rate": 0.0004708856989766988,
	"loss": 0.0387,
	"step": 4060
	},
	{
	"epoch": 13.566666666666666,
	"grad_norm": 0.04581742361187935,
	"learning_rate": 0.0004706623644495608,
	"loss": 0.0237,
	"step": 4070
	},
	{
	"epoch": 13.6,
	"grad_norm": 3.6842305660247803,
	"learning_rate": 0.00047043822997767145,
	"loss": 0.0113,
	"step": 4080
	},
	{
	"epoch": 13.633333333333333,
	"grad_norm": 18.461259841918945,
	"learning_rate": 0.0004702132963735627,
	"loss": 0.0374,
	"step": 4090
	},
	{
	"epoch": 13.666666666666666,
	"grad_norm": 0.03505110740661621,
	"learning_rate": 0.0004699875644526633,
	"loss": 0.0477,
	"step": 4100
	},
	{
	"epoch": 13.7,
	"grad_norm": 1.6540740728378296,
	"learning_rate": 0.00046976103503329616,
	"loss": 0.0137,
	"step": 4110
	},
	{
	"epoch": 13.733333333333333,
	"grad_norm": 0.1410187929868698,
	"learning_rate": 0.0004695337089366754,
	"loss": 0.0002,
	"step": 4120
	},
	{
	"epoch": 13.766666666666667,
	"grad_norm": 0.015506432391703129,
	"learning_rate": 0.00046930558698690287,
	"loss": 0.0578,
	"step": 4130
	},
	{
	"epoch": 13.8,
	"grad_norm": 0.3643234372138977,
	"learning_rate": 0.0004690766700109659,
	"loss": 0.0033,
	"step": 4140
	},
	{
	"epoch": 13.833333333333334,
	"grad_norm": 0.1073959544301033,
	"learning_rate": 0.0004688469588387339,
	"loss": 0.0412,
	"step": 4150
	},
	{
	"epoch": 13.866666666666667,
	"grad_norm": 0.0946379154920578,
	"learning_rate": 0.0004686164543029554,
	"loss": 0.1215,
	"step": 4160
	},
	{
	"epoch": 13.9,
	"grad_norm": 0.3427139222621918,
	"learning_rate": 0.0004683851572392548,
	"loss": 0.0159,
	"step": 4170
	},
	{
	"epoch": 13.933333333333334,
	"grad_norm": 2.0237042903900146,
	"learning_rate": 0.00046815306848612976,
	"loss": 0.084,
	"step": 4180
	},
	{
	"epoch": 13.966666666666667,
	"grad_norm": 5.675958156585693,
	"learning_rate": 0.000467920188884948,
	"loss": 0.0178,
	"step": 4190
	},
	{
	"epoch": 14.0,
	"grad_norm": 1.7019257545471191,
	"learning_rate": 0.00046768651927994433,
	"loss": 0.0483,
	"step": 4200
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9975,
	"eval_f1": 0.9974994808414773,
	"eval_kappa": 0.9949657672170761,
	"eval_loss": 0.00451456755399704,
	"eval_precision": 0.9975115207373273,
	"eval_recall": 0.9975,
	"eval_runtime": 7.2972,
	"eval_samples_per_second": 54.816,
	"eval_steps_per_second": 2.33,
	"step": 4200
	},
	{
	"epoch": 14.033333333333333,
	"grad_norm": 9.1857271194458,
	"learning_rate": 0.0004674520605182171,
	"loss": 0.0028,
	"step": 4210
	},
	{
	"epoch": 14.066666666666666,
	"grad_norm": 5.523562867892906e-05,
	"learning_rate": 0.00046721681344972577,
	"loss": 0.0056,
	"step": 4220
	},
	{
	"epoch": 14.1,
	"grad_norm": 3.9123904705047607,
	"learning_rate": 0.0004669807789272876,
	"loss": 0.034,
	"step": 4230
	},
	{
	"epoch": 14.133333333333333,
	"grad_norm": 0.7227023243904114,
	"learning_rate": 0.00046674395780657444,
	"loss": 0.0115,
	"step": 4240
	},
	{
	"epoch": 14.166666666666666,
	"grad_norm": 20.133054733276367,
	"learning_rate": 0.00046650635094610973,
	"loss": 0.0117,
	"step": 4250
	},
	{
	"epoch": 14.2,
	"grad_norm": 2.1840555667877197,
	"learning_rate": 0.0004662679592072653,
	"loss": 0.006,
	"step": 4260
	},
	{
	"epoch": 14.233333333333333,
	"grad_norm": 1.3089158535003662,
	"learning_rate": 0.00046602878345425845,
	"loss": 0.0198,
	"step": 4270
	},
	{
	"epoch": 14.266666666666667,
	"grad_norm": 0.032126154750585556,
	"learning_rate": 0.0004657888245541486,
	"loss": 0.0117,
	"step": 4280
	},
	{
	"epoch": 14.3,
	"grad_norm": 0.1218077763915062,
	"learning_rate": 0.0004655480833768344,
	"loss": 0.0065,
	"step": 4290
	},
	{
	"epoch": 14.333333333333334,
	"grad_norm": 0.0682288408279419,
	"learning_rate": 0.0004653065607950502,
	"loss": 0.0138,
	"step": 4300
	},
	{
	"epoch": 14.366666666666667,
	"grad_norm": 0.00038056381163187325,
	"learning_rate": 0.000465064257684363,
	"loss": 0.0211,
	"step": 4310
	},
	{
	"epoch": 14.4,
	"grad_norm": 7.7468061447143555,
	"learning_rate": 0.0004648211749231698,
	"loss": 0.0092,
	"step": 4320
	},
	{
	"epoch": 14.433333333333334,
	"grad_norm": 0.00033462975989095867,
	"learning_rate": 0.0004645773133926935,
	"loss": 0.0085,
	"step": 4330
	},
	{
	"epoch": 14.466666666666667,
	"grad_norm": 1.2854167222976685,
	"learning_rate": 0.00046433267397698053,
	"loss": 0.0158,
	"step": 4340
	},
	{
	"epoch": 14.5,
	"grad_norm": 0.0037089725956320763,
	"learning_rate": 0.00046408725756289724,
	"loss": 0.0002,
	"step": 4350
	},
	{
	"epoch": 14.533333333333333,
	"grad_norm": 0.06741482764482498,
	"learning_rate": 0.0004638410650401267,
	"loss": 0.012,
	"step": 4360
	},
	{
	"epoch": 14.566666666666666,
	"grad_norm": 0.7089601159095764,
	"learning_rate": 0.0004635940973011654,
	"loss": 0.0509,
	"step": 4370
	},
	{
	"epoch": 14.6,
	"grad_norm": 0.022032683715224266,
	"learning_rate": 0.00046334635524132047,
	"loss": 0.0013,
	"step": 4380
	},
	{
	"epoch": 14.633333333333333,
	"grad_norm": 0.14006319642066956,
	"learning_rate": 0.0004630978397587058,
	"loss": 0.0015,
	"step": 4390
	},
	{
	"epoch": 14.666666666666666,
	"grad_norm": 61.62250900268555,
	"learning_rate": 0.0004628485517542392,
	"loss": 0.0558,
	"step": 4400
	},
	{
	"epoch": 14.7,
	"grad_norm": 0.5041285157203674,
	"learning_rate": 0.0004625984921316392,
	"loss": 0.0144,
	"step": 4410
	},
	{
	"epoch": 14.733333333333333,
	"grad_norm": 0.9366334080696106,
	"learning_rate": 0.00046234766179742117,
	"loss": 0.0726,
	"step": 4420
	},
	{
	"epoch": 14.766666666666667,
	"grad_norm": 0.011175020597875118,
	"learning_rate": 0.0004620960616608949,
	"loss": 0.0056,
	"step": 4430
	},
	{
	"epoch": 14.8,
	"grad_norm": 9.877839088439941,
	"learning_rate": 0.00046184369263416067,
	"loss": 0.0221,
	"step": 4440
	},
	{
	"epoch": 14.833333333333334,
	"grad_norm": 0.052618566900491714,
	"learning_rate": 0.0004615905556321061,
	"loss": 0.0001,
	"step": 4450
	},
	{
	"epoch": 14.866666666666667,
	"grad_norm": 8.235169410705566,
	"learning_rate": 0.00046133665157240304,
	"loss": 0.0396,
	"step": 4460
	},
	{
	"epoch": 14.9,
	"grad_norm": 0.0023794234730303288,
	"learning_rate": 0.00046108198137550377,
	"loss": 0.0047,
	"step": 4470
	},
	{
	"epoch": 14.933333333333334,
	"grad_norm": 1.037344217300415,
	"learning_rate": 0.00046082654596463836,
	"loss": 0.0213,
	"step": 4480
	},
	{
	"epoch": 14.966666666666667,
	"grad_norm": 0.9687237739562988,
	"learning_rate": 0.00046057034626581066,
	"loss": 0.0035,
	"step": 4490
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.009436891414225101,
	"learning_rate": 0.0004603133832077953,
	"loss": 0.0364,
	"step": 4500
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9875,
	"eval_f1": 0.9875068327898516,
	"eval_kappa": 0.9748693204664254,
	"eval_loss": 0.029378846287727356,
	"eval_precision": 0.987625216539881,
	"eval_recall": 0.9875,
	"eval_runtime": 7.2663,
	"eval_samples_per_second": 55.049,
	"eval_steps_per_second": 2.34,
	"step": 4500
	},
	{
	"epoch": 15.033333333333333,
	"grad_norm": 15.442131996154785,
	"learning_rate": 0.0004600556577221342,
	"loss": 0.0587,
	"step": 4510
	},
	{
	"epoch": 15.066666666666666,
	"grad_norm": 2.1621975898742676,
	"learning_rate": 0.0004597971707431333,
	"loss": 0.0031,
	"step": 4520
	},
	{
	"epoch": 15.1,
	"grad_norm": 0.09139201790094376,
	"learning_rate": 0.00045953792320785916,
	"loss": 0.0464,
	"step": 4530
	},
	{
	"epoch": 15.133333333333333,
	"grad_norm": 10.80909252166748,
	"learning_rate": 0.0004592779160561352,
	"loss": 0.0119,
	"step": 4540
	},
	{
	"epoch": 15.166666666666666,
	"grad_norm": 0.0028503378853201866,
	"learning_rate": 0.000459017150230539,
	"loss": 0.0284,
	"step": 4550
	},
	{
	"epoch": 15.2,
	"grad_norm": 0.0037527629174292088,
	"learning_rate": 0.00045875562667639815,
	"loss": 0.0052,
	"step": 4560
	},
	{
	"epoch": 15.233333333333333,
	"grad_norm": 0.008923468180000782,
	"learning_rate": 0.0004584933463417874,
	"loss": 0.0181,
	"step": 4570
	},
	{
	"epoch": 15.266666666666667,
	"grad_norm": 0.11511397361755371,
	"learning_rate": 0.00045823031017752484,
	"loss": 0.0012,
	"step": 4580
	},
	{
	"epoch": 15.3,
	"grad_norm": 0.0019222634145990014,
	"learning_rate": 0.0004579665191371687,
	"loss": 0.0018,
	"step": 4590
	},
	{
	"epoch": 15.333333333333334,
	"grad_norm": 0.02708413079380989,
	"learning_rate": 0.00045770197417701366,
	"loss": 0.0456,
	"step": 4600
	},
	{
	"epoch": 15.366666666666667,
	"grad_norm": 0.49283456802368164,
	"learning_rate": 0.00045743667625608756,
	"loss": 0.0086,
	"step": 4610
	},
	{
	"epoch": 15.4,
	"grad_norm": 0.18149667978286743,
	"learning_rate": 0.00045717062633614795,
	"loss": 0.005,
	"step": 4620
	},
	{
	"epoch": 15.433333333333334,
	"grad_norm": 0.02925139293074608,
	"learning_rate": 0.0004569038253816783,
	"loss": 0.0335,
	"step": 4630
	},
	{
	"epoch": 15.466666666666667,
	"grad_norm": 0.025850404053926468,
	"learning_rate": 0.00045663627435988503,
	"loss": 0.0076,
	"step": 4640
	},
	{
	"epoch": 15.5,
	"grad_norm": 0.03791815787553787,
	"learning_rate": 0.0004563679742406935,
	"loss": 0.0181,
	"step": 4650
	},
	{
	"epoch": 15.533333333333333,
	"grad_norm": 4.157740116119385,
	"learning_rate": 0.0004560989259967447,
	"loss": 0.0265,
	"step": 4660
	},
	{
	"epoch": 15.566666666666666,
	"grad_norm": 31.737028121948242,
	"learning_rate": 0.0004558291306033919,
	"loss": 0.0662,
	"step": 4670
	},
	{
	"epoch": 15.6,
	"grad_norm": 0.00034419956500642,
	"learning_rate": 0.00045555858903869684,
	"loss": 0.0033,
	"step": 4680
	},
	{
	"epoch": 15.633333333333333,
	"grad_norm": 36.032081604003906,
	"learning_rate": 0.000455287302283426,
	"loss": 0.2059,
	"step": 4690
	},
	{
	"epoch": 15.666666666666666,
	"grad_norm": 0.09268007427453995,
	"learning_rate": 0.0004550152713210478,
	"loss": 0.0654,
	"step": 4700
	},
	{
	"epoch": 15.7,
	"grad_norm": 0.003424269612878561,
	"learning_rate": 0.0004547424971377282,
	"loss": 0.011,
	"step": 4710
	},
	{
	"epoch": 15.733333333333333,
	"grad_norm": 36.533512115478516,
	"learning_rate": 0.00045446898072232765,
	"loss": 0.0291,
	"step": 4720
	},
	{
	"epoch": 15.766666666666667,
	"grad_norm": 0.057702332735061646,
	"learning_rate": 0.00045419472306639733,
	"loss": 0.0384,
	"step": 4730
	},
	{
	"epoch": 15.8,
	"grad_norm": 3.593590736272745e-05,
	"learning_rate": 0.00045391972516417545,
	"loss": 0.0035,
	"step": 4740
	},
	{
	"epoch": 15.833333333333334,
	"grad_norm": 0.017503496259450912,
	"learning_rate": 0.00045364398801258396,
	"loss": 0.09,
	"step": 4750
	},
	{
	"epoch": 15.866666666666667,
	"grad_norm": 0.01603321172297001,
	"learning_rate": 0.0004533675126112245,
	"loss": 0.0269,
	"step": 4760
	},
	{
	"epoch": 15.9,
	"grad_norm": 0.109935462474823,
	"learning_rate": 0.00045309029996237516,
	"loss": 0.0097,
	"step": 4770
	},
	{
	"epoch": 15.933333333333334,
	"grad_norm": 0.028454294428229332,
	"learning_rate": 0.0004528123510709867,
	"loss": 0.0199,
	"step": 4780
	},
	{
	"epoch": 15.966666666666667,
	"grad_norm": 0.03414365276694298,
	"learning_rate": 0.0004525336669446789,
	"loss": 0.0007,
	"step": 4790
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.0039358725771307945,
	"learning_rate": 0.0004522542485937369,
	"loss": 0.0239,
	"step": 4800
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924950401511573,
	"eval_kappa": 0.9848851269649335,
	"eval_loss": 0.011240070685744286,
	"eval_precision": 0.9926027397260273,
	"eval_recall": 0.9925,
	"eval_runtime": 7.3933,
	"eval_samples_per_second": 54.103,
	"eval_steps_per_second": 2.299,
	"step": 4800
	},
	{
	"epoch": 16.033333333333335,
	"grad_norm": 0.003939064685255289,
	"learning_rate": 0.0004519740970311074,
	"loss": 0.056,
	"step": 4810
	},
	{
	"epoch": 16.066666666666666,
	"grad_norm": 0.0002586791233625263,
	"learning_rate": 0.0004516932132723953,
	"loss": 0.0076,
	"step": 4820
	},
	{
	"epoch": 16.1,
	"grad_norm": 6.035449028015137,
	"learning_rate": 0.00045141159833585995,
	"loss": 0.0043,
	"step": 4830
	},
	{
	"epoch": 16.133333333333333,
	"grad_norm": 0.23382249474525452,
	"learning_rate": 0.0004511292532424111,
	"loss": 0.0375,
	"step": 4840
	},
	{
	"epoch": 16.166666666666668,
	"grad_norm": 0.003644285025075078,
	"learning_rate": 0.00045084617901560564,
	"loss": 0.0067,
	"step": 4850
	},
	{
	"epoch": 16.2,
	"grad_norm": 0.3566889762878418,
	"learning_rate": 0.0004505623766816438,
	"loss": 0.0007,
	"step": 4860
	},
	{
	"epoch": 16.233333333333334,
	"grad_norm": 0.0989418774843216,
	"learning_rate": 0.00045027784726936503,
	"loss": 0.0701,
	"step": 4870
	},
	{
	"epoch": 16.266666666666666,
	"grad_norm": 4.09375,
	"learning_rate": 0.000449992591810245,
	"loss": 0.0555,
	"step": 4880
	},
	{
	"epoch": 16.3,
	"grad_norm": 0.013414149172604084,
	"learning_rate": 0.00044970661133839096,
	"loss": 0.0026,
	"step": 4890
	},
	{
	"epoch": 16.333333333333332,
	"grad_norm": 2.3153756956162397e-06,
	"learning_rate": 0.00044941990689053885,
	"loss": 0.0446,
	"step": 4900
	},
	{
	"epoch": 16.366666666666667,
	"grad_norm": 2.82499058812391e-05,
	"learning_rate": 0.00044913247950604905,
	"loss": 0.0184,
	"step": 4910
	},
	{
	"epoch": 16.4,
	"grad_norm": 0.4367436170578003,
	"learning_rate": 0.00044884433022690274,
	"loss": 0.1106,
	"step": 4920
	},
	{
	"epoch": 16.433333333333334,
	"grad_norm": 0.021237192675471306,
	"learning_rate": 0.0004485554600976981,
	"loss": 0.0015,
	"step": 4930
	},
	{
	"epoch": 16.466666666666665,
	"grad_norm": 8.756088256835938,
	"learning_rate": 0.0004482658701656465,
	"loss": 0.01,
	"step": 4940
	},
	{
	"epoch": 16.5,
	"grad_norm": 0.000679507153108716,
	"learning_rate": 0.0004479755614805688,
	"loss": 0.0281,
	"step": 4950
	},
	{
	"epoch": 16.533333333333335,
	"grad_norm": 4.841014385223389,
	"learning_rate": 0.00044768453509489136,
	"loss": 0.0029,
	"step": 4960
	},
	{
	"epoch": 16.566666666666666,
	"grad_norm": 0.013903344981372356,
	"learning_rate": 0.0004473927920636426,
	"loss": 0.0137,
	"step": 4970
	},
	{
	"epoch": 16.6,
	"grad_norm": 0.00465978542342782,
	"learning_rate": 0.00044710033344444856,
	"loss": 0.015,
	"step": 4980
	},
	{
	"epoch": 16.633333333333333,
	"grad_norm": 0.017884723842144012,
	"learning_rate": 0.0004468071602975298,
	"loss": 0.0222,
	"step": 4990
	},
	{
	"epoch": 16.666666666666668,
	"grad_norm": 0.10206126421689987,
	"learning_rate": 0.0004465132736856969,
	"loss": 0.0535,
	"step": 5000
	},
	{
	"epoch": 16.7,
	"grad_norm": 0.09528321772813797,
	"learning_rate": 0.00044621867467434706,
	"loss": 0.034,
	"step": 5010
	},
	{
	"epoch": 16.733333333333334,
	"grad_norm": 0.0033129348885267973,
	"learning_rate": 0.00044592336433145995,
	"loss": 0.0766,
	"step": 5020
	},
	{
	"epoch": 16.766666666666666,
	"grad_norm": 0.003946595825254917,
	"learning_rate": 0.0004456273437275941,
	"loss": 0.0879,
	"step": 5030
	},
	{
	"epoch": 16.8,
	"grad_norm": 0.07561410218477249,
	"learning_rate": 0.00044533061393588284,
	"loss": 0.0028,
	"step": 5040
	},
	{
	"epoch": 16.833333333333332,
	"grad_norm": 0.0002018914819927886,
	"learning_rate": 0.0004450331760320302,
	"loss": 0.0562,
	"step": 5050
	},
	{
	"epoch": 16.866666666666667,
	"grad_norm": 0.0016976863844320178,
	"learning_rate": 0.0004447350310943076,
	"loss": 0.0178,
	"step": 5060
	},
	{
	"epoch": 16.9,
	"grad_norm": 0.012086511589586735,
	"learning_rate": 0.0004444361802035495,
	"loss": 0.0091,
	"step": 5070
	},
	{
	"epoch": 16.933333333333334,
	"grad_norm": 0.003081787843257189,
	"learning_rate": 0.0004441366244431494,
	"loss": 0.0219,
	"step": 5080
	},
	{
	"epoch": 16.966666666666665,
	"grad_norm": 18.680606842041016,
	"learning_rate": 0.00044383636489905636,
	"loss": 0.0693,
	"step": 5090
	},
	{
	"epoch": 17.0,
	"grad_norm": 19.928892135620117,
	"learning_rate": 0.00044353540265977065,
	"loss": 0.0251,
	"step": 5100
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.975,
	"eval_f1": 0.975034479299882,
	"eval_kappa": 0.9498797113071371,
	"eval_loss": 0.17754234373569489,
	"eval_precision": 0.9762886597938144,
	"eval_recall": 0.975,
	"eval_runtime": 7.2945,
	"eval_samples_per_second": 54.836,
	"eval_steps_per_second": 2.331,
	"step": 5100
	},
	{
	"epoch": 17.033333333333335,
	"grad_norm": 0.0158667154610157,
	"learning_rate": 0.0004432337388163399,
	"loss": 0.0169,
	"step": 5110
	},
	{
	"epoch": 17.066666666666666,
	"grad_norm": 0.04557795822620392,
	"learning_rate": 0.0004429313744623552,
	"loss": 0.149,
	"step": 5120
	},
	{
	"epoch": 17.1,
	"grad_norm": 11.541633605957031,
	"learning_rate": 0.0004426283106939473,
	"loss": 0.0364,
	"step": 5130
	},
	{
	"epoch": 17.133333333333333,
	"grad_norm": 0.003035008441656828,
	"learning_rate": 0.00044232454860978235,
	"loss": 0.0135,
	"step": 5140
	},
	{
	"epoch": 17.166666666666668,
	"grad_norm": 20.01824188232422,
	"learning_rate": 0.00044202008931105795,
	"loss": 0.0727,
	"step": 5150
	},
	{
	"epoch": 17.2,
	"grad_norm": 0.0038418022450059652,
	"learning_rate": 0.00044171493390149943,
	"loss": 0.0656,
	"step": 5160
	},
	{
	"epoch": 17.233333333333334,
	"grad_norm": 0.5585111975669861,
	"learning_rate": 0.0004414090834873555,
	"loss": 0.0687,
	"step": 5170
	},
	{
	"epoch": 17.266666666666666,
	"grad_norm": 0.40798482298851013,
	"learning_rate": 0.0004411025391773945,
	"loss": 0.0088,
	"step": 5180
	},
	{
	"epoch": 17.3,
	"grad_norm": 0.5033943057060242,
	"learning_rate": 0.0004407953020829001,
	"loss": 0.0017,
	"step": 5190
	},
	{
	"epoch": 17.333333333333332,
	"grad_norm": 0.006301830522716045,
	"learning_rate": 0.0004404873733176677,
	"loss": 0.0069,
	"step": 5200
	},
	{
	"epoch": 17.366666666666667,
	"grad_norm": 57.35346984863281,
	"learning_rate": 0.000440178753998,
	"loss": 0.057,
	"step": 5210
	},
	{
	"epoch": 17.4,
	"grad_norm": 20.014352798461914,
	"learning_rate": 0.0004398694452427032,
	"loss": 0.057,
	"step": 5220
	},
	{
	"epoch": 17.433333333333334,
	"grad_norm": 1.6002854108810425,
	"learning_rate": 0.00043955944817308264,
	"loss": 0.0283,
	"step": 5230
	},
	{
	"epoch": 17.466666666666665,
	"grad_norm": 0.1630188226699829,
	"learning_rate": 0.0004392487639129391,
	"loss": 0.0149,
	"step": 5240
	},
	{
	"epoch": 17.5,
	"grad_norm": 1.5527725219726562,
	"learning_rate": 0.0004389373935885646,
	"loss": 0.0033,
	"step": 5250
	},
	{
	"epoch": 17.533333333333335,
	"grad_norm": 0.08788882941007614,
	"learning_rate": 0.00043862533832873807,
	"loss": 0.0181,
	"step": 5260
	},
	{
	"epoch": 17.566666666666666,
	"grad_norm": 18.95491600036621,
	"learning_rate": 0.0004383125992647217,
	"loss": 0.0551,
	"step": 5270
	},
	{
	"epoch": 17.6,
	"grad_norm": 0.09805364906787872,
	"learning_rate": 0.0004379991775302565,
	"loss": 0.0016,
	"step": 5280
	},
	{
	"epoch": 17.633333333333333,
	"grad_norm": 0.08975560963153839,
	"learning_rate": 0.0004376850742615582,
	"loss": 0.0094,
	"step": 5290
	},
	{
	"epoch": 17.666666666666668,
	"grad_norm": 0.0001883259683381766,
	"learning_rate": 0.00043737029059731354,
	"loss": 0.0345,
	"step": 5300
	},
	{
	"epoch": 17.7,
	"grad_norm": 0.013120437040925026,
	"learning_rate": 0.0004370548276786753,
	"loss": 0.0012,
	"step": 5310
	},
	{
	"epoch": 17.733333333333334,
	"grad_norm": 0.001265104510821402,
	"learning_rate": 0.0004367386866492593,
	"loss": 0.0065,
	"step": 5320
	},
	{
	"epoch": 17.766666666666666,
	"grad_norm": 0.00024534211843274534,
	"learning_rate": 0.00043642186865513923,
	"loss": 0.059,
	"step": 5330
	},
	{
	"epoch": 17.8,
	"grad_norm": 0.00401131808757782,
	"learning_rate": 0.000436104374844843,
	"loss": 0.013,
	"step": 5340
	},
	{
	"epoch": 17.833333333333332,
	"grad_norm": 8.443090337095782e-05,
	"learning_rate": 0.00043578620636934855,
	"loss": 0.0187,
	"step": 5350
	},
	{
	"epoch": 17.866666666666667,
	"grad_norm": 3.067394495010376,
	"learning_rate": 0.0004354673643820796,
	"loss": 0.0088,
	"step": 5360
	},
	{
	"epoch": 17.9,
	"grad_norm": 9.890982627868652,
	"learning_rate": 0.00043514785003890145,
	"loss": 0.0055,
	"step": 5370
	},
	{
	"epoch": 17.933333333333334,
	"grad_norm": 0.06324765086174011,
	"learning_rate": 0.0004348276644981169,
	"loss": 0.0059,
	"step": 5380
	},
	{
	"epoch": 17.966666666666665,
	"grad_norm": 1.9441681615717243e-06,
	"learning_rate": 0.0004345068089204618,
	"loss": 0.0157,
	"step": 5390
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.0008120173588395119,
	"learning_rate": 0.00043418528446910123,
	"loss": 0.0176,
	"step": 5400
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924950401511573,
	"eval_kappa": 0.9848851269649335,
	"eval_loss": 0.012522498145699501,
	"eval_precision": 0.9926027397260273,
	"eval_recall": 0.9925,
	"eval_runtime": 7.2697,
	"eval_samples_per_second": 55.023,
	"eval_steps_per_second": 2.338,
	"step": 5400
	},
	{
	"epoch": 18.033333333333335,
	"grad_norm": 2.747086763381958,
	"learning_rate": 0.00043386309230962494,
	"loss": 0.0049,
	"step": 5410
	},
	{
	"epoch": 18.066666666666666,
	"grad_norm": 0.17824751138687134,
	"learning_rate": 0.00043354023361004326,
	"loss": 0.0055,
	"step": 5420
	},
	{
	"epoch": 18.1,
	"grad_norm": 0.012055006809532642,
	"learning_rate": 0.00043321670954078295,
	"loss": 0.0059,
	"step": 5430
	},
	{
	"epoch": 18.133333333333333,
	"grad_norm": 2.920243105108966e-07,
	"learning_rate": 0.00043289252127468275,
	"loss": 0.013,
	"step": 5440
	},
	{
	"epoch": 18.166666666666668,
	"grad_norm": 0.02946869097650051,
	"learning_rate": 0.00043256766998698936,
	"loss": 0.0129,
	"step": 5450
	},
	{
	"epoch": 18.2,
	"grad_norm": 0.15984544157981873,
	"learning_rate": 0.00043224215685535287,
	"loss": 0.0259,
	"step": 5460
	},
	{
	"epoch": 18.233333333333334,
	"grad_norm": 0.007439691107720137,
	"learning_rate": 0.00043191598305982295,
	"loss": 0.0071,
	"step": 5470
	},
	{
	"epoch": 18.266666666666666,
	"grad_norm": 0.003393712919205427,
	"learning_rate": 0.00043158914978284413,
	"loss": 0.0,
	"step": 5480
	},
	{
	"epoch": 18.3,
	"grad_norm": 0.026435252279043198,
	"learning_rate": 0.00043126165820925175,
	"loss": 0.0024,
	"step": 5490
	},
	{
	"epoch": 18.333333333333332,
	"grad_norm": 0.058090608566999435,
	"learning_rate": 0.0004309335095262675,
	"loss": 0.0851,
	"step": 5500
	},
	{
	"epoch": 18.366666666666667,
	"grad_norm": 0.004093553405255079,
	"learning_rate": 0.00043060470492349546,
	"loss": 0.055,
	"step": 5510
	},
	{
	"epoch": 18.4,
	"grad_norm": 0.006154999136924744,
	"learning_rate": 0.00043027524559291735,
	"loss": 0.0444,
	"step": 5520
	},
	{
	"epoch": 18.433333333333334,
	"grad_norm": 1.4688598639622796e-05,
	"learning_rate": 0.0004299451327288884,
	"loss": 0.1432,
	"step": 5530
	},
	{
	"epoch": 18.466666666666665,
	"grad_norm": 0.01573503017425537,
	"learning_rate": 0.00042961436752813313,
	"loss": 0.0567,
	"step": 5540
	},
	{
	"epoch": 18.5,
	"grad_norm": 0.09377676993608475,
	"learning_rate": 0.0004292829511897409,
	"loss": 0.004,
	"step": 5550
	},
	{
	"epoch": 18.533333333333335,
	"grad_norm": 0.0003030710795428604,
	"learning_rate": 0.00042895088491516143,
	"loss": 0.0109,
	"step": 5560
	},
	{
	"epoch": 18.566666666666666,
	"grad_norm": 0.37513068318367004,
	"learning_rate": 0.00042861816990820087,
	"loss": 0.0139,
	"step": 5570
	},
	{
	"epoch": 18.6,
	"grad_norm": 0.01114998385310173,
	"learning_rate": 0.00042828480737501685,
	"loss": 0.0121,
	"step": 5580
	},
	{
	"epoch": 18.633333333333333,
	"grad_norm": 0.016994353383779526,
	"learning_rate": 0.0004279507985241146,
	"loss": 0.0018,
	"step": 5590
	},
	{
	"epoch": 18.666666666666668,
	"grad_norm": 23.48972511291504,
	"learning_rate": 0.00042761614456634226,
	"loss": 0.0639,
	"step": 5600
	},
	{
	"epoch": 18.7,
	"grad_norm": 15.19426155090332,
	"learning_rate": 0.00042728084671488667,
	"loss": 0.0308,
	"step": 5610
	},
	{
	"epoch": 18.733333333333334,
	"grad_norm": 0.4076824188232422,
	"learning_rate": 0.000426944906185269,
	"loss": 0.0067,
	"step": 5620
	},
	{
	"epoch": 18.766666666666666,
	"grad_norm": 0.00021396263036876917,
	"learning_rate": 0.00042660832419534015,
	"loss": 0.0213,
	"step": 5630
	},
	{
	"epoch": 18.8,
	"grad_norm": 0.0007938387570902705,
	"learning_rate": 0.00042627110196527643,
	"loss": 0.0027,
	"step": 5640
	},
	{
	"epoch": 18.833333333333332,
	"grad_norm": 6.3498005867004395,
	"learning_rate": 0.00042593324071757513,
	"loss": 0.0014,
	"step": 5650
	},
	{
	"epoch": 18.866666666666667,
	"grad_norm": 0.01834871992468834,
	"learning_rate": 0.00042559474167705024,
	"loss": 0.005,
	"step": 5660
	},
	{
	"epoch": 18.9,
	"grad_norm": 25.21710968017578,
	"learning_rate": 0.0004252556060708277,
	"loss": 0.0112,
	"step": 5670
	},
	{
	"epoch": 18.933333333333334,
	"grad_norm": 0.0007557334029115736,
	"learning_rate": 0.00042491583512834137,
	"loss": 0.0048,
	"step": 5680
	},
	{
	"epoch": 18.966666666666665,
	"grad_norm": 0.0007840251782909036,
	"learning_rate": 0.00042457543008132803,
	"loss": 0.0028,
	"step": 5690
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.00020392781880218536,
	"learning_rate": 0.00042423439216382345,
	"loss": 0.004,
	"step": 5700
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924950401511573,
	"eval_kappa": 0.9848851269649335,
	"eval_loss": 0.02138124778866768,
	"eval_precision": 0.9926027397260273,
	"eval_recall": 0.9925,
	"eval_runtime": 7.2724,
	"eval_samples_per_second": 55.002,
	"eval_steps_per_second": 2.338,
	"step": 5700
	},
	{
	"epoch": 19.033333333333335,
	"grad_norm": 3.409046257729642e-05,
	"learning_rate": 0.0004238927226121574,
	"loss": 0.0053,
	"step": 5710
	},
	{
	"epoch": 19.066666666666666,
	"grad_norm": 5.1102761062793434e-05,
	"learning_rate": 0.0004235504226649499,
	"loss": 0.0006,
	"step": 5720
	},
	{
	"epoch": 19.1,
	"grad_norm": 4.482835265662288e-06,
	"learning_rate": 0.00042320749356310585,
	"loss": 0.0062,
	"step": 5730
	},
	{
	"epoch": 19.133333333333333,
	"grad_norm": 6.407644377759425e-06,
	"learning_rate": 0.00042286393654981117,
	"loss": 0.0144,
	"step": 5740
	},
	{
	"epoch": 19.166666666666668,
	"grad_norm": 6.763396868336713e-06,
	"learning_rate": 0.000422519752870528,
	"loss": 0.0074,
	"step": 5750
	},
	{
	"epoch": 19.2,
	"grad_norm": 0.6662626266479492,
	"learning_rate": 0.0004221749437729904,
	"loss": 0.0249,
	"step": 5760
	},
	{
	"epoch": 19.233333333333334,
	"grad_norm": 2.1368918418884277,
	"learning_rate": 0.00042182951050719953,
	"loss": 0.0005,
	"step": 5770
	},
	{
	"epoch": 19.266666666666666,
	"grad_norm": 0.7532082796096802,
	"learning_rate": 0.00042148345432541947,
	"loss": 0.0012,
	"step": 5780
	},
	{
	"epoch": 19.3,
	"grad_norm": 0.0029580825939774513,
	"learning_rate": 0.0004211367764821722,
	"loss": 0.0908,
	"step": 5790
	},
	{
	"epoch": 19.333333333333332,
	"grad_norm": 0.0024131108075380325,
	"learning_rate": 0.00042078947823423365,
	"loss": 0.0003,
	"step": 5800
	},
	{
	"epoch": 19.366666666666667,
	"grad_norm": 0.3826955556869507,
	"learning_rate": 0.0004204415608406287,
	"loss": 0.0017,
	"step": 5810
	},
	{
	"epoch": 19.4,
	"grad_norm": 0.6719952821731567,
	"learning_rate": 0.0004200930255626267,
	"loss": 0.0045,
	"step": 5820
	},
	{
	"epoch": 19.433333333333334,
	"grad_norm": 0.0007892029243521392,
	"learning_rate": 0.0004197438736637371,
	"loss": 0.0018,
	"step": 5830
	},
	{
	"epoch": 19.466666666666665,
	"grad_norm": 0.3547203838825226,
	"learning_rate": 0.00041939410640970463,
	"loss": 0.0001,
	"step": 5840
	},
	{
	"epoch": 19.5,
	"grad_norm": 0.0005942045827396214,
	"learning_rate": 0.0004190437250685049,
	"loss": 0.0041,
	"step": 5850
	},
	{
	"epoch": 19.533333333333335,
	"grad_norm": 2.2738926418242045e-05,
	"learning_rate": 0.0004186927309103395,
	"loss": 0.0249,
	"step": 5860
	},
	{
	"epoch": 19.566666666666666,
	"grad_norm": 0.2131558209657669,
	"learning_rate": 0.0004183411252076318,
	"loss": 0.0021,
	"step": 5870
	},
	{
	"epoch": 19.6,
	"grad_norm": 5.3966072300681844e-05,
	"learning_rate": 0.00041798890923502196,
	"loss": 0.0142,
	"step": 5880
	},
	{
	"epoch": 19.633333333333333,
	"grad_norm": 5.459845488076098e-05,
	"learning_rate": 0.00041763608426936285,
	"loss": 0.0114,
	"step": 5890
	},
	{
	"epoch": 19.666666666666668,
	"grad_norm": 0.00019487504323478788,
	"learning_rate": 0.0004172826515897146,
	"loss": 0.0006,
	"step": 5900
	},
	{
	"epoch": 19.7,
	"grad_norm": 39.95808792114258,
	"learning_rate": 0.00041692861247734066,
	"loss": 0.027,
	"step": 5910
	},
	{
	"epoch": 19.733333333333334,
	"grad_norm": 0.09292138367891312,
	"learning_rate": 0.000416573968215703,
	"loss": 0.0142,
	"step": 5920
	},
	{
	"epoch": 19.766666666666666,
	"grad_norm": 0.4146019518375397,
	"learning_rate": 0.00041621872009045714,
	"loss": 0.0619,
	"step": 5930
	},
	{
	"epoch": 19.8,
	"grad_norm": 0.0032702682074159384,
	"learning_rate": 0.00041586286938944794,
	"loss": 0.049,
	"step": 5940
	},
	{
	"epoch": 19.833333333333332,
	"grad_norm": 9.901680641632993e-06,
	"learning_rate": 0.0004155064174027047,
	"loss": 0.053,
	"step": 5950
	},
	{
	"epoch": 19.866666666666667,
	"grad_norm": 2.382656560939722e-07,
	"learning_rate": 0.0004151493654224362,
	"loss": 0.0041,
	"step": 5960
	},
	{
	"epoch": 19.9,
	"grad_norm": 0.10070688277482986,
	"learning_rate": 0.0004147917147430267,
	"loss": 0.0002,
	"step": 5970
	},
	{
	"epoch": 19.933333333333334,
	"grad_norm": 0.37473300099372864,
	"learning_rate": 0.00041443346666103075,
	"loss": 0.0317,
	"step": 5980
	},
	{
	"epoch": 19.966666666666665,
	"grad_norm": 0.015777839347720146,
	"learning_rate": 0.0004140746224751686,
	"loss": 0.0049,
	"step": 5990
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.06747877597808838,
	"learning_rate": 0.0004137151834863213,
	"loss": 0.0765,
	"step": 6000
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9925014619055704,
	"eval_kappa": 0.9849094567404426,
	"eval_loss": 0.026282142847776413,
	"eval_precision": 0.9925153991200503,
	"eval_recall": 0.9925,
	"eval_runtime": 7.3526,
	"eval_samples_per_second": 54.403,
	"eval_steps_per_second": 2.312,
	"step": 6000
	},
	{
	"epoch": 20.033333333333335,
	"grad_norm": 7.862460915930569e-05,
	"learning_rate": 0.0004133551509975264,
	"loss": 0.0018,
	"step": 6010
	},
	{
	"epoch": 20.066666666666666,
	"grad_norm": 0.003342132782563567,
	"learning_rate": 0.00041299452631397295,
	"loss": 0.0073,
	"step": 6020
	},
	{
	"epoch": 20.1,
	"grad_norm": 0.0008726781816221774,
	"learning_rate": 0.00041263331074299674,
	"loss": 0.0006,
	"step": 6030
	},
	{
	"epoch": 20.133333333333333,
	"grad_norm": 0.003774689044803381,
	"learning_rate": 0.0004122715055940759,
	"loss": 0.0142,
	"step": 6040
	},
	{
	"epoch": 20.166666666666668,
	"grad_norm": 4.912187099456787,
	"learning_rate": 0.00041190911217882554,
	"loss": 0.0087,
	"step": 6050
	},
	{
	"epoch": 20.2,
	"grad_norm": 0.028365733101963997,
	"learning_rate": 0.00041154613181099354,
	"loss": 0.0009,
	"step": 6060
	},
	{
	"epoch": 20.233333333333334,
	"grad_norm": 0.5290868878364563,
	"learning_rate": 0.00041118256580645573,
	"loss": 0.0072,
	"step": 6070
	},
	{
	"epoch": 20.266666666666666,
	"grad_norm": 1.6444475477328524e-05,
	"learning_rate": 0.00041081841548321063,
	"loss": 0.0011,
	"step": 6080
	},
	{
	"epoch": 20.3,
	"grad_norm": 1.4104318324825726e-05,
	"learning_rate": 0.0004104536821613755,
	"loss": 0.0028,
	"step": 6090
	},
	{
	"epoch": 20.333333333333332,
	"grad_norm": 0.0005012187757529318,
	"learning_rate": 0.0004100883671631806,
	"loss": 0.0006,
	"step": 6100
	},
	{
	"epoch": 20.366666666666667,
	"grad_norm": 0.0006044594920240343,
	"learning_rate": 0.00040972247181296517,
	"loss": 0.0007,
	"step": 6110
	},
	{
	"epoch": 20.4,
	"grad_norm": 0.011126265861093998,
	"learning_rate": 0.00040935599743717243,
	"loss": 0.0,
	"step": 6120
	},
	{
	"epoch": 20.433333333333334,
	"grad_norm": 9.391146886628121e-05,
	"learning_rate": 0.00040898894536434436,
	"loss": 0.0036,
	"step": 6130
	},
	{
	"epoch": 20.466666666666665,
	"grad_norm": 0.0033955660182982683,
	"learning_rate": 0.0004086213169251175,
	"loss": 0.0055,
	"step": 6140
	},
	{
	"epoch": 20.5,
	"grad_norm": 3.899128932971507e-05,
	"learning_rate": 0.0004082531134522176,
	"loss": 0.0038,
	"step": 6150
	},
	{
	"epoch": 20.533333333333335,
	"grad_norm": 54.52496337890625,
	"learning_rate": 0.00040788433628045526,
	"loss": 0.0801,
	"step": 6160
	},
	{
	"epoch": 20.566666666666666,
	"grad_norm": 23.238245010375977,
	"learning_rate": 0.0004075149867467206,
	"loss": 0.0054,
	"step": 6170
	},
	{
	"epoch": 20.6,
	"grad_norm": 0.024889228865504265,
	"learning_rate": 0.0004071450661899789,
	"loss": 0.0006,
	"step": 6180
	},
	{
	"epoch": 20.633333333333333,
	"grad_norm": 0.00033502039150334895,
	"learning_rate": 0.00040677457595126535,
	"loss": 0.0193,
	"step": 6190
	},
	{
	"epoch": 20.666666666666668,
	"grad_norm": 1.2196564674377441,
	"learning_rate": 0.0004064035173736804,
	"loss": 0.0326,
	"step": 6200
	},
	{
	"epoch": 20.7,
	"grad_norm": 0.03614107146859169,
	"learning_rate": 0.00040603189180238487,
	"loss": 0.0428,
	"step": 6210
	},
	{
	"epoch": 20.733333333333334,
	"grad_norm": 0.00015757529763504863,
	"learning_rate": 0.00040565970058459495,
	"loss": 0.0178,
	"step": 6220
	},
	{
	"epoch": 20.766666666666666,
	"grad_norm": 31.76898956298828,
	"learning_rate": 0.0004052869450695776,
	"loss": 0.0377,
	"step": 6230
	},
	{
	"epoch": 20.8,
	"grad_norm": 2.0460689067840576,
	"learning_rate": 0.0004049136266086453,
	"loss": 0.0018,
	"step": 6240
	},
	{
	"epoch": 20.833333333333332,
	"grad_norm": 0.00013923767255619168,
	"learning_rate": 0.0004045397465551513,
	"loss": 0.0257,
	"step": 6250
	},
	{
	"epoch": 20.866666666666667,
	"grad_norm": 0.0006307970033958554,
	"learning_rate": 0.0004041653062644849,
	"loss": 0.0004,
	"step": 6260
	},
	{
	"epoch": 20.9,
	"grad_norm": 0.006992705166339874,
	"learning_rate": 0.0004037903070940663,
	"loss": 0.0184,
	"step": 6270
	},
	{
	"epoch": 20.933333333333334,
	"grad_norm": 4.516855239868164,
	"learning_rate": 0.0004034147504033415,
	"loss": 0.0011,
	"step": 6280
	},
	{
	"epoch": 20.966666666666665,
	"grad_norm": 2.106142282485962,
	"learning_rate": 0.0004030386375537781,
	"loss": 0.0004,
	"step": 6290
	},
	{
	"epoch": 21.0,
	"grad_norm": 0.021997051313519478,
	"learning_rate": 0.00040266196990885957,
	"loss": 0.0031,
	"step": 6300
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.995,
	"eval_f1": 0.9949978595351413,
	"eval_kappa": 0.9899274778404512,
	"eval_loss": 0.007627411279827356,
	"eval_precision": 0.9950458715596331,
	"eval_recall": 0.995,
	"eval_runtime": 7.3429,
	"eval_samples_per_second": 54.474,
	"eval_steps_per_second": 2.315,
	"step": 6300
	},
	{
	"epoch": 21.033333333333335,
	"grad_norm": 0.10303360223770142,
	"learning_rate": 0.0004022847488340806,
	"loss": 0.0002,
	"step": 6310
	},
	{
	"epoch": 21.066666666666666,
	"grad_norm": 0.0006746263243257999,
	"learning_rate": 0.0004019069756969423,
	"loss": 0.0047,
	"step": 6320
	},
	{
	"epoch": 21.1,
	"grad_norm": 0.009801504202187061,
	"learning_rate": 0.0004015286518669471,
	"loss": 0.0001,
	"step": 6330
	},
	{
	"epoch": 21.133333333333333,
	"grad_norm": 0.0029807365499436855,
	"learning_rate": 0.00040114977871559375,
	"loss": 0.0003,
	"step": 6340
	},
	{
	"epoch": 21.166666666666668,
	"grad_norm": 4.46964713773923e-06,
	"learning_rate": 0.0004007703576163724,
	"loss": 0.0034,
	"step": 6350
	},
	{
	"epoch": 21.2,
	"grad_norm": 0.0006399075500667095,
	"learning_rate": 0.0004003903899447597,
	"loss": 0.0004,
	"step": 6360
	},
	{
	"epoch": 21.233333333333334,
	"grad_norm": 3.252115493523888e-05,
	"learning_rate": 0.00040000987707821355,
	"loss": 0.001,
	"step": 6370
	},
	{
	"epoch": 21.266666666666666,
	"grad_norm": 0.00783352367579937,
	"learning_rate": 0.0003996288203961686,
	"loss": 0.0003,
	"step": 6380
	},
	{
	"epoch": 21.3,
	"grad_norm": 2.122505975421518e-05,
	"learning_rate": 0.0003992472212800307,
	"loss": 0.0171,
	"step": 6390
	},
	{
	"epoch": 21.333333333333332,
	"grad_norm": 14.490923881530762,
	"learning_rate": 0.000398865081113172,
	"loss": 0.0322,
	"step": 6400
	},
	{
	"epoch": 21.366666666666667,
	"grad_norm": 3.637007694123895e-06,
	"learning_rate": 0.0003984824012809265,
	"loss": 0.0305,
	"step": 6410
	},
	{
	"epoch": 21.4,
	"grad_norm": 5.9053168296813965,
	"learning_rate": 0.0003980991831705842,
	"loss": 0.0107,
	"step": 6420
	},
	{
	"epoch": 21.433333333333334,
	"grad_norm": 0.28526216745376587,
	"learning_rate": 0.0003977154281713866,
	"loss": 0.0684,
	"step": 6430
	},
	{
	"epoch": 21.466666666666665,
	"grad_norm": 1.392630696296692,
	"learning_rate": 0.00039733113767452164,
	"loss": 0.0005,
	"step": 6440
	},
	{
	"epoch": 21.5,
	"grad_norm": 5.3771942475577816e-05,
	"learning_rate": 0.0003969463130731183,
	"loss": 0.0007,
	"step": 6450
	},
	{
	"epoch": 21.533333333333335,
	"grad_norm": 0.5646133422851562,
	"learning_rate": 0.00039656095576224204,
	"loss": 0.0082,
	"step": 6460
	},
	{
	"epoch": 21.566666666666666,
	"grad_norm": 57.72877883911133,
	"learning_rate": 0.0003961750671388894,
	"loss": 0.0146,
	"step": 6470
	},
	{
	"epoch": 21.6,
	"grad_norm": 23.014808654785156,
	"learning_rate": 0.000395788648601983,
	"loss": 0.0442,
	"step": 6480
	},
	{
	"epoch": 21.633333333333333,
	"grad_norm": 0.09101602435112,
	"learning_rate": 0.00039540170155236647,
	"loss": 0.0481,
	"step": 6490
	},
	{
	"epoch": 21.666666666666668,
	"grad_norm": 0.040844641625881195,
	"learning_rate": 0.0003950142273927996,
	"loss": 0.0161,
	"step": 6500
	},
	{
	"epoch": 21.7,
	"grad_norm": 0.4568909704685211,
	"learning_rate": 0.0003946262275279527,
	"loss": 0.0081,
	"step": 6510
	},
	{
	"epoch": 21.733333333333334,
	"grad_norm": 8.483947749482468e-05,
	"learning_rate": 0.00039423770336440234,
	"loss": 0.0169,
	"step": 6520
	},
	{
	"epoch": 21.766666666666666,
	"grad_norm": 0.016545411199331284,
	"learning_rate": 0.00039384865631062534,
	"loss": 0.0074,
	"step": 6530
	},
	{
	"epoch": 21.8,
	"grad_norm": 0.023100852966308594,
	"learning_rate": 0.00039345908777699436,
	"loss": 0.0144,
	"step": 6540
	},
	{
	"epoch": 21.833333333333332,
	"grad_norm": 0.012311081402003765,
	"learning_rate": 0.00039306899917577245,
	"loss": 0.0004,
	"step": 6550
	},
	{
	"epoch": 21.866666666666667,
	"grad_norm": 0.00015020677528809756,
	"learning_rate": 0.000392678391921108,
	"loss": 0.0178,
	"step": 6560
	},
	{
	"epoch": 21.9,
	"grad_norm": 2.5779238058021292e-05,
	"learning_rate": 0.00039228726742902956,
	"loss": 0.0042,
	"step": 6570
	},
	{
	"epoch": 21.933333333333334,
	"grad_norm": 0.0032437986228615046,
	"learning_rate": 0.0003918956271174409,
	"loss": 0.011,
	"step": 6580
	},
	{
	"epoch": 21.966666666666665,
	"grad_norm": 0.00043358461698517203,
	"learning_rate": 0.0003915034724061156,
	"loss": 0.0977,
	"step": 6590
	},
	{
	"epoch": 22.0,
	"grad_norm": 2.70005443780974e-07,
	"learning_rate": 0.0003911108047166924,
	"loss": 0.0241,
	"step": 6600
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.995,
	"eval_f1": 0.9949978595351413,
	"eval_kappa": 0.9899274778404512,
	"eval_loss": 0.005487921182066202,
	"eval_precision": 0.9950458715596331,
	"eval_recall": 0.995,
	"eval_runtime": 7.6114,
	"eval_samples_per_second": 52.552,
	"eval_steps_per_second": 2.233,
	"step": 6600
	},
	{
	"epoch": 22.033333333333335,
	"grad_norm": 0.0010603450937196612,
	"learning_rate": 0.000390717625472669,
	"loss": 0.0413,
	"step": 6610
	},
	{
	"epoch": 22.066666666666666,
	"grad_norm": 0.1451718658208847,
	"learning_rate": 0.00039032393609939823,
	"loss": 0.0002,
	"step": 6620
	},
	{
	"epoch": 22.1,
	"grad_norm": 4.978695142199285e-05,
	"learning_rate": 0.00038992973802408186,
	"loss": 0.0105,
	"step": 6630
	},
	{
	"epoch": 22.133333333333333,
	"grad_norm": 4.238208930473775e-05,
	"learning_rate": 0.00038953503267576616,
	"loss": 0.0145,
	"step": 6640
	},
	{
	"epoch": 22.166666666666668,
	"grad_norm": 1.652227759361267,
	"learning_rate": 0.000389139821485336,
	"loss": 0.0046,
	"step": 6650
	},
	{
	"epoch": 22.2,
	"grad_norm": 1.4371596574783325,
	"learning_rate": 0.0003887441058855101,
	"loss": 0.0048,
	"step": 6660
	},
	{
	"epoch": 22.233333333333334,
	"grad_norm": 0.01756283827126026,
	"learning_rate": 0.000388347887310836,
	"loss": 0.0005,
	"step": 6670
	},
	{
	"epoch": 22.266666666666666,
	"grad_norm": 0.007431345991790295,
	"learning_rate": 0.0003879511671976844,
	"loss": 0.0211,
	"step": 6680
	},
	{
	"epoch": 22.3,
	"grad_norm": 0.05154158174991608,
	"learning_rate": 0.0003875539469842443,
	"loss": 0.0051,
	"step": 6690
	},
	{
	"epoch": 22.333333333333332,
	"grad_norm": 17.479228973388672,
	"learning_rate": 0.00038715622811051755,
	"loss": 0.0117,
	"step": 6700
	},
	{
	"epoch": 22.366666666666667,
	"grad_norm": 0.0018899671267718077,
	"learning_rate": 0.0003867580120183137,
	"loss": 0.0056,
	"step": 6710
	},
	{
	"epoch": 22.4,
	"grad_norm": 0.4511035084724426,
	"learning_rate": 0.000386359300151245,
	"loss": 0.0026,
	"step": 6720
	},
	{
	"epoch": 22.433333333333334,
	"grad_norm": 26.481822967529297,
	"learning_rate": 0.000385960093954721,
	"loss": 0.0373,
	"step": 6730
	},
	{
	"epoch": 22.466666666666665,
	"grad_norm": 5.34855325895478e-06,
	"learning_rate": 0.00038556039487594305,
	"loss": 0.0001,
	"step": 6740
	},
	{
	"epoch": 22.5,
	"grad_norm": 0.846415102481842,
	"learning_rate": 0.0003851602043638994,
	"loss": 0.009,
	"step": 6750
	},
	{
	"epoch": 22.533333333333335,
	"grad_norm": 0.0109387943521142,
	"learning_rate": 0.00038475952386936,
	"loss": 0.0027,
	"step": 6760
	},
	{
	"epoch": 22.566666666666666,
	"grad_norm": 0.01608428731560707,
	"learning_rate": 0.00038435835484487094,
	"loss": 0.0182,
	"step": 6770
	},
	{
	"epoch": 22.6,
	"grad_norm": 8.210320629586931e-06,
	"learning_rate": 0.00038395669874474915,
	"loss": 0.0012,
	"step": 6780
	},
	{
	"epoch": 22.633333333333333,
	"grad_norm": 4.5128417696105316e-05,
	"learning_rate": 0.0003835545570250778,
	"loss": 0.0017,
	"step": 6790
	},
	{
	"epoch": 22.666666666666668,
	"grad_norm": 9.459803550271317e-05,
	"learning_rate": 0.00038315193114369994,
	"loss": 0.0702,
	"step": 6800
	},
	{
	"epoch": 22.7,
	"grad_norm": 0.1442583054304123,
	"learning_rate": 0.00038274882256021436,
	"loss": 0.0114,
	"step": 6810
	},
	{
	"epoch": 22.733333333333334,
	"grad_norm": 4.343274213169934e-06,
	"learning_rate": 0.00038234523273596925,
	"loss": 0.0054,
	"step": 6820
	},
	{
	"epoch": 22.766666666666666,
	"grad_norm": 3.1445400714874268,
	"learning_rate": 0.00038194116313405776,
	"loss": 0.0012,
	"step": 6830
	},
	{
	"epoch": 22.8,
	"grad_norm": 2.3695269192103297e-05,
	"learning_rate": 0.00038153661521931215,
	"loss": 0.0299,
	"step": 6840
	},
	{
	"epoch": 22.833333333333332,
	"grad_norm": 0.009363389573991299,
	"learning_rate": 0.00038113159045829857,
	"loss": 0.0171,
	"step": 6850
	},
	{
	"epoch": 22.866666666666667,
	"grad_norm": 24.479642868041992,
	"learning_rate": 0.00038072609031931216,
	"loss": 0.0459,
	"step": 6860
	},
	{
	"epoch": 22.9,
	"grad_norm": 0.00038373778806999326,
	"learning_rate": 0.00038032011627237104,
	"loss": 0.0467,
	"step": 6870
	},
	{
	"epoch": 22.933333333333334,
	"grad_norm": 0.0011447573779150844,
	"learning_rate": 0.0003799136697892115,
	"loss": 0.0058,
	"step": 6880
	},
	{
	"epoch": 22.966666666666665,
	"grad_norm": 0.0019354552496224642,
	"learning_rate": 0.00037950675234328256,
	"loss": 0.0077,
	"step": 6890
	},
	{
	"epoch": 23.0,
	"grad_norm": 14.743107795715332,
	"learning_rate": 0.0003790993654097405,
	"loss": 0.0033,
	"step": 6900
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.99,
	"eval_f1": 0.9899957190702827,
	"eval_kappa": 0.9798549556809025,
	"eval_loss": 0.013646052218973637,
	"eval_precision": 0.990041334811977,
	"eval_recall": 0.99,
	"eval_runtime": 7.3674,
	"eval_samples_per_second": 54.294,
	"eval_steps_per_second": 2.307,
	"step": 6900
	},
	{
	"epoch": 23.033333333333335,
	"grad_norm": 0.00013050199777353555,
	"learning_rate": 0.0003786915104654436,
	"loss": 0.0,
	"step": 6910
	},
	{
	"epoch": 23.066666666666666,
	"grad_norm": 0.5303778648376465,
	"learning_rate": 0.00037828318898894665,
	"loss": 0.0036,
	"step": 6920
	},
	{
	"epoch": 23.1,
	"grad_norm": 8.454459930362646e-06,
	"learning_rate": 0.000377874402460496,
	"loss": 0.0046,
	"step": 6930
	},
	{
	"epoch": 23.133333333333333,
	"grad_norm": 0.005222962703555822,
	"learning_rate": 0.0003774651523620237,
	"loss": 0.0,
	"step": 6940
	},
	{
	"epoch": 23.166666666666668,
	"grad_norm": 0.1712953895330429,
	"learning_rate": 0.0003770554401771423,
	"loss": 0.0041,
	"step": 6950
	},
	{
	"epoch": 23.2,
	"grad_norm": 0.17076972126960754,
	"learning_rate": 0.00037664526739113955,
	"loss": 0.0001,
	"step": 6960
	},
	{
	"epoch": 23.233333333333334,
	"grad_norm": 0.0013726474717259407,
	"learning_rate": 0.00037623463549097313,
	"loss": 0.0001,
	"step": 6970
	},
	{
	"epoch": 23.266666666666666,
	"grad_norm": 2.5219618692062795e-05,
	"learning_rate": 0.0003758235459652649,
	"loss": 0.0013,
	"step": 6980
	},
	{
	"epoch": 23.3,
	"grad_norm": 0.31080183386802673,
	"learning_rate": 0.0003754120003042957,
	"loss": 0.0033,
	"step": 6990
	},
	{
	"epoch": 23.333333333333332,
	"grad_norm": 0.00040980897028930485,
	"learning_rate": 0.000375,
	"loss": 0.0,
	"step": 7000
	},
	{
	"epoch": 23.366666666666667,
	"grad_norm": 6.820825547038112e-06,
	"learning_rate": 0.0003745875465459606,
	"loss": 0.0021,
	"step": 7010
	},
	{
	"epoch": 23.4,
	"grad_norm": 0.22616206109523773,
	"learning_rate": 0.0003741746414374028,
	"loss": 0.0021,
	"step": 7020
	},
	{
	"epoch": 23.433333333333334,
	"grad_norm": 6.284021765168291e-06,
	"learning_rate": 0.0003737612861711894,
	"loss": 0.0005,
	"step": 7030
	},
	{
	"epoch": 23.466666666666665,
	"grad_norm": 0.004215302877128124,
	"learning_rate": 0.00037334748224581506,
	"loss": 0.0132,
	"step": 7040
	},
	{
	"epoch": 23.5,
	"grad_norm": 0.9243494272232056,
	"learning_rate": 0.000372933231161401,
	"loss": 0.0049,
	"step": 7050
	},
	{
	"epoch": 23.533333333333335,
	"grad_norm": 0.0001606469159014523,
	"learning_rate": 0.0003725185344196892,
	"loss": 0.0001,
	"step": 7060
	},
	{
	"epoch": 23.566666666666666,
	"grad_norm": 1.1334620714187622,
	"learning_rate": 0.0003721033935240376,
	"loss": 0.0027,
	"step": 7070
	},
	{
	"epoch": 23.6,
	"grad_norm": 1.3876824378967285,
	"learning_rate": 0.0003716878099794141,
	"loss": 0.0105,
	"step": 7080
	},
	{
	"epoch": 23.633333333333333,
	"grad_norm": 5.220254593041318e-07,
	"learning_rate": 0.00037127178529239123,
	"loss": 0.0146,
	"step": 7090
	},
	{
	"epoch": 23.666666666666668,
	"grad_norm": 5.209434986114502,
	"learning_rate": 0.00037085532097114095,
	"loss": 0.0073,
	"step": 7100
	},
	{
	"epoch": 23.7,
	"grad_norm": 0.0003162418433930725,
	"learning_rate": 0.0003704384185254288,
	"loss": 0.0816,
	"step": 7110
	},
	{
	"epoch": 23.733333333333334,
	"grad_norm": 0.3284040689468384,
	"learning_rate": 0.00037002107946660875,
	"loss": 0.0005,
	"step": 7120
	},
	{
	"epoch": 23.766666666666666,
	"grad_norm": 0.00015756633365526795,
	"learning_rate": 0.00036960330530761733,
	"loss": 0.0046,
	"step": 7130
	},
	{
	"epoch": 23.8,
	"grad_norm": 33.33992004394531,
	"learning_rate": 0.00036918509756296873,
	"loss": 0.0572,
	"step": 7140
	},
	{
	"epoch": 23.833333333333332,
	"grad_norm": 0.003860224736854434,
	"learning_rate": 0.00036876645774874876,
	"loss": 0.0015,
	"step": 7150
	},
	{
	"epoch": 23.866666666666667,
	"grad_norm": 2.565090539974335e-07,
	"learning_rate": 0.00036834738738260954,
	"loss": 0.009,
	"step": 7160
	},
	{
	"epoch": 23.9,
	"grad_norm": 0.0023236051201820374,
	"learning_rate": 0.0003679278879837642,
	"loss": 0.0012,
	"step": 7170
	},
	{
	"epoch": 23.933333333333334,
	"grad_norm": 21.017024993896484,
	"learning_rate": 0.00036750796107298106,
	"loss": 0.0585,
	"step": 7180
	},
	{
	"epoch": 23.966666666666665,
	"grad_norm": 0.0037448403891175985,
	"learning_rate": 0.00036708760817257837,
	"loss": 0.0031,
	"step": 7190
	},
	{
	"epoch": 24.0,
	"grad_norm": 18.846464157104492,
	"learning_rate": 0.00036666683080641843,
	"loss": 0.0181,
	"step": 7200
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.9925,
	"eval_f1": 0.9924950401511573,
	"eval_kappa": 0.9848851269649335,
	"eval_loss": 0.013661917299032211,
	"eval_precision": 0.9926027397260273,
	"eval_recall": 0.9925,
	"eval_runtime": 8.9153,
	"eval_samples_per_second": 44.867,
	"eval_steps_per_second": 1.907,
	"step": 7200
	},
	{
	"epoch": 24.033333333333335,
	"grad_norm": 0.0003208270645700395,
	"learning_rate": 0.0003662456304999027,
	"loss": 0.0176,
	"step": 7210
	},
	{
	"epoch": 24.066666666666666,
	"grad_norm": 0.011914746835827827,
	"learning_rate": 0.00036582400877996547,
	"loss": 0.0073,
	"step": 7220
	},
	{
	"epoch": 24.1,
	"grad_norm": 0.362394779920578,
	"learning_rate": 0.000365401967175069,
	"loss": 0.0193,
	"step": 7230
	},
	{
	"epoch": 24.133333333333333,
	"grad_norm": 1.1130025256989029e-07,
	"learning_rate": 0.0003649795072151977,
	"loss": 0.0026,
	"step": 7240
	},
	{
	"epoch": 24.166666666666668,
	"grad_norm": 0.0001176462828880176,
	"learning_rate": 0.0003645566304318526,
	"loss": 0.0278,
	"step": 7250
	},
	{
	"epoch": 24.2,
	"grad_norm": 18.362728118896484,
	"learning_rate": 0.0003641333383580456,
	"loss": 0.0113,
	"step": 7260
	},
	{
	"epoch": 24.233333333333334,
	"grad_norm": 0.10462316870689392,
	"learning_rate": 0.0003637096325282945,
	"loss": 0.0138,
	"step": 7270
	},
	{
	"epoch": 24.266666666666666,
	"grad_norm": 0.006980831269174814,
	"learning_rate": 0.0003632855144786164,
	"loss": 0.0073,
	"step": 7280
	},
	{
	"epoch": 24.3,
	"grad_norm": 0.013762867078185081,
	"learning_rate": 0.00036286098574652353,
	"loss": 0.0004,
	"step": 7290
	},
	{
	"epoch": 24.333333333333332,
	"grad_norm": 13.014883995056152,
	"learning_rate": 0.00036243604787101645,
	"loss": 0.041,
	"step": 7300
	},
	{
	"epoch": 24.366666666666667,
	"grad_norm": 0.011269000358879566,
	"learning_rate": 0.0003620107023925791,
	"loss": 0.0074,
	"step": 7310
	},
	{
	"epoch": 24.4,
	"grad_norm": 0.0007277583354152739,
	"learning_rate": 0.000361584950853173,
	"loss": 0.0003,
	"step": 7320
	},
	{
	"epoch": 24.433333333333334,
	"grad_norm": 24.452768325805664,
	"learning_rate": 0.00036115879479623185,
	"loss": 0.0162,
	"step": 7330
	},
	{
	"epoch": 24.466666666666665,
	"grad_norm": 0.004250858910381794,
	"learning_rate": 0.0003607322357666557,
	"loss": 0.0102,
	"step": 7340
	},
	{
	"epoch": 24.5,
	"grad_norm": 4.788829326629639,
	"learning_rate": 0.0003603052753108053,
	"loss": 0.002,
	"step": 7350
	},
	{
	"epoch": 24.533333333333335,
	"grad_norm": 5.666919605573639e-05,
	"learning_rate": 0.000359877914976497,
	"loss": 0.0132,
	"step": 7360
	},
	{
	"epoch": 24.566666666666666,
	"grad_norm": 0.00400648545473814,
	"learning_rate": 0.0003594501563129966,
	"loss": 0.0018,
	"step": 7370
	},
	{
	"epoch": 24.6,
	"grad_norm": 2.8069054678780958e-05,
	"learning_rate": 0.00035902200087101384,
	"loss": 0.0168,
	"step": 7380
	},
	{
	"epoch": 24.633333333333333,
	"grad_norm": 0.012254276312887669,
	"learning_rate": 0.000358593450202697,
	"loss": 0.0429,
	"step": 7390
	},
	{
	"epoch": 24.666666666666668,
	"grad_norm": 7.442674387903025e-08,
	"learning_rate": 0.00035816450586162706,
	"loss": 0.0025,
	"step": 7400
	},
	{
	"epoch": 24.7,
	"grad_norm": 9.398029327392578,
	"learning_rate": 0.00035773516940281223,
	"loss": 0.0135,
	"step": 7410
	},
	{
	"epoch": 24.733333333333334,
	"grad_norm": 1.0428972927911673e-05,
	"learning_rate": 0.00035730544238268206,
	"loss": 0.0181,
	"step": 7420
	},
	{
	"epoch": 24.766666666666666,
	"grad_norm": 0.0002591295342426747,
	"learning_rate": 0.00035687532635908216,
	"loss": 0.0039,
	"step": 7430
	},
	{
	"epoch": 24.8,
	"grad_norm": 0.00013015963486395776,
	"learning_rate": 0.0003564448228912682,
	"loss": 0.0033,
	"step": 7440
	},
	{
	"epoch": 24.833333333333332,
	"grad_norm": 0.19798079133033752,
	"learning_rate": 0.00035601393353990046,
	"loss": 0.0,
	"step": 7450
	},
	{
	"epoch": 24.866666666666667,
	"grad_norm": 0.18493784964084625,
	"learning_rate": 0.0003555826598670382,
	"loss": 0.0171,
	"step": 7460
	},
	{
	"epoch": 24.9,
	"grad_norm": 0.0026060056407004595,
	"learning_rate": 0.0003551510034361337,
	"loss": 0.0366,
	"step": 7470
	},
	{
	"epoch": 24.933333333333334,
	"grad_norm": 0.0010627699084579945,
	"learning_rate": 0.0003547189658120272,
	"loss": 0.0027,
	"step": 7480
	},
	{
	"epoch": 24.966666666666665,
	"grad_norm": 5.541090104088653e-06,
	"learning_rate": 0.0003542865485609404,
	"loss": 0.0009,
	"step": 7490
	},
	{
	"epoch": 25.0,
	"grad_norm": 0.0014559195842593908,
	"learning_rate": 0.00035385375325047166,
	"loss": 0.0171,
	"step": 7500
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 1.0,
	"eval_f1": 1.0,
	"eval_kappa": 1.0,
	"eval_loss": 0.005007035564631224,
	"eval_precision": 1.0,
	"eval_recall": 1.0,
	"eval_runtime": 8.9128,
	"eval_samples_per_second": 44.879,
	"eval_steps_per_second": 1.907,
	"step": 7500
	}
	],
	"logging_steps": 10,
	"max_steps": 18000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 60,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.89101405896704e+18,
	"train_batch_size": 24,
	"trial_name": null,
	"trial_params": null
	}