leopard_phikon_31_may / trainer_state.json
manikandan9943114590's picture
Upload 8 files
ee011fb verified
{
"best_metric": 1.0,
"best_model_checkpoint": "phikon_leopard_2/checkpoint-7500",
"epoch": 25.0,
"eval_steps": 500,
"global_step": 7500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.03333333333333333,
"grad_norm": 10.40684986114502,
"learning_rate": 3.3333333333333337e-06,
"loss": 0.8204,
"step": 10
},
{
"epoch": 0.06666666666666667,
"grad_norm": 13.229052543640137,
"learning_rate": 6.6666666666666675e-06,
"loss": 0.8376,
"step": 20
},
{
"epoch": 0.1,
"grad_norm": 14.727029800415039,
"learning_rate": 1e-05,
"loss": 0.8368,
"step": 30
},
{
"epoch": 0.13333333333333333,
"grad_norm": 19.26563835144043,
"learning_rate": 1.3333333333333335e-05,
"loss": 0.6774,
"step": 40
},
{
"epoch": 0.16666666666666666,
"grad_norm": 12.464519500732422,
"learning_rate": 1.6666666666666667e-05,
"loss": 0.6611,
"step": 50
},
{
"epoch": 0.2,
"grad_norm": 9.706178665161133,
"learning_rate": 2e-05,
"loss": 0.5936,
"step": 60
},
{
"epoch": 0.23333333333333334,
"grad_norm": 20.20228385925293,
"learning_rate": 2.3333333333333336e-05,
"loss": 0.5647,
"step": 70
},
{
"epoch": 0.26666666666666666,
"grad_norm": 9.019632339477539,
"learning_rate": 2.666666666666667e-05,
"loss": 0.4235,
"step": 80
},
{
"epoch": 0.3,
"grad_norm": 9.443696022033691,
"learning_rate": 3e-05,
"loss": 0.3427,
"step": 90
},
{
"epoch": 0.3333333333333333,
"grad_norm": 13.720805168151855,
"learning_rate": 3.3333333333333335e-05,
"loss": 0.3335,
"step": 100
},
{
"epoch": 0.36666666666666664,
"grad_norm": 32.24056625366211,
"learning_rate": 3.6666666666666666e-05,
"loss": 0.2616,
"step": 110
},
{
"epoch": 0.4,
"grad_norm": 27.36871910095215,
"learning_rate": 4e-05,
"loss": 0.231,
"step": 120
},
{
"epoch": 0.43333333333333335,
"grad_norm": 6.440493106842041,
"learning_rate": 4.3333333333333334e-05,
"loss": 0.2306,
"step": 130
},
{
"epoch": 0.4666666666666667,
"grad_norm": 3.979595422744751,
"learning_rate": 4.666666666666667e-05,
"loss": 0.1915,
"step": 140
},
{
"epoch": 0.5,
"grad_norm": 14.703475952148438,
"learning_rate": 5e-05,
"loss": 0.2146,
"step": 150
},
{
"epoch": 0.5333333333333333,
"grad_norm": 12.133000373840332,
"learning_rate": 5.333333333333334e-05,
"loss": 0.1677,
"step": 160
},
{
"epoch": 0.5666666666666667,
"grad_norm": 3.946819305419922,
"learning_rate": 5.6666666666666664e-05,
"loss": 0.1136,
"step": 170
},
{
"epoch": 0.6,
"grad_norm": 17.351539611816406,
"learning_rate": 6e-05,
"loss": 0.1685,
"step": 180
},
{
"epoch": 0.6333333333333333,
"grad_norm": 8.088935852050781,
"learning_rate": 6.333333333333335e-05,
"loss": 0.2801,
"step": 190
},
{
"epoch": 0.6666666666666666,
"grad_norm": 1.9004828929901123,
"learning_rate": 6.666666666666667e-05,
"loss": 0.1142,
"step": 200
},
{
"epoch": 0.7,
"grad_norm": 22.632282257080078,
"learning_rate": 7.000000000000001e-05,
"loss": 0.1934,
"step": 210
},
{
"epoch": 0.7333333333333333,
"grad_norm": 16.069622039794922,
"learning_rate": 7.333333333333333e-05,
"loss": 0.2116,
"step": 220
},
{
"epoch": 0.7666666666666667,
"grad_norm": 4.640405178070068,
"learning_rate": 7.666666666666667e-05,
"loss": 0.2516,
"step": 230
},
{
"epoch": 0.8,
"grad_norm": 21.024972915649414,
"learning_rate": 8e-05,
"loss": 0.2464,
"step": 240
},
{
"epoch": 0.8333333333333334,
"grad_norm": 24.865827560424805,
"learning_rate": 8.333333333333333e-05,
"loss": 0.1282,
"step": 250
},
{
"epoch": 0.8666666666666667,
"grad_norm": 57.33536911010742,
"learning_rate": 8.666666666666667e-05,
"loss": 0.1288,
"step": 260
},
{
"epoch": 0.9,
"grad_norm": 2.9938220977783203,
"learning_rate": 8.999999999999999e-05,
"loss": 0.0878,
"step": 270
},
{
"epoch": 0.9333333333333333,
"grad_norm": 5.010091781616211,
"learning_rate": 9.333333333333334e-05,
"loss": 0.0548,
"step": 280
},
{
"epoch": 0.9666666666666667,
"grad_norm": 11.914796829223633,
"learning_rate": 9.666666666666667e-05,
"loss": 0.1699,
"step": 290
},
{
"epoch": 1.0,
"grad_norm": 3.1874632835388184,
"learning_rate": 0.0001,
"loss": 0.1314,
"step": 300
},
{
"epoch": 1.0,
"eval_accuracy": 0.965,
"eval_f1": 0.9650526315789475,
"eval_kappa": 0.9298878205128205,
"eval_loss": 0.0974951758980751,
"eval_precision": 0.9668427370948379,
"eval_recall": 0.965,
"eval_runtime": 7.3478,
"eval_samples_per_second": 54.438,
"eval_steps_per_second": 2.314,
"step": 300
},
{
"epoch": 1.0333333333333334,
"grad_norm": 5.853661060333252,
"learning_rate": 0.00010333333333333333,
"loss": 0.1632,
"step": 310
},
{
"epoch": 1.0666666666666667,
"grad_norm": 4.40404748916626,
"learning_rate": 0.00010666666666666668,
"loss": 0.179,
"step": 320
},
{
"epoch": 1.1,
"grad_norm": 13.998967170715332,
"learning_rate": 0.00011,
"loss": 0.1205,
"step": 330
},
{
"epoch": 1.1333333333333333,
"grad_norm": 2.588562488555908,
"learning_rate": 0.00011333333333333333,
"loss": 0.0696,
"step": 340
},
{
"epoch": 1.1666666666666667,
"grad_norm": 58.213844299316406,
"learning_rate": 0.00011666666666666667,
"loss": 0.185,
"step": 350
},
{
"epoch": 1.2,
"grad_norm": 0.5367558598518372,
"learning_rate": 0.00012,
"loss": 0.0978,
"step": 360
},
{
"epoch": 1.2333333333333334,
"grad_norm": 5.09960412979126,
"learning_rate": 0.00012333333333333334,
"loss": 0.0441,
"step": 370
},
{
"epoch": 1.2666666666666666,
"grad_norm": 8.864643096923828,
"learning_rate": 0.0001266666666666667,
"loss": 0.133,
"step": 380
},
{
"epoch": 1.3,
"grad_norm": 18.213979721069336,
"learning_rate": 0.00013000000000000002,
"loss": 0.1125,
"step": 390
},
{
"epoch": 1.3333333333333333,
"grad_norm": 43.96633529663086,
"learning_rate": 0.00013333333333333334,
"loss": 0.081,
"step": 400
},
{
"epoch": 1.3666666666666667,
"grad_norm": 16.093639373779297,
"learning_rate": 0.00013666666666666666,
"loss": 0.2059,
"step": 410
},
{
"epoch": 1.4,
"grad_norm": 5.3681182861328125,
"learning_rate": 0.00014000000000000001,
"loss": 0.1092,
"step": 420
},
{
"epoch": 1.4333333333333333,
"grad_norm": 22.289615631103516,
"learning_rate": 0.00014333333333333334,
"loss": 0.1799,
"step": 430
},
{
"epoch": 1.4666666666666668,
"grad_norm": 10.704950332641602,
"learning_rate": 0.00014666666666666666,
"loss": 0.0896,
"step": 440
},
{
"epoch": 1.5,
"grad_norm": 9.731138229370117,
"learning_rate": 0.00015,
"loss": 0.084,
"step": 450
},
{
"epoch": 1.5333333333333332,
"grad_norm": 73.84809875488281,
"learning_rate": 0.00015333333333333334,
"loss": 0.1068,
"step": 460
},
{
"epoch": 1.5666666666666667,
"grad_norm": 11.718538284301758,
"learning_rate": 0.0001566666666666667,
"loss": 0.1381,
"step": 470
},
{
"epoch": 1.6,
"grad_norm": 6.703563690185547,
"learning_rate": 0.00016,
"loss": 0.1447,
"step": 480
},
{
"epoch": 1.6333333333333333,
"grad_norm": 0.5254905223846436,
"learning_rate": 0.00016333333333333334,
"loss": 0.1534,
"step": 490
},
{
"epoch": 1.6666666666666665,
"grad_norm": 15.59839153289795,
"learning_rate": 0.00016666666666666666,
"loss": 0.0839,
"step": 500
},
{
"epoch": 1.7,
"grad_norm": 51.54722595214844,
"learning_rate": 0.00017,
"loss": 0.0946,
"step": 510
},
{
"epoch": 1.7333333333333334,
"grad_norm": 0.4045482277870178,
"learning_rate": 0.00017333333333333334,
"loss": 0.1094,
"step": 520
},
{
"epoch": 1.7666666666666666,
"grad_norm": 1.8732757568359375,
"learning_rate": 0.00017666666666666666,
"loss": 0.0615,
"step": 530
},
{
"epoch": 1.8,
"grad_norm": 2.8650341033935547,
"learning_rate": 0.00017999999999999998,
"loss": 0.0313,
"step": 540
},
{
"epoch": 1.8333333333333335,
"grad_norm": 53.85961151123047,
"learning_rate": 0.00018333333333333334,
"loss": 0.2269,
"step": 550
},
{
"epoch": 1.8666666666666667,
"grad_norm": 22.627843856811523,
"learning_rate": 0.0001866666666666667,
"loss": 0.1654,
"step": 560
},
{
"epoch": 1.9,
"grad_norm": 26.226465225219727,
"learning_rate": 0.00019,
"loss": 0.0884,
"step": 570
},
{
"epoch": 1.9333333333333333,
"grad_norm": 2.285435676574707,
"learning_rate": 0.00019333333333333333,
"loss": 0.1131,
"step": 580
},
{
"epoch": 1.9666666666666668,
"grad_norm": 25.028507232666016,
"learning_rate": 0.00019666666666666666,
"loss": 0.1031,
"step": 590
},
{
"epoch": 2.0,
"grad_norm": 0.4155627489089966,
"learning_rate": 0.0002,
"loss": 0.0514,
"step": 600
},
{
"epoch": 2.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924984425244319,
"eval_kappa": 0.9848973016512284,
"eval_loss": 0.032248713076114655,
"eval_precision": 0.9925093802724686,
"eval_recall": 0.9925,
"eval_runtime": 7.4789,
"eval_samples_per_second": 53.484,
"eval_steps_per_second": 2.273,
"step": 600
},
{
"epoch": 2.033333333333333,
"grad_norm": 11.480493545532227,
"learning_rate": 0.00020333333333333333,
"loss": 0.1238,
"step": 610
},
{
"epoch": 2.066666666666667,
"grad_norm": 34.10750198364258,
"learning_rate": 0.00020666666666666666,
"loss": 0.1613,
"step": 620
},
{
"epoch": 2.1,
"grad_norm": 59.7767333984375,
"learning_rate": 0.00021,
"loss": 0.153,
"step": 630
},
{
"epoch": 2.1333333333333333,
"grad_norm": 0.030956873670220375,
"learning_rate": 0.00021333333333333336,
"loss": 0.0362,
"step": 640
},
{
"epoch": 2.1666666666666665,
"grad_norm": 0.7113701105117798,
"learning_rate": 0.00021666666666666668,
"loss": 0.1279,
"step": 650
},
{
"epoch": 2.2,
"grad_norm": 0.036753419786691666,
"learning_rate": 0.00022,
"loss": 0.0826,
"step": 660
},
{
"epoch": 2.2333333333333334,
"grad_norm": 31.153987884521484,
"learning_rate": 0.00022333333333333333,
"loss": 0.0544,
"step": 670
},
{
"epoch": 2.2666666666666666,
"grad_norm": 41.63099670410156,
"learning_rate": 0.00022666666666666666,
"loss": 0.1596,
"step": 680
},
{
"epoch": 2.3,
"grad_norm": 16.148771286010742,
"learning_rate": 0.00023,
"loss": 0.3149,
"step": 690
},
{
"epoch": 2.3333333333333335,
"grad_norm": 3.936267852783203,
"learning_rate": 0.00023333333333333333,
"loss": 0.087,
"step": 700
},
{
"epoch": 2.3666666666666667,
"grad_norm": 10.360591888427734,
"learning_rate": 0.00023666666666666668,
"loss": 0.0539,
"step": 710
},
{
"epoch": 2.4,
"grad_norm": 7.021051406860352,
"learning_rate": 0.00024,
"loss": 0.1349,
"step": 720
},
{
"epoch": 2.4333333333333336,
"grad_norm": 19.7969913482666,
"learning_rate": 0.00024333333333333336,
"loss": 0.1902,
"step": 730
},
{
"epoch": 2.466666666666667,
"grad_norm": 3.9114363193511963,
"learning_rate": 0.0002466666666666667,
"loss": 0.1267,
"step": 740
},
{
"epoch": 2.5,
"grad_norm": 7.794479846954346,
"learning_rate": 0.00025,
"loss": 0.06,
"step": 750
},
{
"epoch": 2.533333333333333,
"grad_norm": 6.126293659210205,
"learning_rate": 0.0002533333333333334,
"loss": 0.1415,
"step": 760
},
{
"epoch": 2.5666666666666664,
"grad_norm": 37.84233474731445,
"learning_rate": 0.00025666666666666665,
"loss": 0.1258,
"step": 770
},
{
"epoch": 2.6,
"grad_norm": 23.545204162597656,
"learning_rate": 0.00026000000000000003,
"loss": 0.171,
"step": 780
},
{
"epoch": 2.6333333333333333,
"grad_norm": 28.475013732910156,
"learning_rate": 0.0002633333333333333,
"loss": 0.257,
"step": 790
},
{
"epoch": 2.6666666666666665,
"grad_norm": 3.5256567001342773,
"learning_rate": 0.0002666666666666667,
"loss": 0.0947,
"step": 800
},
{
"epoch": 2.7,
"grad_norm": 3.099149703979492,
"learning_rate": 0.00027,
"loss": 0.064,
"step": 810
},
{
"epoch": 2.7333333333333334,
"grad_norm": 0.26131123304367065,
"learning_rate": 0.00027333333333333333,
"loss": 0.0546,
"step": 820
},
{
"epoch": 2.7666666666666666,
"grad_norm": 12.054543495178223,
"learning_rate": 0.00027666666666666665,
"loss": 0.0212,
"step": 830
},
{
"epoch": 2.8,
"grad_norm": 0.029533645138144493,
"learning_rate": 0.00028000000000000003,
"loss": 0.1015,
"step": 840
},
{
"epoch": 2.8333333333333335,
"grad_norm": 15.776507377624512,
"learning_rate": 0.00028333333333333335,
"loss": 0.0697,
"step": 850
},
{
"epoch": 2.8666666666666667,
"grad_norm": 27.243316650390625,
"learning_rate": 0.0002866666666666667,
"loss": 0.0792,
"step": 860
},
{
"epoch": 2.9,
"grad_norm": 1.336427092552185,
"learning_rate": 0.00029,
"loss": 0.0692,
"step": 870
},
{
"epoch": 2.9333333333333336,
"grad_norm": 0.8693376183509827,
"learning_rate": 0.0002933333333333333,
"loss": 0.1561,
"step": 880
},
{
"epoch": 2.966666666666667,
"grad_norm": 23.98179054260254,
"learning_rate": 0.0002966666666666667,
"loss": 0.0723,
"step": 890
},
{
"epoch": 3.0,
"grad_norm": 7.080474853515625,
"learning_rate": 0.0003,
"loss": 0.0331,
"step": 900
},
{
"epoch": 3.0,
"eval_accuracy": 0.975,
"eval_f1": 0.9749336434186909,
"eval_kappa": 0.9494745351657236,
"eval_loss": 0.07423003017902374,
"eval_precision": 0.9761061946902655,
"eval_recall": 0.975,
"eval_runtime": 7.4439,
"eval_samples_per_second": 53.735,
"eval_steps_per_second": 2.284,
"step": 900
},
{
"epoch": 3.033333333333333,
"grad_norm": 0.6346681714057922,
"learning_rate": 0.00030333333333333335,
"loss": 0.0951,
"step": 910
},
{
"epoch": 3.066666666666667,
"grad_norm": 5.4937262535095215,
"learning_rate": 0.0003066666666666667,
"loss": 0.0309,
"step": 920
},
{
"epoch": 3.1,
"grad_norm": 0.28873440623283386,
"learning_rate": 0.00031,
"loss": 0.0722,
"step": 930
},
{
"epoch": 3.1333333333333333,
"grad_norm": 23.229862213134766,
"learning_rate": 0.0003133333333333334,
"loss": 0.1332,
"step": 940
},
{
"epoch": 3.1666666666666665,
"grad_norm": 12.44790267944336,
"learning_rate": 0.00031666666666666665,
"loss": 0.1945,
"step": 950
},
{
"epoch": 3.2,
"grad_norm": 24.034635543823242,
"learning_rate": 0.00032,
"loss": 0.0665,
"step": 960
},
{
"epoch": 3.2333333333333334,
"grad_norm": 4.845742225646973,
"learning_rate": 0.0003233333333333333,
"loss": 0.1132,
"step": 970
},
{
"epoch": 3.2666666666666666,
"grad_norm": 13.879509925842285,
"learning_rate": 0.0003266666666666667,
"loss": 0.1168,
"step": 980
},
{
"epoch": 3.3,
"grad_norm": 0.8819650411605835,
"learning_rate": 0.00033,
"loss": 0.03,
"step": 990
},
{
"epoch": 3.3333333333333335,
"grad_norm": 20.817033767700195,
"learning_rate": 0.0003333333333333333,
"loss": 0.1599,
"step": 1000
},
{
"epoch": 3.3666666666666667,
"grad_norm": 0.08637402951717377,
"learning_rate": 0.0003366666666666667,
"loss": 0.0989,
"step": 1010
},
{
"epoch": 3.4,
"grad_norm": 12.32111644744873,
"learning_rate": 0.00034,
"loss": 0.064,
"step": 1020
},
{
"epoch": 3.4333333333333336,
"grad_norm": 4.319044589996338,
"learning_rate": 0.00034333333333333335,
"loss": 0.1845,
"step": 1030
},
{
"epoch": 3.466666666666667,
"grad_norm": 4.642833232879639,
"learning_rate": 0.00034666666666666667,
"loss": 0.0245,
"step": 1040
},
{
"epoch": 3.5,
"grad_norm": 4.123671531677246,
"learning_rate": 0.00035,
"loss": 0.0534,
"step": 1050
},
{
"epoch": 3.533333333333333,
"grad_norm": 39.12535858154297,
"learning_rate": 0.0003533333333333333,
"loss": 0.2904,
"step": 1060
},
{
"epoch": 3.5666666666666664,
"grad_norm": 0.37203097343444824,
"learning_rate": 0.0003566666666666667,
"loss": 0.1135,
"step": 1070
},
{
"epoch": 3.6,
"grad_norm": 0.8821052312850952,
"learning_rate": 0.00035999999999999997,
"loss": 0.1018,
"step": 1080
},
{
"epoch": 3.6333333333333333,
"grad_norm": 16.677507400512695,
"learning_rate": 0.00036333333333333335,
"loss": 0.1235,
"step": 1090
},
{
"epoch": 3.6666666666666665,
"grad_norm": 1.3173631429672241,
"learning_rate": 0.00036666666666666667,
"loss": 0.0596,
"step": 1100
},
{
"epoch": 3.7,
"grad_norm": 1.2510654926300049,
"learning_rate": 0.00037,
"loss": 0.0666,
"step": 1110
},
{
"epoch": 3.7333333333333334,
"grad_norm": 14.92336654663086,
"learning_rate": 0.0003733333333333334,
"loss": 0.1338,
"step": 1120
},
{
"epoch": 3.7666666666666666,
"grad_norm": 39.0262336730957,
"learning_rate": 0.00037666666666666664,
"loss": 0.0891,
"step": 1130
},
{
"epoch": 3.8,
"grad_norm": 0.018070606514811516,
"learning_rate": 0.00038,
"loss": 0.031,
"step": 1140
},
{
"epoch": 3.8333333333333335,
"grad_norm": 22.499074935913086,
"learning_rate": 0.00038333333333333334,
"loss": 0.0426,
"step": 1150
},
{
"epoch": 3.8666666666666667,
"grad_norm": 8.244810104370117,
"learning_rate": 0.00038666666666666667,
"loss": 0.0845,
"step": 1160
},
{
"epoch": 3.9,
"grad_norm": 2.2742626667022705,
"learning_rate": 0.00039000000000000005,
"loss": 0.0561,
"step": 1170
},
{
"epoch": 3.9333333333333336,
"grad_norm": 0.7521847486495972,
"learning_rate": 0.0003933333333333333,
"loss": 0.0572,
"step": 1180
},
{
"epoch": 3.966666666666667,
"grad_norm": 0.09927993267774582,
"learning_rate": 0.0003966666666666667,
"loss": 0.1111,
"step": 1190
},
{
"epoch": 4.0,
"grad_norm": 18.968303680419922,
"learning_rate": 0.0004,
"loss": 0.1484,
"step": 1200
},
{
"epoch": 4.0,
"eval_accuracy": 0.99,
"eval_f1": 0.989990926504688,
"eval_kappa": 0.9798387096774194,
"eval_loss": 0.04373510926961899,
"eval_precision": 0.9901818181818182,
"eval_recall": 0.99,
"eval_runtime": 7.4926,
"eval_samples_per_second": 53.386,
"eval_steps_per_second": 2.269,
"step": 1200
},
{
"epoch": 4.033333333333333,
"grad_norm": 25.371929168701172,
"learning_rate": 0.00040333333333333334,
"loss": 0.0635,
"step": 1210
},
{
"epoch": 4.066666666666666,
"grad_norm": 14.979025840759277,
"learning_rate": 0.00040666666666666667,
"loss": 0.2519,
"step": 1220
},
{
"epoch": 4.1,
"grad_norm": 12.460908889770508,
"learning_rate": 0.00041,
"loss": 0.1177,
"step": 1230
},
{
"epoch": 4.133333333333334,
"grad_norm": 1.3772943019866943,
"learning_rate": 0.0004133333333333333,
"loss": 0.0524,
"step": 1240
},
{
"epoch": 4.166666666666667,
"grad_norm": 29.62944221496582,
"learning_rate": 0.0004166666666666667,
"loss": 0.0839,
"step": 1250
},
{
"epoch": 4.2,
"grad_norm": 15.755326271057129,
"learning_rate": 0.00042,
"loss": 0.2239,
"step": 1260
},
{
"epoch": 4.233333333333333,
"grad_norm": 2.076596975326538,
"learning_rate": 0.00042333333333333334,
"loss": 0.0918,
"step": 1270
},
{
"epoch": 4.266666666666667,
"grad_norm": 3.272007703781128,
"learning_rate": 0.0004266666666666667,
"loss": 0.0529,
"step": 1280
},
{
"epoch": 4.3,
"grad_norm": 1.8795185089111328,
"learning_rate": 0.00043,
"loss": 0.069,
"step": 1290
},
{
"epoch": 4.333333333333333,
"grad_norm": 0.2725735902786255,
"learning_rate": 0.00043333333333333337,
"loss": 0.0404,
"step": 1300
},
{
"epoch": 4.366666666666666,
"grad_norm": 28.226680755615234,
"learning_rate": 0.00043666666666666664,
"loss": 0.0561,
"step": 1310
},
{
"epoch": 4.4,
"grad_norm": 5.252725601196289,
"learning_rate": 0.00044,
"loss": 0.1038,
"step": 1320
},
{
"epoch": 4.433333333333334,
"grad_norm": 1.2938400506973267,
"learning_rate": 0.00044333333333333334,
"loss": 0.2152,
"step": 1330
},
{
"epoch": 4.466666666666667,
"grad_norm": 9.768004417419434,
"learning_rate": 0.00044666666666666666,
"loss": 0.0891,
"step": 1340
},
{
"epoch": 4.5,
"grad_norm": 0.7659115791320801,
"learning_rate": 0.00045000000000000004,
"loss": 0.0769,
"step": 1350
},
{
"epoch": 4.533333333333333,
"grad_norm": 0.8454284071922302,
"learning_rate": 0.0004533333333333333,
"loss": 0.0795,
"step": 1360
},
{
"epoch": 4.566666666666666,
"grad_norm": 19.232542037963867,
"learning_rate": 0.0004566666666666667,
"loss": 0.0874,
"step": 1370
},
{
"epoch": 4.6,
"grad_norm": 20.568710327148438,
"learning_rate": 0.00046,
"loss": 0.0861,
"step": 1380
},
{
"epoch": 4.633333333333333,
"grad_norm": 14.232442855834961,
"learning_rate": 0.00046333333333333334,
"loss": 0.0653,
"step": 1390
},
{
"epoch": 4.666666666666667,
"grad_norm": 0.21883870661258698,
"learning_rate": 0.00046666666666666666,
"loss": 0.0606,
"step": 1400
},
{
"epoch": 4.7,
"grad_norm": 6.472827911376953,
"learning_rate": 0.00047,
"loss": 0.0891,
"step": 1410
},
{
"epoch": 4.733333333333333,
"grad_norm": 4.268059253692627,
"learning_rate": 0.00047333333333333336,
"loss": 0.0715,
"step": 1420
},
{
"epoch": 4.766666666666667,
"grad_norm": 1.4576590061187744,
"learning_rate": 0.0004766666666666667,
"loss": 0.1292,
"step": 1430
},
{
"epoch": 4.8,
"grad_norm": 36.225502014160156,
"learning_rate": 0.00048,
"loss": 0.154,
"step": 1440
},
{
"epoch": 4.833333333333333,
"grad_norm": 0.5948257446289062,
"learning_rate": 0.00048333333333333334,
"loss": 0.0321,
"step": 1450
},
{
"epoch": 4.866666666666667,
"grad_norm": 0.3781585693359375,
"learning_rate": 0.0004866666666666667,
"loss": 0.0378,
"step": 1460
},
{
"epoch": 4.9,
"grad_norm": 16.30947494506836,
"learning_rate": 0.00049,
"loss": 0.1035,
"step": 1470
},
{
"epoch": 4.933333333333334,
"grad_norm": 12.747450828552246,
"learning_rate": 0.0004933333333333334,
"loss": 0.0539,
"step": 1480
},
{
"epoch": 4.966666666666667,
"grad_norm": 20.051815032958984,
"learning_rate": 0.0004966666666666666,
"loss": 0.097,
"step": 1490
},
{
"epoch": 5.0,
"grad_norm": 1.6473357677459717,
"learning_rate": 0.0005,
"loss": 0.1261,
"step": 1500
},
{
"epoch": 5.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924984425244319,
"eval_kappa": 0.9848973016512284,
"eval_loss": 0.04971776530146599,
"eval_precision": 0.9925093802724686,
"eval_recall": 0.9925,
"eval_runtime": 7.2832,
"eval_samples_per_second": 54.921,
"eval_steps_per_second": 2.334,
"step": 1500
},
{
"epoch": 5.033333333333333,
"grad_norm": 0.21915239095687866,
"learning_rate": 0.0004999995468502563,
"loss": 0.1911,
"step": 1510
},
{
"epoch": 5.066666666666666,
"grad_norm": 4.358417987823486,
"learning_rate": 0.0004999981874026677,
"loss": 0.1721,
"step": 1520
},
{
"epoch": 5.1,
"grad_norm": 2.60898756980896,
"learning_rate": 0.0004999959216621625,
"loss": 0.0663,
"step": 1530
},
{
"epoch": 5.133333333333334,
"grad_norm": 2.521845579147339,
"learning_rate": 0.0004999927496369547,
"loss": 0.0661,
"step": 1540
},
{
"epoch": 5.166666666666667,
"grad_norm": 17.43767547607422,
"learning_rate": 0.0004999886713385432,
"loss": 0.0643,
"step": 1550
},
{
"epoch": 5.2,
"grad_norm": 10.015254974365234,
"learning_rate": 0.000499983686781713,
"loss": 0.1634,
"step": 1560
},
{
"epoch": 5.233333333333333,
"grad_norm": 14.734820365905762,
"learning_rate": 0.0004999777959845337,
"loss": 0.0929,
"step": 1570
},
{
"epoch": 5.266666666666667,
"grad_norm": 18.222352981567383,
"learning_rate": 0.0004999709989683607,
"loss": 0.1415,
"step": 1580
},
{
"epoch": 5.3,
"grad_norm": 4.770617961883545,
"learning_rate": 0.0004999632957578349,
"loss": 0.0573,
"step": 1590
},
{
"epoch": 5.333333333333333,
"grad_norm": 31.683618545532227,
"learning_rate": 0.0004999546863808815,
"loss": 0.129,
"step": 1600
},
{
"epoch": 5.366666666666666,
"grad_norm": 0.03848810866475105,
"learning_rate": 0.0004999451708687113,
"loss": 0.0678,
"step": 1610
},
{
"epoch": 5.4,
"grad_norm": 0.01938723959028721,
"learning_rate": 0.0004999347492558202,
"loss": 0.1103,
"step": 1620
},
{
"epoch": 5.433333333333334,
"grad_norm": 12.235125541687012,
"learning_rate": 0.0004999234215799884,
"loss": 0.2061,
"step": 1630
},
{
"epoch": 5.466666666666667,
"grad_norm": 3.241697311401367,
"learning_rate": 0.0004999111878822808,
"loss": 0.0229,
"step": 1640
},
{
"epoch": 5.5,
"grad_norm": 18.129112243652344,
"learning_rate": 0.0004998980482070473,
"loss": 0.1596,
"step": 1650
},
{
"epoch": 5.533333333333333,
"grad_norm": 0.8510303497314453,
"learning_rate": 0.0004998840026019216,
"loss": 0.0243,
"step": 1660
},
{
"epoch": 5.566666666666666,
"grad_norm": 0.5481222867965698,
"learning_rate": 0.000499869051117822,
"loss": 0.0365,
"step": 1670
},
{
"epoch": 5.6,
"grad_norm": 0.0010958850616589189,
"learning_rate": 0.0004998531938089503,
"loss": 0.1484,
"step": 1680
},
{
"epoch": 5.633333333333333,
"grad_norm": 8.034405708312988,
"learning_rate": 0.0004998364307327927,
"loss": 0.0568,
"step": 1690
},
{
"epoch": 5.666666666666667,
"grad_norm": 2.918168544769287,
"learning_rate": 0.0004998187619501184,
"loss": 0.0234,
"step": 1700
},
{
"epoch": 5.7,
"grad_norm": 7.948535442352295,
"learning_rate": 0.0004998001875249804,
"loss": 0.0457,
"step": 1710
},
{
"epoch": 5.733333333333333,
"grad_norm": 1.4337245225906372,
"learning_rate": 0.0004997807075247146,
"loss": 0.1755,
"step": 1720
},
{
"epoch": 5.766666666666667,
"grad_norm": 0.09344102442264557,
"learning_rate": 0.0004997603220199398,
"loss": 0.0266,
"step": 1730
},
{
"epoch": 5.8,
"grad_norm": 29.620872497558594,
"learning_rate": 0.0004997390310845578,
"loss": 0.1196,
"step": 1740
},
{
"epoch": 5.833333333333333,
"grad_norm": 0.45817267894744873,
"learning_rate": 0.000499716834795752,
"loss": 0.0245,
"step": 1750
},
{
"epoch": 5.866666666666667,
"grad_norm": 22.253326416015625,
"learning_rate": 0.0004996937332339887,
"loss": 0.1039,
"step": 1760
},
{
"epoch": 5.9,
"grad_norm": 20.02093505859375,
"learning_rate": 0.0004996697264830153,
"loss": 0.0605,
"step": 1770
},
{
"epoch": 5.933333333333334,
"grad_norm": 6.386890888214111,
"learning_rate": 0.0004996448146298614,
"loss": 0.0826,
"step": 1780
},
{
"epoch": 5.966666666666667,
"grad_norm": 1.342224359512329,
"learning_rate": 0.0004996189977648372,
"loss": 0.0278,
"step": 1790
},
{
"epoch": 6.0,
"grad_norm": 0.06541286408901215,
"learning_rate": 0.0004995922759815339,
"loss": 0.0965,
"step": 1800
},
{
"epoch": 6.0,
"eval_accuracy": 0.99,
"eval_f1": 0.9900037712130737,
"eval_kappa": 0.9798873692679002,
"eval_loss": 0.031534310430288315,
"eval_precision": 0.990057280675309,
"eval_recall": 0.99,
"eval_runtime": 7.3582,
"eval_samples_per_second": 54.361,
"eval_steps_per_second": 2.31,
"step": 1800
},
{
"epoch": 6.033333333333333,
"grad_norm": 11.891799926757812,
"learning_rate": 0.0004995646493768233,
"loss": 0.1096,
"step": 1810
},
{
"epoch": 6.066666666666666,
"grad_norm": 4.773056507110596,
"learning_rate": 0.0004995361180508575,
"loss": 0.0887,
"step": 1820
},
{
"epoch": 6.1,
"grad_norm": 0.0633956715464592,
"learning_rate": 0.0004995066821070679,
"loss": 0.0595,
"step": 1830
},
{
"epoch": 6.133333333333334,
"grad_norm": 1.1848310232162476,
"learning_rate": 0.0004994763416521659,
"loss": 0.0457,
"step": 1840
},
{
"epoch": 6.166666666666667,
"grad_norm": 1.9995553493499756,
"learning_rate": 0.0004994450967961413,
"loss": 0.081,
"step": 1850
},
{
"epoch": 6.2,
"grad_norm": 6.867255210876465,
"learning_rate": 0.0004994129476522632,
"loss": 0.0517,
"step": 1860
},
{
"epoch": 6.233333333333333,
"grad_norm": 20.199514389038086,
"learning_rate": 0.0004993798943370785,
"loss": 0.0343,
"step": 1870
},
{
"epoch": 6.266666666666667,
"grad_norm": 0.19586598873138428,
"learning_rate": 0.0004993459369704121,
"loss": 0.0611,
"step": 1880
},
{
"epoch": 6.3,
"grad_norm": 21.155536651611328,
"learning_rate": 0.0004993110756753659,
"loss": 0.021,
"step": 1890
},
{
"epoch": 6.333333333333333,
"grad_norm": 3.191210985183716,
"learning_rate": 0.0004992753105783193,
"loss": 0.2308,
"step": 1900
},
{
"epoch": 6.366666666666666,
"grad_norm": 0.9887709617614746,
"learning_rate": 0.0004992386418089279,
"loss": 0.0864,
"step": 1910
},
{
"epoch": 6.4,
"grad_norm": 27.715328216552734,
"learning_rate": 0.0004992010695001229,
"loss": 0.1266,
"step": 1920
},
{
"epoch": 6.433333333333334,
"grad_norm": 10.004547119140625,
"learning_rate": 0.0004991625937881116,
"loss": 0.0841,
"step": 1930
},
{
"epoch": 6.466666666666667,
"grad_norm": 0.22679829597473145,
"learning_rate": 0.0004991232148123761,
"loss": 0.0279,
"step": 1940
},
{
"epoch": 6.5,
"grad_norm": 0.405646950006485,
"learning_rate": 0.0004990829327156728,
"loss": 0.0645,
"step": 1950
},
{
"epoch": 6.533333333333333,
"grad_norm": 14.19960880279541,
"learning_rate": 0.0004990417476440325,
"loss": 0.0783,
"step": 1960
},
{
"epoch": 6.566666666666666,
"grad_norm": 10.112009048461914,
"learning_rate": 0.0004989996597467591,
"loss": 0.0241,
"step": 1970
},
{
"epoch": 6.6,
"grad_norm": 34.6565055847168,
"learning_rate": 0.0004989566691764295,
"loss": 0.0517,
"step": 1980
},
{
"epoch": 6.633333333333333,
"grad_norm": 0.17711442708969116,
"learning_rate": 0.0004989127760888931,
"loss": 0.0669,
"step": 1990
},
{
"epoch": 6.666666666666667,
"grad_norm": 8.408811569213867,
"learning_rate": 0.0004988679806432712,
"loss": 0.0336,
"step": 2000
},
{
"epoch": 6.7,
"grad_norm": 0.44612711668014526,
"learning_rate": 0.0004988222830019559,
"loss": 0.0445,
"step": 2010
},
{
"epoch": 6.733333333333333,
"grad_norm": 19.24823570251465,
"learning_rate": 0.0004987756833306102,
"loss": 0.0573,
"step": 2020
},
{
"epoch": 6.766666666666667,
"grad_norm": 3.0871477127075195,
"learning_rate": 0.0004987281817981674,
"loss": 0.0759,
"step": 2030
},
{
"epoch": 6.8,
"grad_norm": 9.81881332397461,
"learning_rate": 0.0004986797785768297,
"loss": 0.0194,
"step": 2040
},
{
"epoch": 6.833333333333333,
"grad_norm": 0.020128833130002022,
"learning_rate": 0.0004986304738420684,
"loss": 0.1081,
"step": 2050
},
{
"epoch": 6.866666666666667,
"grad_norm": 14.229121208190918,
"learning_rate": 0.000498580267772623,
"loss": 0.1216,
"step": 2060
},
{
"epoch": 6.9,
"grad_norm": 10.793590545654297,
"learning_rate": 0.0004985291605505004,
"loss": 0.0393,
"step": 2070
},
{
"epoch": 6.933333333333334,
"grad_norm": 34.25983428955078,
"learning_rate": 0.0004984771523609743,
"loss": 0.1162,
"step": 2080
},
{
"epoch": 6.966666666666667,
"grad_norm": 1.280573844909668,
"learning_rate": 0.0004984242433925849,
"loss": 0.0228,
"step": 2090
},
{
"epoch": 7.0,
"grad_norm": 5.426878452301025,
"learning_rate": 0.0004983704338371376,
"loss": 0.0198,
"step": 2100
},
{
"epoch": 7.0,
"eval_accuracy": 0.995,
"eval_f1": 0.9949978595351413,
"eval_kappa": 0.9899274778404512,
"eval_loss": 0.013717448338866234,
"eval_precision": 0.9950458715596331,
"eval_recall": 0.995,
"eval_runtime": 7.3893,
"eval_samples_per_second": 54.132,
"eval_steps_per_second": 2.301,
"step": 2100
},
{
"epoch": 7.033333333333333,
"grad_norm": 0.8536394238471985,
"learning_rate": 0.0004983157238897026,
"loss": 0.0459,
"step": 2110
},
{
"epoch": 7.066666666666666,
"grad_norm": 11.758991241455078,
"learning_rate": 0.0004982601137486143,
"loss": 0.0732,
"step": 2120
},
{
"epoch": 7.1,
"grad_norm": 0.6861909627914429,
"learning_rate": 0.0004982036036154706,
"loss": 0.1708,
"step": 2130
},
{
"epoch": 7.133333333333334,
"grad_norm": 0.11518755555152893,
"learning_rate": 0.0004981461936951319,
"loss": 0.0295,
"step": 2140
},
{
"epoch": 7.166666666666667,
"grad_norm": 0.07353509962558746,
"learning_rate": 0.0004980878841957203,
"loss": 0.0511,
"step": 2150
},
{
"epoch": 7.2,
"grad_norm": 0.008462195284664631,
"learning_rate": 0.0004980286753286195,
"loss": 0.0061,
"step": 2160
},
{
"epoch": 7.233333333333333,
"grad_norm": 1.4422004222869873,
"learning_rate": 0.0004979685673084733,
"loss": 0.0977,
"step": 2170
},
{
"epoch": 7.266666666666667,
"grad_norm": 0.00832983199506998,
"learning_rate": 0.0004979075603531852,
"loss": 0.0615,
"step": 2180
},
{
"epoch": 7.3,
"grad_norm": 8.086910247802734,
"learning_rate": 0.0004978456546839174,
"loss": 0.0474,
"step": 2190
},
{
"epoch": 7.333333333333333,
"grad_norm": 10.531082153320312,
"learning_rate": 0.0004977828505250904,
"loss": 0.0291,
"step": 2200
},
{
"epoch": 7.366666666666666,
"grad_norm": 0.0030356640927493572,
"learning_rate": 0.0004977191481043814,
"loss": 0.0801,
"step": 2210
},
{
"epoch": 7.4,
"grad_norm": 0.24155472218990326,
"learning_rate": 0.0004976545476527245,
"loss": 0.0406,
"step": 2220
},
{
"epoch": 7.433333333333334,
"grad_norm": 14.044878959655762,
"learning_rate": 0.0004975890494043092,
"loss": 0.2774,
"step": 2230
},
{
"epoch": 7.466666666666667,
"grad_norm": 15.277134895324707,
"learning_rate": 0.0004975226535965794,
"loss": 0.0467,
"step": 2240
},
{
"epoch": 7.5,
"grad_norm": 11.408771514892578,
"learning_rate": 0.0004974553604702333,
"loss": 0.1214,
"step": 2250
},
{
"epoch": 7.533333333333333,
"grad_norm": 25.75912857055664,
"learning_rate": 0.0004973871702692214,
"loss": 0.0689,
"step": 2260
},
{
"epoch": 7.566666666666666,
"grad_norm": 5.471491813659668,
"learning_rate": 0.0004973180832407472,
"loss": 0.004,
"step": 2270
},
{
"epoch": 7.6,
"grad_norm": 0.7957646250724792,
"learning_rate": 0.0004972480996352644,
"loss": 0.1066,
"step": 2280
},
{
"epoch": 7.633333333333333,
"grad_norm": 0.13768936693668365,
"learning_rate": 0.0004971772197064775,
"loss": 0.0636,
"step": 2290
},
{
"epoch": 7.666666666666667,
"grad_norm": 0.004563705530017614,
"learning_rate": 0.0004971054437113406,
"loss": 0.0168,
"step": 2300
},
{
"epoch": 7.7,
"grad_norm": 24.983537673950195,
"learning_rate": 0.0004970327719100556,
"loss": 0.0853,
"step": 2310
},
{
"epoch": 7.733333333333333,
"grad_norm": 2.120246648788452,
"learning_rate": 0.0004969592045660722,
"loss": 0.0859,
"step": 2320
},
{
"epoch": 7.766666666666667,
"grad_norm": 15.012920379638672,
"learning_rate": 0.0004968847419460867,
"loss": 0.0281,
"step": 2330
},
{
"epoch": 7.8,
"grad_norm": 12.018982887268066,
"learning_rate": 0.0004968093843200407,
"loss": 0.0273,
"step": 2340
},
{
"epoch": 7.833333333333333,
"grad_norm": 14.459258079528809,
"learning_rate": 0.0004967331319611206,
"loss": 0.1001,
"step": 2350
},
{
"epoch": 7.866666666666667,
"grad_norm": 27.96418571472168,
"learning_rate": 0.0004966559851457562,
"loss": 0.0954,
"step": 2360
},
{
"epoch": 7.9,
"grad_norm": 0.1574789136648178,
"learning_rate": 0.0004965779441536201,
"loss": 0.0795,
"step": 2370
},
{
"epoch": 7.933333333333334,
"grad_norm": 0.44669950008392334,
"learning_rate": 0.0004964990092676262,
"loss": 0.03,
"step": 2380
},
{
"epoch": 7.966666666666667,
"grad_norm": 0.3899398446083069,
"learning_rate": 0.0004964191807739293,
"loss": 0.0459,
"step": 2390
},
{
"epoch": 8.0,
"grad_norm": 2.4037952423095703,
"learning_rate": 0.0004963384589619233,
"loss": 0.016,
"step": 2400
},
{
"epoch": 8.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924984425244319,
"eval_kappa": 0.9848973016512284,
"eval_loss": 0.009391581639647484,
"eval_precision": 0.9925093802724686,
"eval_recall": 0.9925,
"eval_runtime": 7.3286,
"eval_samples_per_second": 54.581,
"eval_steps_per_second": 2.32,
"step": 2400
},
{
"epoch": 8.033333333333333,
"grad_norm": 18.691381454467773,
"learning_rate": 0.0004962568441242408,
"loss": 0.0886,
"step": 2410
},
{
"epoch": 8.066666666666666,
"grad_norm": 0.7050238251686096,
"learning_rate": 0.0004961743365567517,
"loss": 0.0191,
"step": 2420
},
{
"epoch": 8.1,
"grad_norm": 0.16664516925811768,
"learning_rate": 0.0004960909365585624,
"loss": 0.0635,
"step": 2430
},
{
"epoch": 8.133333333333333,
"grad_norm": 0.9202438592910767,
"learning_rate": 0.0004960066444320143,
"loss": 0.0296,
"step": 2440
},
{
"epoch": 8.166666666666666,
"grad_norm": 0.17928561568260193,
"learning_rate": 0.0004959214604826831,
"loss": 0.0237,
"step": 2450
},
{
"epoch": 8.2,
"grad_norm": 0.00436717364937067,
"learning_rate": 0.0004958353850193773,
"loss": 0.0007,
"step": 2460
},
{
"epoch": 8.233333333333333,
"grad_norm": 23.427932739257812,
"learning_rate": 0.0004957484183541377,
"loss": 0.0538,
"step": 2470
},
{
"epoch": 8.266666666666667,
"grad_norm": 0.4889396131038666,
"learning_rate": 0.0004956605608022357,
"loss": 0.091,
"step": 2480
},
{
"epoch": 8.3,
"grad_norm": 53.982887268066406,
"learning_rate": 0.0004955718126821722,
"loss": 0.0239,
"step": 2490
},
{
"epoch": 8.333333333333334,
"grad_norm": 0.060606587678194046,
"learning_rate": 0.0004954821743156767,
"loss": 0.0367,
"step": 2500
},
{
"epoch": 8.366666666666667,
"grad_norm": 0.0266529843211174,
"learning_rate": 0.000495391646027706,
"loss": 0.0489,
"step": 2510
},
{
"epoch": 8.4,
"grad_norm": 0.733482301235199,
"learning_rate": 0.0004953002281464432,
"loss": 0.1085,
"step": 2520
},
{
"epoch": 8.433333333333334,
"grad_norm": 0.002645180793479085,
"learning_rate": 0.0004952079210032961,
"loss": 0.0542,
"step": 2530
},
{
"epoch": 8.466666666666667,
"grad_norm": 0.02045312523841858,
"learning_rate": 0.0004951147249328964,
"loss": 0.1004,
"step": 2540
},
{
"epoch": 8.5,
"grad_norm": 0.25311747193336487,
"learning_rate": 0.0004950206402730983,
"loss": 0.0064,
"step": 2550
},
{
"epoch": 8.533333333333333,
"grad_norm": 14.137146949768066,
"learning_rate": 0.0004949256673649774,
"loss": 0.0736,
"step": 2560
},
{
"epoch": 8.566666666666666,
"grad_norm": 18.044233322143555,
"learning_rate": 0.0004948298065528292,
"loss": 0.043,
"step": 2570
},
{
"epoch": 8.6,
"grad_norm": 0.20478780567646027,
"learning_rate": 0.000494733058184168,
"loss": 0.0476,
"step": 2580
},
{
"epoch": 8.633333333333333,
"grad_norm": 0.0009861149592325091,
"learning_rate": 0.0004946354226097261,
"loss": 0.0541,
"step": 2590
},
{
"epoch": 8.666666666666666,
"grad_norm": 4.064932346343994,
"learning_rate": 0.0004945369001834514,
"loss": 0.015,
"step": 2600
},
{
"epoch": 8.7,
"grad_norm": 12.540112495422363,
"learning_rate": 0.0004944374912625076,
"loss": 0.0594,
"step": 2610
},
{
"epoch": 8.733333333333333,
"grad_norm": 0.008549841120839119,
"learning_rate": 0.0004943371962072713,
"loss": 0.0707,
"step": 2620
},
{
"epoch": 8.766666666666667,
"grad_norm": 1.925380825996399,
"learning_rate": 0.0004942360153813324,
"loss": 0.0297,
"step": 2630
},
{
"epoch": 8.8,
"grad_norm": 1.1041579246520996,
"learning_rate": 0.0004941339491514909,
"loss": 0.0976,
"step": 2640
},
{
"epoch": 8.833333333333334,
"grad_norm": 0.7771681547164917,
"learning_rate": 0.0004940309978877575,
"loss": 0.0169,
"step": 2650
},
{
"epoch": 8.866666666666667,
"grad_norm": 11.451831817626953,
"learning_rate": 0.0004939271619633507,
"loss": 0.0108,
"step": 2660
},
{
"epoch": 8.9,
"grad_norm": 0.0025792683009058237,
"learning_rate": 0.0004938224417546965,
"loss": 0.0252,
"step": 2670
},
{
"epoch": 8.933333333333334,
"grad_norm": 0.5602428317070007,
"learning_rate": 0.0004937168376414261,
"loss": 0.0203,
"step": 2680
},
{
"epoch": 8.966666666666667,
"grad_norm": 0.026095090433955193,
"learning_rate": 0.0004936103500063755,
"loss": 0.0331,
"step": 2690
},
{
"epoch": 9.0,
"grad_norm": 0.06067637726664543,
"learning_rate": 0.0004935029792355834,
"loss": 0.1923,
"step": 2700
},
{
"epoch": 9.0,
"eval_accuracy": 0.9875,
"eval_f1": 0.9875068327898516,
"eval_kappa": 0.9748693204664254,
"eval_loss": 0.028073739260435104,
"eval_precision": 0.987625216539881,
"eval_recall": 0.9875,
"eval_runtime": 7.3626,
"eval_samples_per_second": 54.329,
"eval_steps_per_second": 2.309,
"step": 2700
},
{
"epoch": 9.033333333333333,
"grad_norm": 0.19523067772388458,
"learning_rate": 0.0004933947257182901,
"loss": 0.0199,
"step": 2710
},
{
"epoch": 9.066666666666666,
"grad_norm": 3.053314208984375,
"learning_rate": 0.000493285589846936,
"loss": 0.0068,
"step": 2720
},
{
"epoch": 9.1,
"grad_norm": 0.22583183646202087,
"learning_rate": 0.0004931755720171603,
"loss": 0.0929,
"step": 2730
},
{
"epoch": 9.133333333333333,
"grad_norm": 0.2969551086425781,
"learning_rate": 0.0004930646726277994,
"loss": 0.0073,
"step": 2740
},
{
"epoch": 9.166666666666666,
"grad_norm": 1.7761553525924683,
"learning_rate": 0.0004929528920808855,
"loss": 0.0699,
"step": 2750
},
{
"epoch": 9.2,
"grad_norm": 35.166629791259766,
"learning_rate": 0.0004928402307816451,
"loss": 0.0186,
"step": 2760
},
{
"epoch": 9.233333333333333,
"grad_norm": 2.6943020820617676,
"learning_rate": 0.000492726689138498,
"loss": 0.0249,
"step": 2770
},
{
"epoch": 9.266666666666667,
"grad_norm": 15.054105758666992,
"learning_rate": 0.0004926122675630548,
"loss": 0.04,
"step": 2780
},
{
"epoch": 9.3,
"grad_norm": 0.00670548714697361,
"learning_rate": 0.0004924969664701168,
"loss": 0.0222,
"step": 2790
},
{
"epoch": 9.333333333333334,
"grad_norm": 3.6571757793426514,
"learning_rate": 0.0004923807862776728,
"loss": 0.0185,
"step": 2800
},
{
"epoch": 9.366666666666667,
"grad_norm": 0.4846095144748688,
"learning_rate": 0.0004922637274068993,
"loss": 0.0069,
"step": 2810
},
{
"epoch": 9.4,
"grad_norm": 0.04100838676095009,
"learning_rate": 0.0004921457902821578,
"loss": 0.0038,
"step": 2820
},
{
"epoch": 9.433333333333334,
"grad_norm": 0.06146049499511719,
"learning_rate": 0.0004920269753309937,
"loss": 0.0594,
"step": 2830
},
{
"epoch": 9.466666666666667,
"grad_norm": 32.66959762573242,
"learning_rate": 0.0004919072829841347,
"loss": 0.0733,
"step": 2840
},
{
"epoch": 9.5,
"grad_norm": 13.61474609375,
"learning_rate": 0.0004917867136754893,
"loss": 0.1538,
"step": 2850
},
{
"epoch": 9.533333333333333,
"grad_norm": 0.23982226848602295,
"learning_rate": 0.000491665267842145,
"loss": 0.1145,
"step": 2860
},
{
"epoch": 9.566666666666666,
"grad_norm": 4.305579662322998,
"learning_rate": 0.0004915429459243672,
"loss": 0.0113,
"step": 2870
},
{
"epoch": 9.6,
"grad_norm": 0.8647874593734741,
"learning_rate": 0.000491419748365597,
"loss": 0.1841,
"step": 2880
},
{
"epoch": 9.633333333333333,
"grad_norm": 9.716819763183594,
"learning_rate": 0.0004912956756124498,
"loss": 0.0264,
"step": 2890
},
{
"epoch": 9.666666666666666,
"grad_norm": 7.745243549346924,
"learning_rate": 0.000491170728114714,
"loss": 0.0088,
"step": 2900
},
{
"epoch": 9.7,
"grad_norm": 1.824566125869751,
"learning_rate": 0.0004910449063253489,
"loss": 0.0947,
"step": 2910
},
{
"epoch": 9.733333333333333,
"grad_norm": 1.2929129600524902,
"learning_rate": 0.0004909182107004834,
"loss": 0.0421,
"step": 2920
},
{
"epoch": 9.766666666666667,
"grad_norm": 4.2170281410217285,
"learning_rate": 0.0004907906416994146,
"loss": 0.1019,
"step": 2930
},
{
"epoch": 9.8,
"grad_norm": 1.5145924091339111,
"learning_rate": 0.0004906621997846049,
"loss": 0.0748,
"step": 2940
},
{
"epoch": 9.833333333333334,
"grad_norm": 29.543188095092773,
"learning_rate": 0.0004905328854216818,
"loss": 0.0423,
"step": 2950
},
{
"epoch": 9.866666666666667,
"grad_norm": 0.030437791720032692,
"learning_rate": 0.0004904026990794355,
"loss": 0.0316,
"step": 2960
},
{
"epoch": 9.9,
"grad_norm": 0.0006298078806139529,
"learning_rate": 0.0004902716412298174,
"loss": 0.0251,
"step": 2970
},
{
"epoch": 9.933333333333334,
"grad_norm": 0.7163373231887817,
"learning_rate": 0.000490139712347938,
"loss": 0.0319,
"step": 2980
},
{
"epoch": 9.966666666666667,
"grad_norm": 1.6022979021072388,
"learning_rate": 0.0004900069129120655,
"loss": 0.0531,
"step": 2990
},
{
"epoch": 10.0,
"grad_norm": 0.18895569443702698,
"learning_rate": 0.0004898732434036243,
"loss": 0.0318,
"step": 3000
},
{
"epoch": 10.0,
"eval_accuracy": 0.995,
"eval_f1": 0.9949978595351413,
"eval_kappa": 0.9899274778404512,
"eval_loss": 0.02089308761060238,
"eval_precision": 0.9950458715596331,
"eval_recall": 0.995,
"eval_runtime": 7.4318,
"eval_samples_per_second": 53.823,
"eval_steps_per_second": 2.287,
"step": 3000
},
{
"epoch": 10.033333333333333,
"grad_norm": 17.70781135559082,
"learning_rate": 0.000489738704307193,
"loss": 0.0229,
"step": 3010
},
{
"epoch": 10.066666666666666,
"grad_norm": 0.03209957107901573,
"learning_rate": 0.000489603296110502,
"loss": 0.0077,
"step": 3020
},
{
"epoch": 10.1,
"grad_norm": 1.0363398790359497,
"learning_rate": 0.0004894670193044332,
"loss": 0.0899,
"step": 3030
},
{
"epoch": 10.133333333333333,
"grad_norm": 0.20282617211341858,
"learning_rate": 0.0004893298743830168,
"loss": 0.0265,
"step": 3040
},
{
"epoch": 10.166666666666666,
"grad_norm": 0.004087963607162237,
"learning_rate": 0.0004891918618434304,
"loss": 0.01,
"step": 3050
},
{
"epoch": 10.2,
"grad_norm": 0.07597868889570236,
"learning_rate": 0.0004890529821859968,
"loss": 0.0049,
"step": 3060
},
{
"epoch": 10.233333333333333,
"grad_norm": 4.141262531280518,
"learning_rate": 0.0004889132359141822,
"loss": 0.0525,
"step": 3070
},
{
"epoch": 10.266666666666667,
"grad_norm": 5.220034122467041,
"learning_rate": 0.0004887726235345942,
"loss": 0.0373,
"step": 3080
},
{
"epoch": 10.3,
"grad_norm": 0.994594156742096,
"learning_rate": 0.0004886311455569811,
"loss": 0.0195,
"step": 3090
},
{
"epoch": 10.333333333333334,
"grad_norm": 10.113892555236816,
"learning_rate": 0.0004884888024942282,
"loss": 0.0217,
"step": 3100
},
{
"epoch": 10.366666666666667,
"grad_norm": 0.008713426068425179,
"learning_rate": 0.0004883455948623573,
"loss": 0.0918,
"step": 3110
},
{
"epoch": 10.4,
"grad_norm": 11.263032913208008,
"learning_rate": 0.00048820152318052447,
"loss": 0.0217,
"step": 3120
},
{
"epoch": 10.433333333333334,
"grad_norm": 0.07357630878686905,
"learning_rate": 0.000488056587971018,
"loss": 0.1833,
"step": 3130
},
{
"epoch": 10.466666666666667,
"grad_norm": 0.03532209247350693,
"learning_rate": 0.00048791078975925694,
"loss": 0.0174,
"step": 3140
},
{
"epoch": 10.5,
"grad_norm": 0.022222023457288742,
"learning_rate": 0.0004877641290737884,
"loss": 0.0047,
"step": 3150
},
{
"epoch": 10.533333333333333,
"grad_norm": 0.18489806354045868,
"learning_rate": 0.00048761660644628654,
"loss": 0.0136,
"step": 3160
},
{
"epoch": 10.566666666666666,
"grad_norm": 0.00013999214570503682,
"learning_rate": 0.00048746822241155,
"loss": 0.0783,
"step": 3170
},
{
"epoch": 10.6,
"grad_norm": 0.05402855575084686,
"learning_rate": 0.00048731897750750044,
"loss": 0.1268,
"step": 3180
},
{
"epoch": 10.633333333333333,
"grad_norm": 0.3978906273841858,
"learning_rate": 0.00048716887227517994,
"loss": 0.0013,
"step": 3190
},
{
"epoch": 10.666666666666666,
"grad_norm": 0.0717267394065857,
"learning_rate": 0.0004870179072587499,
"loss": 0.0009,
"step": 3200
},
{
"epoch": 10.7,
"grad_norm": 1.2164305448532104,
"learning_rate": 0.0004868660830054883,
"loss": 0.0317,
"step": 3210
},
{
"epoch": 10.733333333333333,
"grad_norm": 0.06170390173792839,
"learning_rate": 0.000486713400065788,
"loss": 0.1632,
"step": 3220
},
{
"epoch": 10.766666666666667,
"grad_norm": 0.0237569622695446,
"learning_rate": 0.00048655985899315516,
"loss": 0.0056,
"step": 3230
},
{
"epoch": 10.8,
"grad_norm": 11.921058654785156,
"learning_rate": 0.00048640546034420625,
"loss": 0.0592,
"step": 3240
},
{
"epoch": 10.833333333333334,
"grad_norm": 0.023388676345348358,
"learning_rate": 0.0004862502046786671,
"loss": 0.0057,
"step": 3250
},
{
"epoch": 10.866666666666667,
"grad_norm": 0.004828088451176882,
"learning_rate": 0.0004860940925593703,
"loss": 0.0587,
"step": 3260
},
{
"epoch": 10.9,
"grad_norm": 0.010196227580308914,
"learning_rate": 0.00048593712455225304,
"loss": 0.1446,
"step": 3270
},
{
"epoch": 10.933333333333334,
"grad_norm": 1.6788548231124878,
"learning_rate": 0.0004857793012263554,
"loss": 0.0254,
"step": 3280
},
{
"epoch": 10.966666666666667,
"grad_norm": 0.003925603814423084,
"learning_rate": 0.0004856206231538184,
"loss": 0.0493,
"step": 3290
},
{
"epoch": 11.0,
"grad_norm": 8.052026748657227,
"learning_rate": 0.0004854610909098812,
"loss": 0.0944,
"step": 3300
},
{
"epoch": 11.0,
"eval_accuracy": 0.9975,
"eval_f1": 0.9975004873018568,
"eval_kappa": 0.9949698189134809,
"eval_loss": 0.015911616384983063,
"eval_precision": 0.9975135135135136,
"eval_recall": 0.9975,
"eval_runtime": 7.3757,
"eval_samples_per_second": 54.232,
"eval_steps_per_second": 2.305,
"step": 3300
},
{
"epoch": 11.033333333333333,
"grad_norm": 2.871225357055664,
"learning_rate": 0.00048530070507287994,
"loss": 0.0121,
"step": 3310
},
{
"epoch": 11.066666666666666,
"grad_norm": 0.5825998187065125,
"learning_rate": 0.00048513946622424486,
"loss": 0.0307,
"step": 3320
},
{
"epoch": 11.1,
"grad_norm": 0.0036350239533931017,
"learning_rate": 0.00048497737494849894,
"loss": 0.0342,
"step": 3330
},
{
"epoch": 11.133333333333333,
"grad_norm": 0.008223793469369411,
"learning_rate": 0.0004848144318332549,
"loss": 0.023,
"step": 3340
},
{
"epoch": 11.166666666666666,
"grad_norm": 0.03048713505268097,
"learning_rate": 0.00048465063746921396,
"loss": 0.0458,
"step": 3350
},
{
"epoch": 11.2,
"grad_norm": 3.248398542404175,
"learning_rate": 0.000484485992450163,
"loss": 0.0071,
"step": 3360
},
{
"epoch": 11.233333333333333,
"grad_norm": 0.0007288438500836492,
"learning_rate": 0.0004843204973729729,
"loss": 0.0216,
"step": 3370
},
{
"epoch": 11.266666666666667,
"grad_norm": 0.02933153323829174,
"learning_rate": 0.000484154152837596,
"loss": 0.1388,
"step": 3380
},
{
"epoch": 11.3,
"grad_norm": 19.944454193115234,
"learning_rate": 0.00048398695944706417,
"loss": 0.0199,
"step": 3390
},
{
"epoch": 11.333333333333334,
"grad_norm": 0.01811784878373146,
"learning_rate": 0.00048381891780748665,
"loss": 0.0018,
"step": 3400
},
{
"epoch": 11.366666666666667,
"grad_norm": 1.3311184644699097,
"learning_rate": 0.0004836500285280475,
"loss": 0.0084,
"step": 3410
},
{
"epoch": 11.4,
"grad_norm": 0.023560378700494766,
"learning_rate": 0.0004834802922210039,
"loss": 0.0131,
"step": 3420
},
{
"epoch": 11.433333333333334,
"grad_norm": 0.14196720719337463,
"learning_rate": 0.0004833097095016835,
"loss": 0.0643,
"step": 3430
},
{
"epoch": 11.466666666666667,
"grad_norm": 0.022539904341101646,
"learning_rate": 0.0004831382809884825,
"loss": 0.0072,
"step": 3440
},
{
"epoch": 11.5,
"grad_norm": 0.002136025344952941,
"learning_rate": 0.0004829660073028631,
"loss": 0.0148,
"step": 3450
},
{
"epoch": 11.533333333333333,
"grad_norm": 0.015343907289206982,
"learning_rate": 0.0004827928890693515,
"loss": 0.0686,
"step": 3460
},
{
"epoch": 11.566666666666666,
"grad_norm": 0.2076902538537979,
"learning_rate": 0.00048261892691553573,
"loss": 0.0235,
"step": 3470
},
{
"epoch": 11.6,
"grad_norm": 7.497281551361084,
"learning_rate": 0.00048244412147206283,
"loss": 0.0197,
"step": 3480
},
{
"epoch": 11.633333333333333,
"grad_norm": 0.543480634689331,
"learning_rate": 0.0004822684733726373,
"loss": 0.0415,
"step": 3490
},
{
"epoch": 11.666666666666666,
"grad_norm": 7.600778102874756,
"learning_rate": 0.00048209198325401817,
"loss": 0.0165,
"step": 3500
},
{
"epoch": 11.7,
"grad_norm": 28.45496368408203,
"learning_rate": 0.00048191465175601706,
"loss": 0.0572,
"step": 3510
},
{
"epoch": 11.733333333333333,
"grad_norm": 0.8768689036369324,
"learning_rate": 0.0004817364795214958,
"loss": 0.0068,
"step": 3520
},
{
"epoch": 11.766666666666667,
"grad_norm": 0.0015293970936909318,
"learning_rate": 0.00048155746719636403,
"loss": 0.0524,
"step": 3530
},
{
"epoch": 11.8,
"grad_norm": 0.21707843244075775,
"learning_rate": 0.0004813776154295767,
"loss": 0.0544,
"step": 3540
},
{
"epoch": 11.833333333333334,
"grad_norm": 2.173311948776245,
"learning_rate": 0.00048119692487313227,
"loss": 0.0461,
"step": 3550
},
{
"epoch": 11.866666666666667,
"grad_norm": 0.029398364946246147,
"learning_rate": 0.0004810153961820697,
"loss": 0.0251,
"step": 3560
},
{
"epoch": 11.9,
"grad_norm": 0.07431753724813461,
"learning_rate": 0.00048083303001446645,
"loss": 0.0162,
"step": 3570
},
{
"epoch": 11.933333333333334,
"grad_norm": 12.078067779541016,
"learning_rate": 0.0004806498270314359,
"loss": 0.0503,
"step": 3580
},
{
"epoch": 11.966666666666667,
"grad_norm": 1.0195358991622925,
"learning_rate": 0.00048046578789712516,
"loss": 0.014,
"step": 3590
},
{
"epoch": 12.0,
"grad_norm": 0.003098301822319627,
"learning_rate": 0.00048028091327871256,
"loss": 0.0229,
"step": 3600
},
{
"epoch": 12.0,
"eval_accuracy": 0.995,
"eval_f1": 0.9950018856065367,
"eval_kappa": 0.9899436846339501,
"eval_loss": 0.007985816337168217,
"eval_precision": 0.9950537634408602,
"eval_recall": 0.995,
"eval_runtime": 7.4244,
"eval_samples_per_second": 53.877,
"eval_steps_per_second": 2.29,
"step": 3600
},
{
"epoch": 12.033333333333333,
"grad_norm": 0.14159473776817322,
"learning_rate": 0.00048009520384640513,
"loss": 0.0303,
"step": 3610
},
{
"epoch": 12.066666666666666,
"grad_norm": 3.98813796043396,
"learning_rate": 0.0004799086602734364,
"loss": 0.0183,
"step": 3620
},
{
"epoch": 12.1,
"grad_norm": 0.06656892597675323,
"learning_rate": 0.0004797212832360637,
"loss": 0.0056,
"step": 3630
},
{
"epoch": 12.133333333333333,
"grad_norm": 0.39640679955482483,
"learning_rate": 0.0004795330734135659,
"loss": 0.0314,
"step": 3640
},
{
"epoch": 12.166666666666666,
"grad_norm": 0.09042102843523026,
"learning_rate": 0.00047934403148824087,
"loss": 0.0424,
"step": 3650
},
{
"epoch": 12.2,
"grad_norm": 0.0011783058289438486,
"learning_rate": 0.000479154158145403,
"loss": 0.0301,
"step": 3660
},
{
"epoch": 12.233333333333333,
"grad_norm": 16.78108787536621,
"learning_rate": 0.0004789634540733807,
"loss": 0.0181,
"step": 3670
},
{
"epoch": 12.266666666666667,
"grad_norm": 0.0844041258096695,
"learning_rate": 0.00047877191996351397,
"loss": 0.0575,
"step": 3680
},
{
"epoch": 12.3,
"grad_norm": 0.0004439417680259794,
"learning_rate": 0.00047857955651015195,
"loss": 0.0118,
"step": 3690
},
{
"epoch": 12.333333333333334,
"grad_norm": 0.00219926075078547,
"learning_rate": 0.0004783863644106502,
"loss": 0.0429,
"step": 3700
},
{
"epoch": 12.366666666666667,
"grad_norm": 0.04280629754066467,
"learning_rate": 0.0004781923443653684,
"loss": 0.0268,
"step": 3710
},
{
"epoch": 12.4,
"grad_norm": 0.11606118083000183,
"learning_rate": 0.00047799749707766746,
"loss": 0.019,
"step": 3720
},
{
"epoch": 12.433333333333334,
"grad_norm": 0.3587077856063843,
"learning_rate": 0.0004778018232539075,
"loss": 0.1508,
"step": 3730
},
{
"epoch": 12.466666666666667,
"grad_norm": 0.012295096181333065,
"learning_rate": 0.0004776053236034449,
"loss": 0.0567,
"step": 3740
},
{
"epoch": 12.5,
"grad_norm": 4.565114068100229e-05,
"learning_rate": 0.0004774079988386296,
"loss": 0.0249,
"step": 3750
},
{
"epoch": 12.533333333333333,
"grad_norm": 0.003383655333891511,
"learning_rate": 0.0004772098496748031,
"loss": 0.0433,
"step": 3760
},
{
"epoch": 12.566666666666666,
"grad_norm": 0.004308935720473528,
"learning_rate": 0.00047701087683029526,
"loss": 0.0075,
"step": 3770
},
{
"epoch": 12.6,
"grad_norm": 0.03766516223549843,
"learning_rate": 0.00047681108102642206,
"loss": 0.0398,
"step": 3780
},
{
"epoch": 12.633333333333333,
"grad_norm": 1.6207733154296875,
"learning_rate": 0.0004766104629874829,
"loss": 0.008,
"step": 3790
},
{
"epoch": 12.666666666666666,
"grad_norm": 9.335482597351074,
"learning_rate": 0.0004764090234407577,
"loss": 0.0203,
"step": 3800
},
{
"epoch": 12.7,
"grad_norm": 0.003392050275579095,
"learning_rate": 0.0004762067631165049,
"loss": 0.0294,
"step": 3810
},
{
"epoch": 12.733333333333333,
"grad_norm": 0.3824714720249176,
"learning_rate": 0.0004760036827479581,
"loss": 0.0055,
"step": 3820
},
{
"epoch": 12.766666666666667,
"grad_norm": 0.01920243538916111,
"learning_rate": 0.0004757997830713239,
"loss": 0.1337,
"step": 3830
},
{
"epoch": 12.8,
"grad_norm": 0.002765109995380044,
"learning_rate": 0.00047559506482577885,
"loss": 0.0725,
"step": 3840
},
{
"epoch": 12.833333333333334,
"grad_norm": 0.49867746233940125,
"learning_rate": 0.0004753895287534673,
"loss": 0.0333,
"step": 3850
},
{
"epoch": 12.866666666666667,
"grad_norm": 0.5436999201774597,
"learning_rate": 0.0004751831755994981,
"loss": 0.0722,
"step": 3860
},
{
"epoch": 12.9,
"grad_norm": 0.13900534808635712,
"learning_rate": 0.0004749760061119422,
"loss": 0.0514,
"step": 3870
},
{
"epoch": 12.933333333333334,
"grad_norm": 0.5604411959648132,
"learning_rate": 0.00047476802104183015,
"loss": 0.0353,
"step": 3880
},
{
"epoch": 12.966666666666667,
"grad_norm": 18.976787567138672,
"learning_rate": 0.000474559221143149,
"loss": 0.0893,
"step": 3890
},
{
"epoch": 13.0,
"grad_norm": 0.030641691759228706,
"learning_rate": 0.0004743496071728396,
"loss": 0.0104,
"step": 3900
},
{
"epoch": 13.0,
"eval_accuracy": 0.98,
"eval_f1": 0.9799595959595959,
"eval_kappa": 0.9596122778675282,
"eval_loss": 0.05243048071861267,
"eval_precision": 0.9807142857142856,
"eval_recall": 0.98,
"eval_runtime": 7.3583,
"eval_samples_per_second": 54.36,
"eval_steps_per_second": 2.31,
"step": 3900
},
{
"epoch": 13.033333333333333,
"grad_norm": 23.265657424926758,
"learning_rate": 0.00047413917989079415,
"loss": 0.0245,
"step": 3910
},
{
"epoch": 13.066666666666666,
"grad_norm": 2.9652233123779297,
"learning_rate": 0.0004739279400598532,
"loss": 0.0199,
"step": 3920
},
{
"epoch": 13.1,
"grad_norm": 2.5520131587982178,
"learning_rate": 0.00047371588844580297,
"loss": 0.0785,
"step": 3930
},
{
"epoch": 13.133333333333333,
"grad_norm": 4.938477993011475,
"learning_rate": 0.0004735030258173725,
"loss": 0.1211,
"step": 3940
},
{
"epoch": 13.166666666666666,
"grad_norm": 0.23714496195316315,
"learning_rate": 0.000473289352946231,
"loss": 0.0162,
"step": 3950
},
{
"epoch": 13.2,
"grad_norm": 0.4921053946018219,
"learning_rate": 0.00047307487060698486,
"loss": 0.0271,
"step": 3960
},
{
"epoch": 13.233333333333333,
"grad_norm": 3.513289451599121,
"learning_rate": 0.000472859579577175,
"loss": 0.0485,
"step": 3970
},
{
"epoch": 13.266666666666667,
"grad_norm": 1.9259859323501587,
"learning_rate": 0.00047264348063727414,
"loss": 0.0263,
"step": 3980
},
{
"epoch": 13.3,
"grad_norm": 0.00044262909796088934,
"learning_rate": 0.0004724265745706836,
"loss": 0.0223,
"step": 3990
},
{
"epoch": 13.333333333333334,
"grad_norm": 1.4673163890838623,
"learning_rate": 0.0004722088621637309,
"loss": 0.0069,
"step": 4000
},
{
"epoch": 13.366666666666667,
"grad_norm": 0.00814584270119667,
"learning_rate": 0.0004719903442056665,
"loss": 0.093,
"step": 4010
},
{
"epoch": 13.4,
"grad_norm": 0.03399132937192917,
"learning_rate": 0.00047177102148866133,
"loss": 0.0224,
"step": 4020
},
{
"epoch": 13.433333333333334,
"grad_norm": 0.5761755704879761,
"learning_rate": 0.00047155089480780364,
"loss": 0.0012,
"step": 4030
},
{
"epoch": 13.466666666666667,
"grad_norm": 1.2075037956237793,
"learning_rate": 0.00047132996496109626,
"loss": 0.0198,
"step": 4040
},
{
"epoch": 13.5,
"grad_norm": 0.0027148097287863493,
"learning_rate": 0.0004711082327494536,
"loss": 0.0089,
"step": 4050
},
{
"epoch": 13.533333333333333,
"grad_norm": 0.02435988560318947,
"learning_rate": 0.0004708856989766988,
"loss": 0.0387,
"step": 4060
},
{
"epoch": 13.566666666666666,
"grad_norm": 0.04581742361187935,
"learning_rate": 0.0004706623644495608,
"loss": 0.0237,
"step": 4070
},
{
"epoch": 13.6,
"grad_norm": 3.6842305660247803,
"learning_rate": 0.00047043822997767145,
"loss": 0.0113,
"step": 4080
},
{
"epoch": 13.633333333333333,
"grad_norm": 18.461259841918945,
"learning_rate": 0.0004702132963735627,
"loss": 0.0374,
"step": 4090
},
{
"epoch": 13.666666666666666,
"grad_norm": 0.03505110740661621,
"learning_rate": 0.0004699875644526633,
"loss": 0.0477,
"step": 4100
},
{
"epoch": 13.7,
"grad_norm": 1.6540740728378296,
"learning_rate": 0.00046976103503329616,
"loss": 0.0137,
"step": 4110
},
{
"epoch": 13.733333333333333,
"grad_norm": 0.1410187929868698,
"learning_rate": 0.0004695337089366754,
"loss": 0.0002,
"step": 4120
},
{
"epoch": 13.766666666666667,
"grad_norm": 0.015506432391703129,
"learning_rate": 0.00046930558698690287,
"loss": 0.0578,
"step": 4130
},
{
"epoch": 13.8,
"grad_norm": 0.3643234372138977,
"learning_rate": 0.0004690766700109659,
"loss": 0.0033,
"step": 4140
},
{
"epoch": 13.833333333333334,
"grad_norm": 0.1073959544301033,
"learning_rate": 0.0004688469588387339,
"loss": 0.0412,
"step": 4150
},
{
"epoch": 13.866666666666667,
"grad_norm": 0.0946379154920578,
"learning_rate": 0.0004686164543029554,
"loss": 0.1215,
"step": 4160
},
{
"epoch": 13.9,
"grad_norm": 0.3427139222621918,
"learning_rate": 0.0004683851572392548,
"loss": 0.0159,
"step": 4170
},
{
"epoch": 13.933333333333334,
"grad_norm": 2.0237042903900146,
"learning_rate": 0.00046815306848612976,
"loss": 0.084,
"step": 4180
},
{
"epoch": 13.966666666666667,
"grad_norm": 5.675958156585693,
"learning_rate": 0.000467920188884948,
"loss": 0.0178,
"step": 4190
},
{
"epoch": 14.0,
"grad_norm": 1.7019257545471191,
"learning_rate": 0.00046768651927994433,
"loss": 0.0483,
"step": 4200
},
{
"epoch": 14.0,
"eval_accuracy": 0.9975,
"eval_f1": 0.9974994808414773,
"eval_kappa": 0.9949657672170761,
"eval_loss": 0.00451456755399704,
"eval_precision": 0.9975115207373273,
"eval_recall": 0.9975,
"eval_runtime": 7.2972,
"eval_samples_per_second": 54.816,
"eval_steps_per_second": 2.33,
"step": 4200
},
{
"epoch": 14.033333333333333,
"grad_norm": 9.1857271194458,
"learning_rate": 0.0004674520605182171,
"loss": 0.0028,
"step": 4210
},
{
"epoch": 14.066666666666666,
"grad_norm": 5.523562867892906e-05,
"learning_rate": 0.00046721681344972577,
"loss": 0.0056,
"step": 4220
},
{
"epoch": 14.1,
"grad_norm": 3.9123904705047607,
"learning_rate": 0.0004669807789272876,
"loss": 0.034,
"step": 4230
},
{
"epoch": 14.133333333333333,
"grad_norm": 0.7227023243904114,
"learning_rate": 0.00046674395780657444,
"loss": 0.0115,
"step": 4240
},
{
"epoch": 14.166666666666666,
"grad_norm": 20.133054733276367,
"learning_rate": 0.00046650635094610973,
"loss": 0.0117,
"step": 4250
},
{
"epoch": 14.2,
"grad_norm": 2.1840555667877197,
"learning_rate": 0.0004662679592072653,
"loss": 0.006,
"step": 4260
},
{
"epoch": 14.233333333333333,
"grad_norm": 1.3089158535003662,
"learning_rate": 0.00046602878345425845,
"loss": 0.0198,
"step": 4270
},
{
"epoch": 14.266666666666667,
"grad_norm": 0.032126154750585556,
"learning_rate": 0.0004657888245541486,
"loss": 0.0117,
"step": 4280
},
{
"epoch": 14.3,
"grad_norm": 0.1218077763915062,
"learning_rate": 0.0004655480833768344,
"loss": 0.0065,
"step": 4290
},
{
"epoch": 14.333333333333334,
"grad_norm": 0.0682288408279419,
"learning_rate": 0.0004653065607950502,
"loss": 0.0138,
"step": 4300
},
{
"epoch": 14.366666666666667,
"grad_norm": 0.00038056381163187325,
"learning_rate": 0.000465064257684363,
"loss": 0.0211,
"step": 4310
},
{
"epoch": 14.4,
"grad_norm": 7.7468061447143555,
"learning_rate": 0.0004648211749231698,
"loss": 0.0092,
"step": 4320
},
{
"epoch": 14.433333333333334,
"grad_norm": 0.00033462975989095867,
"learning_rate": 0.0004645773133926935,
"loss": 0.0085,
"step": 4330
},
{
"epoch": 14.466666666666667,
"grad_norm": 1.2854167222976685,
"learning_rate": 0.00046433267397698053,
"loss": 0.0158,
"step": 4340
},
{
"epoch": 14.5,
"grad_norm": 0.0037089725956320763,
"learning_rate": 0.00046408725756289724,
"loss": 0.0002,
"step": 4350
},
{
"epoch": 14.533333333333333,
"grad_norm": 0.06741482764482498,
"learning_rate": 0.0004638410650401267,
"loss": 0.012,
"step": 4360
},
{
"epoch": 14.566666666666666,
"grad_norm": 0.7089601159095764,
"learning_rate": 0.0004635940973011654,
"loss": 0.0509,
"step": 4370
},
{
"epoch": 14.6,
"grad_norm": 0.022032683715224266,
"learning_rate": 0.00046334635524132047,
"loss": 0.0013,
"step": 4380
},
{
"epoch": 14.633333333333333,
"grad_norm": 0.14006319642066956,
"learning_rate": 0.0004630978397587058,
"loss": 0.0015,
"step": 4390
},
{
"epoch": 14.666666666666666,
"grad_norm": 61.62250900268555,
"learning_rate": 0.0004628485517542392,
"loss": 0.0558,
"step": 4400
},
{
"epoch": 14.7,
"grad_norm": 0.5041285157203674,
"learning_rate": 0.0004625984921316392,
"loss": 0.0144,
"step": 4410
},
{
"epoch": 14.733333333333333,
"grad_norm": 0.9366334080696106,
"learning_rate": 0.00046234766179742117,
"loss": 0.0726,
"step": 4420
},
{
"epoch": 14.766666666666667,
"grad_norm": 0.011175020597875118,
"learning_rate": 0.0004620960616608949,
"loss": 0.0056,
"step": 4430
},
{
"epoch": 14.8,
"grad_norm": 9.877839088439941,
"learning_rate": 0.00046184369263416067,
"loss": 0.0221,
"step": 4440
},
{
"epoch": 14.833333333333334,
"grad_norm": 0.052618566900491714,
"learning_rate": 0.0004615905556321061,
"loss": 0.0001,
"step": 4450
},
{
"epoch": 14.866666666666667,
"grad_norm": 8.235169410705566,
"learning_rate": 0.00046133665157240304,
"loss": 0.0396,
"step": 4460
},
{
"epoch": 14.9,
"grad_norm": 0.0023794234730303288,
"learning_rate": 0.00046108198137550377,
"loss": 0.0047,
"step": 4470
},
{
"epoch": 14.933333333333334,
"grad_norm": 1.037344217300415,
"learning_rate": 0.00046082654596463836,
"loss": 0.0213,
"step": 4480
},
{
"epoch": 14.966666666666667,
"grad_norm": 0.9687237739562988,
"learning_rate": 0.00046057034626581066,
"loss": 0.0035,
"step": 4490
},
{
"epoch": 15.0,
"grad_norm": 0.009436891414225101,
"learning_rate": 0.0004603133832077953,
"loss": 0.0364,
"step": 4500
},
{
"epoch": 15.0,
"eval_accuracy": 0.9875,
"eval_f1": 0.9875068327898516,
"eval_kappa": 0.9748693204664254,
"eval_loss": 0.029378846287727356,
"eval_precision": 0.987625216539881,
"eval_recall": 0.9875,
"eval_runtime": 7.2663,
"eval_samples_per_second": 55.049,
"eval_steps_per_second": 2.34,
"step": 4500
},
{
"epoch": 15.033333333333333,
"grad_norm": 15.442131996154785,
"learning_rate": 0.0004600556577221342,
"loss": 0.0587,
"step": 4510
},
{
"epoch": 15.066666666666666,
"grad_norm": 2.1621975898742676,
"learning_rate": 0.0004597971707431333,
"loss": 0.0031,
"step": 4520
},
{
"epoch": 15.1,
"grad_norm": 0.09139201790094376,
"learning_rate": 0.00045953792320785916,
"loss": 0.0464,
"step": 4530
},
{
"epoch": 15.133333333333333,
"grad_norm": 10.80909252166748,
"learning_rate": 0.0004592779160561352,
"loss": 0.0119,
"step": 4540
},
{
"epoch": 15.166666666666666,
"grad_norm": 0.0028503378853201866,
"learning_rate": 0.000459017150230539,
"loss": 0.0284,
"step": 4550
},
{
"epoch": 15.2,
"grad_norm": 0.0037527629174292088,
"learning_rate": 0.00045875562667639815,
"loss": 0.0052,
"step": 4560
},
{
"epoch": 15.233333333333333,
"grad_norm": 0.008923468180000782,
"learning_rate": 0.0004584933463417874,
"loss": 0.0181,
"step": 4570
},
{
"epoch": 15.266666666666667,
"grad_norm": 0.11511397361755371,
"learning_rate": 0.00045823031017752484,
"loss": 0.0012,
"step": 4580
},
{
"epoch": 15.3,
"grad_norm": 0.0019222634145990014,
"learning_rate": 0.0004579665191371687,
"loss": 0.0018,
"step": 4590
},
{
"epoch": 15.333333333333334,
"grad_norm": 0.02708413079380989,
"learning_rate": 0.00045770197417701366,
"loss": 0.0456,
"step": 4600
},
{
"epoch": 15.366666666666667,
"grad_norm": 0.49283456802368164,
"learning_rate": 0.00045743667625608756,
"loss": 0.0086,
"step": 4610
},
{
"epoch": 15.4,
"grad_norm": 0.18149667978286743,
"learning_rate": 0.00045717062633614795,
"loss": 0.005,
"step": 4620
},
{
"epoch": 15.433333333333334,
"grad_norm": 0.02925139293074608,
"learning_rate": 0.0004569038253816783,
"loss": 0.0335,
"step": 4630
},
{
"epoch": 15.466666666666667,
"grad_norm": 0.025850404053926468,
"learning_rate": 0.00045663627435988503,
"loss": 0.0076,
"step": 4640
},
{
"epoch": 15.5,
"grad_norm": 0.03791815787553787,
"learning_rate": 0.0004563679742406935,
"loss": 0.0181,
"step": 4650
},
{
"epoch": 15.533333333333333,
"grad_norm": 4.157740116119385,
"learning_rate": 0.0004560989259967447,
"loss": 0.0265,
"step": 4660
},
{
"epoch": 15.566666666666666,
"grad_norm": 31.737028121948242,
"learning_rate": 0.0004558291306033919,
"loss": 0.0662,
"step": 4670
},
{
"epoch": 15.6,
"grad_norm": 0.00034419956500642,
"learning_rate": 0.00045555858903869684,
"loss": 0.0033,
"step": 4680
},
{
"epoch": 15.633333333333333,
"grad_norm": 36.032081604003906,
"learning_rate": 0.000455287302283426,
"loss": 0.2059,
"step": 4690
},
{
"epoch": 15.666666666666666,
"grad_norm": 0.09268007427453995,
"learning_rate": 0.0004550152713210478,
"loss": 0.0654,
"step": 4700
},
{
"epoch": 15.7,
"grad_norm": 0.003424269612878561,
"learning_rate": 0.0004547424971377282,
"loss": 0.011,
"step": 4710
},
{
"epoch": 15.733333333333333,
"grad_norm": 36.533512115478516,
"learning_rate": 0.00045446898072232765,
"loss": 0.0291,
"step": 4720
},
{
"epoch": 15.766666666666667,
"grad_norm": 0.057702332735061646,
"learning_rate": 0.00045419472306639733,
"loss": 0.0384,
"step": 4730
},
{
"epoch": 15.8,
"grad_norm": 3.593590736272745e-05,
"learning_rate": 0.00045391972516417545,
"loss": 0.0035,
"step": 4740
},
{
"epoch": 15.833333333333334,
"grad_norm": 0.017503496259450912,
"learning_rate": 0.00045364398801258396,
"loss": 0.09,
"step": 4750
},
{
"epoch": 15.866666666666667,
"grad_norm": 0.01603321172297001,
"learning_rate": 0.0004533675126112245,
"loss": 0.0269,
"step": 4760
},
{
"epoch": 15.9,
"grad_norm": 0.109935462474823,
"learning_rate": 0.00045309029996237516,
"loss": 0.0097,
"step": 4770
},
{
"epoch": 15.933333333333334,
"grad_norm": 0.028454294428229332,
"learning_rate": 0.0004528123510709867,
"loss": 0.0199,
"step": 4780
},
{
"epoch": 15.966666666666667,
"grad_norm": 0.03414365276694298,
"learning_rate": 0.0004525336669446789,
"loss": 0.0007,
"step": 4790
},
{
"epoch": 16.0,
"grad_norm": 0.0039358725771307945,
"learning_rate": 0.0004522542485937369,
"loss": 0.0239,
"step": 4800
},
{
"epoch": 16.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924950401511573,
"eval_kappa": 0.9848851269649335,
"eval_loss": 0.011240070685744286,
"eval_precision": 0.9926027397260273,
"eval_recall": 0.9925,
"eval_runtime": 7.3933,
"eval_samples_per_second": 54.103,
"eval_steps_per_second": 2.299,
"step": 4800
},
{
"epoch": 16.033333333333335,
"grad_norm": 0.003939064685255289,
"learning_rate": 0.0004519740970311074,
"loss": 0.056,
"step": 4810
},
{
"epoch": 16.066666666666666,
"grad_norm": 0.0002586791233625263,
"learning_rate": 0.0004516932132723953,
"loss": 0.0076,
"step": 4820
},
{
"epoch": 16.1,
"grad_norm": 6.035449028015137,
"learning_rate": 0.00045141159833585995,
"loss": 0.0043,
"step": 4830
},
{
"epoch": 16.133333333333333,
"grad_norm": 0.23382249474525452,
"learning_rate": 0.0004511292532424111,
"loss": 0.0375,
"step": 4840
},
{
"epoch": 16.166666666666668,
"grad_norm": 0.003644285025075078,
"learning_rate": 0.00045084617901560564,
"loss": 0.0067,
"step": 4850
},
{
"epoch": 16.2,
"grad_norm": 0.3566889762878418,
"learning_rate": 0.0004505623766816438,
"loss": 0.0007,
"step": 4860
},
{
"epoch": 16.233333333333334,
"grad_norm": 0.0989418774843216,
"learning_rate": 0.00045027784726936503,
"loss": 0.0701,
"step": 4870
},
{
"epoch": 16.266666666666666,
"grad_norm": 4.09375,
"learning_rate": 0.000449992591810245,
"loss": 0.0555,
"step": 4880
},
{
"epoch": 16.3,
"grad_norm": 0.013414149172604084,
"learning_rate": 0.00044970661133839096,
"loss": 0.0026,
"step": 4890
},
{
"epoch": 16.333333333333332,
"grad_norm": 2.3153756956162397e-06,
"learning_rate": 0.00044941990689053885,
"loss": 0.0446,
"step": 4900
},
{
"epoch": 16.366666666666667,
"grad_norm": 2.82499058812391e-05,
"learning_rate": 0.00044913247950604905,
"loss": 0.0184,
"step": 4910
},
{
"epoch": 16.4,
"grad_norm": 0.4367436170578003,
"learning_rate": 0.00044884433022690274,
"loss": 0.1106,
"step": 4920
},
{
"epoch": 16.433333333333334,
"grad_norm": 0.021237192675471306,
"learning_rate": 0.0004485554600976981,
"loss": 0.0015,
"step": 4930
},
{
"epoch": 16.466666666666665,
"grad_norm": 8.756088256835938,
"learning_rate": 0.0004482658701656465,
"loss": 0.01,
"step": 4940
},
{
"epoch": 16.5,
"grad_norm": 0.000679507153108716,
"learning_rate": 0.0004479755614805688,
"loss": 0.0281,
"step": 4950
},
{
"epoch": 16.533333333333335,
"grad_norm": 4.841014385223389,
"learning_rate": 0.00044768453509489136,
"loss": 0.0029,
"step": 4960
},
{
"epoch": 16.566666666666666,
"grad_norm": 0.013903344981372356,
"learning_rate": 0.0004473927920636426,
"loss": 0.0137,
"step": 4970
},
{
"epoch": 16.6,
"grad_norm": 0.00465978542342782,
"learning_rate": 0.00044710033344444856,
"loss": 0.015,
"step": 4980
},
{
"epoch": 16.633333333333333,
"grad_norm": 0.017884723842144012,
"learning_rate": 0.0004468071602975298,
"loss": 0.0222,
"step": 4990
},
{
"epoch": 16.666666666666668,
"grad_norm": 0.10206126421689987,
"learning_rate": 0.0004465132736856969,
"loss": 0.0535,
"step": 5000
},
{
"epoch": 16.7,
"grad_norm": 0.09528321772813797,
"learning_rate": 0.00044621867467434706,
"loss": 0.034,
"step": 5010
},
{
"epoch": 16.733333333333334,
"grad_norm": 0.0033129348885267973,
"learning_rate": 0.00044592336433145995,
"loss": 0.0766,
"step": 5020
},
{
"epoch": 16.766666666666666,
"grad_norm": 0.003946595825254917,
"learning_rate": 0.0004456273437275941,
"loss": 0.0879,
"step": 5030
},
{
"epoch": 16.8,
"grad_norm": 0.07561410218477249,
"learning_rate": 0.00044533061393588284,
"loss": 0.0028,
"step": 5040
},
{
"epoch": 16.833333333333332,
"grad_norm": 0.0002018914819927886,
"learning_rate": 0.0004450331760320302,
"loss": 0.0562,
"step": 5050
},
{
"epoch": 16.866666666666667,
"grad_norm": 0.0016976863844320178,
"learning_rate": 0.0004447350310943076,
"loss": 0.0178,
"step": 5060
},
{
"epoch": 16.9,
"grad_norm": 0.012086511589586735,
"learning_rate": 0.0004444361802035495,
"loss": 0.0091,
"step": 5070
},
{
"epoch": 16.933333333333334,
"grad_norm": 0.003081787843257189,
"learning_rate": 0.0004441366244431494,
"loss": 0.0219,
"step": 5080
},
{
"epoch": 16.966666666666665,
"grad_norm": 18.680606842041016,
"learning_rate": 0.00044383636489905636,
"loss": 0.0693,
"step": 5090
},
{
"epoch": 17.0,
"grad_norm": 19.928892135620117,
"learning_rate": 0.00044353540265977065,
"loss": 0.0251,
"step": 5100
},
{
"epoch": 17.0,
"eval_accuracy": 0.975,
"eval_f1": 0.975034479299882,
"eval_kappa": 0.9498797113071371,
"eval_loss": 0.17754234373569489,
"eval_precision": 0.9762886597938144,
"eval_recall": 0.975,
"eval_runtime": 7.2945,
"eval_samples_per_second": 54.836,
"eval_steps_per_second": 2.331,
"step": 5100
},
{
"epoch": 17.033333333333335,
"grad_norm": 0.0158667154610157,
"learning_rate": 0.0004432337388163399,
"loss": 0.0169,
"step": 5110
},
{
"epoch": 17.066666666666666,
"grad_norm": 0.04557795822620392,
"learning_rate": 0.0004429313744623552,
"loss": 0.149,
"step": 5120
},
{
"epoch": 17.1,
"grad_norm": 11.541633605957031,
"learning_rate": 0.0004426283106939473,
"loss": 0.0364,
"step": 5130
},
{
"epoch": 17.133333333333333,
"grad_norm": 0.003035008441656828,
"learning_rate": 0.00044232454860978235,
"loss": 0.0135,
"step": 5140
},
{
"epoch": 17.166666666666668,
"grad_norm": 20.01824188232422,
"learning_rate": 0.00044202008931105795,
"loss": 0.0727,
"step": 5150
},
{
"epoch": 17.2,
"grad_norm": 0.0038418022450059652,
"learning_rate": 0.00044171493390149943,
"loss": 0.0656,
"step": 5160
},
{
"epoch": 17.233333333333334,
"grad_norm": 0.5585111975669861,
"learning_rate": 0.0004414090834873555,
"loss": 0.0687,
"step": 5170
},
{
"epoch": 17.266666666666666,
"grad_norm": 0.40798482298851013,
"learning_rate": 0.0004411025391773945,
"loss": 0.0088,
"step": 5180
},
{
"epoch": 17.3,
"grad_norm": 0.5033943057060242,
"learning_rate": 0.0004407953020829001,
"loss": 0.0017,
"step": 5190
},
{
"epoch": 17.333333333333332,
"grad_norm": 0.006301830522716045,
"learning_rate": 0.0004404873733176677,
"loss": 0.0069,
"step": 5200
},
{
"epoch": 17.366666666666667,
"grad_norm": 57.35346984863281,
"learning_rate": 0.000440178753998,
"loss": 0.057,
"step": 5210
},
{
"epoch": 17.4,
"grad_norm": 20.014352798461914,
"learning_rate": 0.0004398694452427032,
"loss": 0.057,
"step": 5220
},
{
"epoch": 17.433333333333334,
"grad_norm": 1.6002854108810425,
"learning_rate": 0.00043955944817308264,
"loss": 0.0283,
"step": 5230
},
{
"epoch": 17.466666666666665,
"grad_norm": 0.1630188226699829,
"learning_rate": 0.0004392487639129391,
"loss": 0.0149,
"step": 5240
},
{
"epoch": 17.5,
"grad_norm": 1.5527725219726562,
"learning_rate": 0.0004389373935885646,
"loss": 0.0033,
"step": 5250
},
{
"epoch": 17.533333333333335,
"grad_norm": 0.08788882941007614,
"learning_rate": 0.00043862533832873807,
"loss": 0.0181,
"step": 5260
},
{
"epoch": 17.566666666666666,
"grad_norm": 18.95491600036621,
"learning_rate": 0.0004383125992647217,
"loss": 0.0551,
"step": 5270
},
{
"epoch": 17.6,
"grad_norm": 0.09805364906787872,
"learning_rate": 0.0004379991775302565,
"loss": 0.0016,
"step": 5280
},
{
"epoch": 17.633333333333333,
"grad_norm": 0.08975560963153839,
"learning_rate": 0.0004376850742615582,
"loss": 0.0094,
"step": 5290
},
{
"epoch": 17.666666666666668,
"grad_norm": 0.0001883259683381766,
"learning_rate": 0.00043737029059731354,
"loss": 0.0345,
"step": 5300
},
{
"epoch": 17.7,
"grad_norm": 0.013120437040925026,
"learning_rate": 0.0004370548276786753,
"loss": 0.0012,
"step": 5310
},
{
"epoch": 17.733333333333334,
"grad_norm": 0.001265104510821402,
"learning_rate": 0.0004367386866492593,
"loss": 0.0065,
"step": 5320
},
{
"epoch": 17.766666666666666,
"grad_norm": 0.00024534211843274534,
"learning_rate": 0.00043642186865513923,
"loss": 0.059,
"step": 5330
},
{
"epoch": 17.8,
"grad_norm": 0.00401131808757782,
"learning_rate": 0.000436104374844843,
"loss": 0.013,
"step": 5340
},
{
"epoch": 17.833333333333332,
"grad_norm": 8.443090337095782e-05,
"learning_rate": 0.00043578620636934855,
"loss": 0.0187,
"step": 5350
},
{
"epoch": 17.866666666666667,
"grad_norm": 3.067394495010376,
"learning_rate": 0.0004354673643820796,
"loss": 0.0088,
"step": 5360
},
{
"epoch": 17.9,
"grad_norm": 9.890982627868652,
"learning_rate": 0.00043514785003890145,
"loss": 0.0055,
"step": 5370
},
{
"epoch": 17.933333333333334,
"grad_norm": 0.06324765086174011,
"learning_rate": 0.0004348276644981169,
"loss": 0.0059,
"step": 5380
},
{
"epoch": 17.966666666666665,
"grad_norm": 1.9441681615717243e-06,
"learning_rate": 0.0004345068089204618,
"loss": 0.0157,
"step": 5390
},
{
"epoch": 18.0,
"grad_norm": 0.0008120173588395119,
"learning_rate": 0.00043418528446910123,
"loss": 0.0176,
"step": 5400
},
{
"epoch": 18.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924950401511573,
"eval_kappa": 0.9848851269649335,
"eval_loss": 0.012522498145699501,
"eval_precision": 0.9926027397260273,
"eval_recall": 0.9925,
"eval_runtime": 7.2697,
"eval_samples_per_second": 55.023,
"eval_steps_per_second": 2.338,
"step": 5400
},
{
"epoch": 18.033333333333335,
"grad_norm": 2.747086763381958,
"learning_rate": 0.00043386309230962494,
"loss": 0.0049,
"step": 5410
},
{
"epoch": 18.066666666666666,
"grad_norm": 0.17824751138687134,
"learning_rate": 0.00043354023361004326,
"loss": 0.0055,
"step": 5420
},
{
"epoch": 18.1,
"grad_norm": 0.012055006809532642,
"learning_rate": 0.00043321670954078295,
"loss": 0.0059,
"step": 5430
},
{
"epoch": 18.133333333333333,
"grad_norm": 2.920243105108966e-07,
"learning_rate": 0.00043289252127468275,
"loss": 0.013,
"step": 5440
},
{
"epoch": 18.166666666666668,
"grad_norm": 0.02946869097650051,
"learning_rate": 0.00043256766998698936,
"loss": 0.0129,
"step": 5450
},
{
"epoch": 18.2,
"grad_norm": 0.15984544157981873,
"learning_rate": 0.00043224215685535287,
"loss": 0.0259,
"step": 5460
},
{
"epoch": 18.233333333333334,
"grad_norm": 0.007439691107720137,
"learning_rate": 0.00043191598305982295,
"loss": 0.0071,
"step": 5470
},
{
"epoch": 18.266666666666666,
"grad_norm": 0.003393712919205427,
"learning_rate": 0.00043158914978284413,
"loss": 0.0,
"step": 5480
},
{
"epoch": 18.3,
"grad_norm": 0.026435252279043198,
"learning_rate": 0.00043126165820925175,
"loss": 0.0024,
"step": 5490
},
{
"epoch": 18.333333333333332,
"grad_norm": 0.058090608566999435,
"learning_rate": 0.0004309335095262675,
"loss": 0.0851,
"step": 5500
},
{
"epoch": 18.366666666666667,
"grad_norm": 0.004093553405255079,
"learning_rate": 0.00043060470492349546,
"loss": 0.055,
"step": 5510
},
{
"epoch": 18.4,
"grad_norm": 0.006154999136924744,
"learning_rate": 0.00043027524559291735,
"loss": 0.0444,
"step": 5520
},
{
"epoch": 18.433333333333334,
"grad_norm": 1.4688598639622796e-05,
"learning_rate": 0.0004299451327288884,
"loss": 0.1432,
"step": 5530
},
{
"epoch": 18.466666666666665,
"grad_norm": 0.01573503017425537,
"learning_rate": 0.00042961436752813313,
"loss": 0.0567,
"step": 5540
},
{
"epoch": 18.5,
"grad_norm": 0.09377676993608475,
"learning_rate": 0.0004292829511897409,
"loss": 0.004,
"step": 5550
},
{
"epoch": 18.533333333333335,
"grad_norm": 0.0003030710795428604,
"learning_rate": 0.00042895088491516143,
"loss": 0.0109,
"step": 5560
},
{
"epoch": 18.566666666666666,
"grad_norm": 0.37513068318367004,
"learning_rate": 0.00042861816990820087,
"loss": 0.0139,
"step": 5570
},
{
"epoch": 18.6,
"grad_norm": 0.01114998385310173,
"learning_rate": 0.00042828480737501685,
"loss": 0.0121,
"step": 5580
},
{
"epoch": 18.633333333333333,
"grad_norm": 0.016994353383779526,
"learning_rate": 0.0004279507985241146,
"loss": 0.0018,
"step": 5590
},
{
"epoch": 18.666666666666668,
"grad_norm": 23.48972511291504,
"learning_rate": 0.00042761614456634226,
"loss": 0.0639,
"step": 5600
},
{
"epoch": 18.7,
"grad_norm": 15.19426155090332,
"learning_rate": 0.00042728084671488667,
"loss": 0.0308,
"step": 5610
},
{
"epoch": 18.733333333333334,
"grad_norm": 0.4076824188232422,
"learning_rate": 0.000426944906185269,
"loss": 0.0067,
"step": 5620
},
{
"epoch": 18.766666666666666,
"grad_norm": 0.00021396263036876917,
"learning_rate": 0.00042660832419534015,
"loss": 0.0213,
"step": 5630
},
{
"epoch": 18.8,
"grad_norm": 0.0007938387570902705,
"learning_rate": 0.00042627110196527643,
"loss": 0.0027,
"step": 5640
},
{
"epoch": 18.833333333333332,
"grad_norm": 6.3498005867004395,
"learning_rate": 0.00042593324071757513,
"loss": 0.0014,
"step": 5650
},
{
"epoch": 18.866666666666667,
"grad_norm": 0.01834871992468834,
"learning_rate": 0.00042559474167705024,
"loss": 0.005,
"step": 5660
},
{
"epoch": 18.9,
"grad_norm": 25.21710968017578,
"learning_rate": 0.0004252556060708277,
"loss": 0.0112,
"step": 5670
},
{
"epoch": 18.933333333333334,
"grad_norm": 0.0007557334029115736,
"learning_rate": 0.00042491583512834137,
"loss": 0.0048,
"step": 5680
},
{
"epoch": 18.966666666666665,
"grad_norm": 0.0007840251782909036,
"learning_rate": 0.00042457543008132803,
"loss": 0.0028,
"step": 5690
},
{
"epoch": 19.0,
"grad_norm": 0.00020392781880218536,
"learning_rate": 0.00042423439216382345,
"loss": 0.004,
"step": 5700
},
{
"epoch": 19.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924950401511573,
"eval_kappa": 0.9848851269649335,
"eval_loss": 0.02138124778866768,
"eval_precision": 0.9926027397260273,
"eval_recall": 0.9925,
"eval_runtime": 7.2724,
"eval_samples_per_second": 55.002,
"eval_steps_per_second": 2.338,
"step": 5700
},
{
"epoch": 19.033333333333335,
"grad_norm": 3.409046257729642e-05,
"learning_rate": 0.0004238927226121574,
"loss": 0.0053,
"step": 5710
},
{
"epoch": 19.066666666666666,
"grad_norm": 5.1102761062793434e-05,
"learning_rate": 0.0004235504226649499,
"loss": 0.0006,
"step": 5720
},
{
"epoch": 19.1,
"grad_norm": 4.482835265662288e-06,
"learning_rate": 0.00042320749356310585,
"loss": 0.0062,
"step": 5730
},
{
"epoch": 19.133333333333333,
"grad_norm": 6.407644377759425e-06,
"learning_rate": 0.00042286393654981117,
"loss": 0.0144,
"step": 5740
},
{
"epoch": 19.166666666666668,
"grad_norm": 6.763396868336713e-06,
"learning_rate": 0.000422519752870528,
"loss": 0.0074,
"step": 5750
},
{
"epoch": 19.2,
"grad_norm": 0.6662626266479492,
"learning_rate": 0.0004221749437729904,
"loss": 0.0249,
"step": 5760
},
{
"epoch": 19.233333333333334,
"grad_norm": 2.1368918418884277,
"learning_rate": 0.00042182951050719953,
"loss": 0.0005,
"step": 5770
},
{
"epoch": 19.266666666666666,
"grad_norm": 0.7532082796096802,
"learning_rate": 0.00042148345432541947,
"loss": 0.0012,
"step": 5780
},
{
"epoch": 19.3,
"grad_norm": 0.0029580825939774513,
"learning_rate": 0.0004211367764821722,
"loss": 0.0908,
"step": 5790
},
{
"epoch": 19.333333333333332,
"grad_norm": 0.0024131108075380325,
"learning_rate": 0.00042078947823423365,
"loss": 0.0003,
"step": 5800
},
{
"epoch": 19.366666666666667,
"grad_norm": 0.3826955556869507,
"learning_rate": 0.0004204415608406287,
"loss": 0.0017,
"step": 5810
},
{
"epoch": 19.4,
"grad_norm": 0.6719952821731567,
"learning_rate": 0.0004200930255626267,
"loss": 0.0045,
"step": 5820
},
{
"epoch": 19.433333333333334,
"grad_norm": 0.0007892029243521392,
"learning_rate": 0.0004197438736637371,
"loss": 0.0018,
"step": 5830
},
{
"epoch": 19.466666666666665,
"grad_norm": 0.3547203838825226,
"learning_rate": 0.00041939410640970463,
"loss": 0.0001,
"step": 5840
},
{
"epoch": 19.5,
"grad_norm": 0.0005942045827396214,
"learning_rate": 0.0004190437250685049,
"loss": 0.0041,
"step": 5850
},
{
"epoch": 19.533333333333335,
"grad_norm": 2.2738926418242045e-05,
"learning_rate": 0.0004186927309103395,
"loss": 0.0249,
"step": 5860
},
{
"epoch": 19.566666666666666,
"grad_norm": 0.2131558209657669,
"learning_rate": 0.0004183411252076318,
"loss": 0.0021,
"step": 5870
},
{
"epoch": 19.6,
"grad_norm": 5.3966072300681844e-05,
"learning_rate": 0.00041798890923502196,
"loss": 0.0142,
"step": 5880
},
{
"epoch": 19.633333333333333,
"grad_norm": 5.459845488076098e-05,
"learning_rate": 0.00041763608426936285,
"loss": 0.0114,
"step": 5890
},
{
"epoch": 19.666666666666668,
"grad_norm": 0.00019487504323478788,
"learning_rate": 0.0004172826515897146,
"loss": 0.0006,
"step": 5900
},
{
"epoch": 19.7,
"grad_norm": 39.95808792114258,
"learning_rate": 0.00041692861247734066,
"loss": 0.027,
"step": 5910
},
{
"epoch": 19.733333333333334,
"grad_norm": 0.09292138367891312,
"learning_rate": 0.000416573968215703,
"loss": 0.0142,
"step": 5920
},
{
"epoch": 19.766666666666666,
"grad_norm": 0.4146019518375397,
"learning_rate": 0.00041621872009045714,
"loss": 0.0619,
"step": 5930
},
{
"epoch": 19.8,
"grad_norm": 0.0032702682074159384,
"learning_rate": 0.00041586286938944794,
"loss": 0.049,
"step": 5940
},
{
"epoch": 19.833333333333332,
"grad_norm": 9.901680641632993e-06,
"learning_rate": 0.0004155064174027047,
"loss": 0.053,
"step": 5950
},
{
"epoch": 19.866666666666667,
"grad_norm": 2.382656560939722e-07,
"learning_rate": 0.0004151493654224362,
"loss": 0.0041,
"step": 5960
},
{
"epoch": 19.9,
"grad_norm": 0.10070688277482986,
"learning_rate": 0.0004147917147430267,
"loss": 0.0002,
"step": 5970
},
{
"epoch": 19.933333333333334,
"grad_norm": 0.37473300099372864,
"learning_rate": 0.00041443346666103075,
"loss": 0.0317,
"step": 5980
},
{
"epoch": 19.966666666666665,
"grad_norm": 0.015777839347720146,
"learning_rate": 0.0004140746224751686,
"loss": 0.0049,
"step": 5990
},
{
"epoch": 20.0,
"grad_norm": 0.06747877597808838,
"learning_rate": 0.0004137151834863213,
"loss": 0.0765,
"step": 6000
},
{
"epoch": 20.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9925014619055704,
"eval_kappa": 0.9849094567404426,
"eval_loss": 0.026282142847776413,
"eval_precision": 0.9925153991200503,
"eval_recall": 0.9925,
"eval_runtime": 7.3526,
"eval_samples_per_second": 54.403,
"eval_steps_per_second": 2.312,
"step": 6000
},
{
"epoch": 20.033333333333335,
"grad_norm": 7.862460915930569e-05,
"learning_rate": 0.0004133551509975264,
"loss": 0.0018,
"step": 6010
},
{
"epoch": 20.066666666666666,
"grad_norm": 0.003342132782563567,
"learning_rate": 0.00041299452631397295,
"loss": 0.0073,
"step": 6020
},
{
"epoch": 20.1,
"grad_norm": 0.0008726781816221774,
"learning_rate": 0.00041263331074299674,
"loss": 0.0006,
"step": 6030
},
{
"epoch": 20.133333333333333,
"grad_norm": 0.003774689044803381,
"learning_rate": 0.0004122715055940759,
"loss": 0.0142,
"step": 6040
},
{
"epoch": 20.166666666666668,
"grad_norm": 4.912187099456787,
"learning_rate": 0.00041190911217882554,
"loss": 0.0087,
"step": 6050
},
{
"epoch": 20.2,
"grad_norm": 0.028365733101963997,
"learning_rate": 0.00041154613181099354,
"loss": 0.0009,
"step": 6060
},
{
"epoch": 20.233333333333334,
"grad_norm": 0.5290868878364563,
"learning_rate": 0.00041118256580645573,
"loss": 0.0072,
"step": 6070
},
{
"epoch": 20.266666666666666,
"grad_norm": 1.6444475477328524e-05,
"learning_rate": 0.00041081841548321063,
"loss": 0.0011,
"step": 6080
},
{
"epoch": 20.3,
"grad_norm": 1.4104318324825726e-05,
"learning_rate": 0.0004104536821613755,
"loss": 0.0028,
"step": 6090
},
{
"epoch": 20.333333333333332,
"grad_norm": 0.0005012187757529318,
"learning_rate": 0.0004100883671631806,
"loss": 0.0006,
"step": 6100
},
{
"epoch": 20.366666666666667,
"grad_norm": 0.0006044594920240343,
"learning_rate": 0.00040972247181296517,
"loss": 0.0007,
"step": 6110
},
{
"epoch": 20.4,
"grad_norm": 0.011126265861093998,
"learning_rate": 0.00040935599743717243,
"loss": 0.0,
"step": 6120
},
{
"epoch": 20.433333333333334,
"grad_norm": 9.391146886628121e-05,
"learning_rate": 0.00040898894536434436,
"loss": 0.0036,
"step": 6130
},
{
"epoch": 20.466666666666665,
"grad_norm": 0.0033955660182982683,
"learning_rate": 0.0004086213169251175,
"loss": 0.0055,
"step": 6140
},
{
"epoch": 20.5,
"grad_norm": 3.899128932971507e-05,
"learning_rate": 0.0004082531134522176,
"loss": 0.0038,
"step": 6150
},
{
"epoch": 20.533333333333335,
"grad_norm": 54.52496337890625,
"learning_rate": 0.00040788433628045526,
"loss": 0.0801,
"step": 6160
},
{
"epoch": 20.566666666666666,
"grad_norm": 23.238245010375977,
"learning_rate": 0.0004075149867467206,
"loss": 0.0054,
"step": 6170
},
{
"epoch": 20.6,
"grad_norm": 0.024889228865504265,
"learning_rate": 0.0004071450661899789,
"loss": 0.0006,
"step": 6180
},
{
"epoch": 20.633333333333333,
"grad_norm": 0.00033502039150334895,
"learning_rate": 0.00040677457595126535,
"loss": 0.0193,
"step": 6190
},
{
"epoch": 20.666666666666668,
"grad_norm": 1.2196564674377441,
"learning_rate": 0.0004064035173736804,
"loss": 0.0326,
"step": 6200
},
{
"epoch": 20.7,
"grad_norm": 0.03614107146859169,
"learning_rate": 0.00040603189180238487,
"loss": 0.0428,
"step": 6210
},
{
"epoch": 20.733333333333334,
"grad_norm": 0.00015757529763504863,
"learning_rate": 0.00040565970058459495,
"loss": 0.0178,
"step": 6220
},
{
"epoch": 20.766666666666666,
"grad_norm": 31.76898956298828,
"learning_rate": 0.0004052869450695776,
"loss": 0.0377,
"step": 6230
},
{
"epoch": 20.8,
"grad_norm": 2.0460689067840576,
"learning_rate": 0.0004049136266086453,
"loss": 0.0018,
"step": 6240
},
{
"epoch": 20.833333333333332,
"grad_norm": 0.00013923767255619168,
"learning_rate": 0.0004045397465551513,
"loss": 0.0257,
"step": 6250
},
{
"epoch": 20.866666666666667,
"grad_norm": 0.0006307970033958554,
"learning_rate": 0.0004041653062644849,
"loss": 0.0004,
"step": 6260
},
{
"epoch": 20.9,
"grad_norm": 0.006992705166339874,
"learning_rate": 0.0004037903070940663,
"loss": 0.0184,
"step": 6270
},
{
"epoch": 20.933333333333334,
"grad_norm": 4.516855239868164,
"learning_rate": 0.0004034147504033415,
"loss": 0.0011,
"step": 6280
},
{
"epoch": 20.966666666666665,
"grad_norm": 2.106142282485962,
"learning_rate": 0.0004030386375537781,
"loss": 0.0004,
"step": 6290
},
{
"epoch": 21.0,
"grad_norm": 0.021997051313519478,
"learning_rate": 0.00040266196990885957,
"loss": 0.0031,
"step": 6300
},
{
"epoch": 21.0,
"eval_accuracy": 0.995,
"eval_f1": 0.9949978595351413,
"eval_kappa": 0.9899274778404512,
"eval_loss": 0.007627411279827356,
"eval_precision": 0.9950458715596331,
"eval_recall": 0.995,
"eval_runtime": 7.3429,
"eval_samples_per_second": 54.474,
"eval_steps_per_second": 2.315,
"step": 6300
},
{
"epoch": 21.033333333333335,
"grad_norm": 0.10303360223770142,
"learning_rate": 0.0004022847488340806,
"loss": 0.0002,
"step": 6310
},
{
"epoch": 21.066666666666666,
"grad_norm": 0.0006746263243257999,
"learning_rate": 0.0004019069756969423,
"loss": 0.0047,
"step": 6320
},
{
"epoch": 21.1,
"grad_norm": 0.009801504202187061,
"learning_rate": 0.0004015286518669471,
"loss": 0.0001,
"step": 6330
},
{
"epoch": 21.133333333333333,
"grad_norm": 0.0029807365499436855,
"learning_rate": 0.00040114977871559375,
"loss": 0.0003,
"step": 6340
},
{
"epoch": 21.166666666666668,
"grad_norm": 4.46964713773923e-06,
"learning_rate": 0.0004007703576163724,
"loss": 0.0034,
"step": 6350
},
{
"epoch": 21.2,
"grad_norm": 0.0006399075500667095,
"learning_rate": 0.0004003903899447597,
"loss": 0.0004,
"step": 6360
},
{
"epoch": 21.233333333333334,
"grad_norm": 3.252115493523888e-05,
"learning_rate": 0.00040000987707821355,
"loss": 0.001,
"step": 6370
},
{
"epoch": 21.266666666666666,
"grad_norm": 0.00783352367579937,
"learning_rate": 0.0003996288203961686,
"loss": 0.0003,
"step": 6380
},
{
"epoch": 21.3,
"grad_norm": 2.122505975421518e-05,
"learning_rate": 0.0003992472212800307,
"loss": 0.0171,
"step": 6390
},
{
"epoch": 21.333333333333332,
"grad_norm": 14.490923881530762,
"learning_rate": 0.000398865081113172,
"loss": 0.0322,
"step": 6400
},
{
"epoch": 21.366666666666667,
"grad_norm": 3.637007694123895e-06,
"learning_rate": 0.0003984824012809265,
"loss": 0.0305,
"step": 6410
},
{
"epoch": 21.4,
"grad_norm": 5.9053168296813965,
"learning_rate": 0.0003980991831705842,
"loss": 0.0107,
"step": 6420
},
{
"epoch": 21.433333333333334,
"grad_norm": 0.28526216745376587,
"learning_rate": 0.0003977154281713866,
"loss": 0.0684,
"step": 6430
},
{
"epoch": 21.466666666666665,
"grad_norm": 1.392630696296692,
"learning_rate": 0.00039733113767452164,
"loss": 0.0005,
"step": 6440
},
{
"epoch": 21.5,
"grad_norm": 5.3771942475577816e-05,
"learning_rate": 0.0003969463130731183,
"loss": 0.0007,
"step": 6450
},
{
"epoch": 21.533333333333335,
"grad_norm": 0.5646133422851562,
"learning_rate": 0.00039656095576224204,
"loss": 0.0082,
"step": 6460
},
{
"epoch": 21.566666666666666,
"grad_norm": 57.72877883911133,
"learning_rate": 0.0003961750671388894,
"loss": 0.0146,
"step": 6470
},
{
"epoch": 21.6,
"grad_norm": 23.014808654785156,
"learning_rate": 0.000395788648601983,
"loss": 0.0442,
"step": 6480
},
{
"epoch": 21.633333333333333,
"grad_norm": 0.09101602435112,
"learning_rate": 0.00039540170155236647,
"loss": 0.0481,
"step": 6490
},
{
"epoch": 21.666666666666668,
"grad_norm": 0.040844641625881195,
"learning_rate": 0.0003950142273927996,
"loss": 0.0161,
"step": 6500
},
{
"epoch": 21.7,
"grad_norm": 0.4568909704685211,
"learning_rate": 0.0003946262275279527,
"loss": 0.0081,
"step": 6510
},
{
"epoch": 21.733333333333334,
"grad_norm": 8.483947749482468e-05,
"learning_rate": 0.00039423770336440234,
"loss": 0.0169,
"step": 6520
},
{
"epoch": 21.766666666666666,
"grad_norm": 0.016545411199331284,
"learning_rate": 0.00039384865631062534,
"loss": 0.0074,
"step": 6530
},
{
"epoch": 21.8,
"grad_norm": 0.023100852966308594,
"learning_rate": 0.00039345908777699436,
"loss": 0.0144,
"step": 6540
},
{
"epoch": 21.833333333333332,
"grad_norm": 0.012311081402003765,
"learning_rate": 0.00039306899917577245,
"loss": 0.0004,
"step": 6550
},
{
"epoch": 21.866666666666667,
"grad_norm": 0.00015020677528809756,
"learning_rate": 0.000392678391921108,
"loss": 0.0178,
"step": 6560
},
{
"epoch": 21.9,
"grad_norm": 2.5779238058021292e-05,
"learning_rate": 0.00039228726742902956,
"loss": 0.0042,
"step": 6570
},
{
"epoch": 21.933333333333334,
"grad_norm": 0.0032437986228615046,
"learning_rate": 0.0003918956271174409,
"loss": 0.011,
"step": 6580
},
{
"epoch": 21.966666666666665,
"grad_norm": 0.00043358461698517203,
"learning_rate": 0.0003915034724061156,
"loss": 0.0977,
"step": 6590
},
{
"epoch": 22.0,
"grad_norm": 2.70005443780974e-07,
"learning_rate": 0.0003911108047166924,
"loss": 0.0241,
"step": 6600
},
{
"epoch": 22.0,
"eval_accuracy": 0.995,
"eval_f1": 0.9949978595351413,
"eval_kappa": 0.9899274778404512,
"eval_loss": 0.005487921182066202,
"eval_precision": 0.9950458715596331,
"eval_recall": 0.995,
"eval_runtime": 7.6114,
"eval_samples_per_second": 52.552,
"eval_steps_per_second": 2.233,
"step": 6600
},
{
"epoch": 22.033333333333335,
"grad_norm": 0.0010603450937196612,
"learning_rate": 0.000390717625472669,
"loss": 0.0413,
"step": 6610
},
{
"epoch": 22.066666666666666,
"grad_norm": 0.1451718658208847,
"learning_rate": 0.00039032393609939823,
"loss": 0.0002,
"step": 6620
},
{
"epoch": 22.1,
"grad_norm": 4.978695142199285e-05,
"learning_rate": 0.00038992973802408186,
"loss": 0.0105,
"step": 6630
},
{
"epoch": 22.133333333333333,
"grad_norm": 4.238208930473775e-05,
"learning_rate": 0.00038953503267576616,
"loss": 0.0145,
"step": 6640
},
{
"epoch": 22.166666666666668,
"grad_norm": 1.652227759361267,
"learning_rate": 0.000389139821485336,
"loss": 0.0046,
"step": 6650
},
{
"epoch": 22.2,
"grad_norm": 1.4371596574783325,
"learning_rate": 0.0003887441058855101,
"loss": 0.0048,
"step": 6660
},
{
"epoch": 22.233333333333334,
"grad_norm": 0.01756283827126026,
"learning_rate": 0.000388347887310836,
"loss": 0.0005,
"step": 6670
},
{
"epoch": 22.266666666666666,
"grad_norm": 0.007431345991790295,
"learning_rate": 0.0003879511671976844,
"loss": 0.0211,
"step": 6680
},
{
"epoch": 22.3,
"grad_norm": 0.05154158174991608,
"learning_rate": 0.0003875539469842443,
"loss": 0.0051,
"step": 6690
},
{
"epoch": 22.333333333333332,
"grad_norm": 17.479228973388672,
"learning_rate": 0.00038715622811051755,
"loss": 0.0117,
"step": 6700
},
{
"epoch": 22.366666666666667,
"grad_norm": 0.0018899671267718077,
"learning_rate": 0.0003867580120183137,
"loss": 0.0056,
"step": 6710
},
{
"epoch": 22.4,
"grad_norm": 0.4511035084724426,
"learning_rate": 0.000386359300151245,
"loss": 0.0026,
"step": 6720
},
{
"epoch": 22.433333333333334,
"grad_norm": 26.481822967529297,
"learning_rate": 0.000385960093954721,
"loss": 0.0373,
"step": 6730
},
{
"epoch": 22.466666666666665,
"grad_norm": 5.34855325895478e-06,
"learning_rate": 0.00038556039487594305,
"loss": 0.0001,
"step": 6740
},
{
"epoch": 22.5,
"grad_norm": 0.846415102481842,
"learning_rate": 0.0003851602043638994,
"loss": 0.009,
"step": 6750
},
{
"epoch": 22.533333333333335,
"grad_norm": 0.0109387943521142,
"learning_rate": 0.00038475952386936,
"loss": 0.0027,
"step": 6760
},
{
"epoch": 22.566666666666666,
"grad_norm": 0.01608428731560707,
"learning_rate": 0.00038435835484487094,
"loss": 0.0182,
"step": 6770
},
{
"epoch": 22.6,
"grad_norm": 8.210320629586931e-06,
"learning_rate": 0.00038395669874474915,
"loss": 0.0012,
"step": 6780
},
{
"epoch": 22.633333333333333,
"grad_norm": 4.5128417696105316e-05,
"learning_rate": 0.0003835545570250778,
"loss": 0.0017,
"step": 6790
},
{
"epoch": 22.666666666666668,
"grad_norm": 9.459803550271317e-05,
"learning_rate": 0.00038315193114369994,
"loss": 0.0702,
"step": 6800
},
{
"epoch": 22.7,
"grad_norm": 0.1442583054304123,
"learning_rate": 0.00038274882256021436,
"loss": 0.0114,
"step": 6810
},
{
"epoch": 22.733333333333334,
"grad_norm": 4.343274213169934e-06,
"learning_rate": 0.00038234523273596925,
"loss": 0.0054,
"step": 6820
},
{
"epoch": 22.766666666666666,
"grad_norm": 3.1445400714874268,
"learning_rate": 0.00038194116313405776,
"loss": 0.0012,
"step": 6830
},
{
"epoch": 22.8,
"grad_norm": 2.3695269192103297e-05,
"learning_rate": 0.00038153661521931215,
"loss": 0.0299,
"step": 6840
},
{
"epoch": 22.833333333333332,
"grad_norm": 0.009363389573991299,
"learning_rate": 0.00038113159045829857,
"loss": 0.0171,
"step": 6850
},
{
"epoch": 22.866666666666667,
"grad_norm": 24.479642868041992,
"learning_rate": 0.00038072609031931216,
"loss": 0.0459,
"step": 6860
},
{
"epoch": 22.9,
"grad_norm": 0.00038373778806999326,
"learning_rate": 0.00038032011627237104,
"loss": 0.0467,
"step": 6870
},
{
"epoch": 22.933333333333334,
"grad_norm": 0.0011447573779150844,
"learning_rate": 0.0003799136697892115,
"loss": 0.0058,
"step": 6880
},
{
"epoch": 22.966666666666665,
"grad_norm": 0.0019354552496224642,
"learning_rate": 0.00037950675234328256,
"loss": 0.0077,
"step": 6890
},
{
"epoch": 23.0,
"grad_norm": 14.743107795715332,
"learning_rate": 0.0003790993654097405,
"loss": 0.0033,
"step": 6900
},
{
"epoch": 23.0,
"eval_accuracy": 0.99,
"eval_f1": 0.9899957190702827,
"eval_kappa": 0.9798549556809025,
"eval_loss": 0.013646052218973637,
"eval_precision": 0.990041334811977,
"eval_recall": 0.99,
"eval_runtime": 7.3674,
"eval_samples_per_second": 54.294,
"eval_steps_per_second": 2.307,
"step": 6900
},
{
"epoch": 23.033333333333335,
"grad_norm": 0.00013050199777353555,
"learning_rate": 0.0003786915104654436,
"loss": 0.0,
"step": 6910
},
{
"epoch": 23.066666666666666,
"grad_norm": 0.5303778648376465,
"learning_rate": 0.00037828318898894665,
"loss": 0.0036,
"step": 6920
},
{
"epoch": 23.1,
"grad_norm": 8.454459930362646e-06,
"learning_rate": 0.000377874402460496,
"loss": 0.0046,
"step": 6930
},
{
"epoch": 23.133333333333333,
"grad_norm": 0.005222962703555822,
"learning_rate": 0.0003774651523620237,
"loss": 0.0,
"step": 6940
},
{
"epoch": 23.166666666666668,
"grad_norm": 0.1712953895330429,
"learning_rate": 0.0003770554401771423,
"loss": 0.0041,
"step": 6950
},
{
"epoch": 23.2,
"grad_norm": 0.17076972126960754,
"learning_rate": 0.00037664526739113955,
"loss": 0.0001,
"step": 6960
},
{
"epoch": 23.233333333333334,
"grad_norm": 0.0013726474717259407,
"learning_rate": 0.00037623463549097313,
"loss": 0.0001,
"step": 6970
},
{
"epoch": 23.266666666666666,
"grad_norm": 2.5219618692062795e-05,
"learning_rate": 0.0003758235459652649,
"loss": 0.0013,
"step": 6980
},
{
"epoch": 23.3,
"grad_norm": 0.31080183386802673,
"learning_rate": 0.0003754120003042957,
"loss": 0.0033,
"step": 6990
},
{
"epoch": 23.333333333333332,
"grad_norm": 0.00040980897028930485,
"learning_rate": 0.000375,
"loss": 0.0,
"step": 7000
},
{
"epoch": 23.366666666666667,
"grad_norm": 6.820825547038112e-06,
"learning_rate": 0.0003745875465459606,
"loss": 0.0021,
"step": 7010
},
{
"epoch": 23.4,
"grad_norm": 0.22616206109523773,
"learning_rate": 0.0003741746414374028,
"loss": 0.0021,
"step": 7020
},
{
"epoch": 23.433333333333334,
"grad_norm": 6.284021765168291e-06,
"learning_rate": 0.0003737612861711894,
"loss": 0.0005,
"step": 7030
},
{
"epoch": 23.466666666666665,
"grad_norm": 0.004215302877128124,
"learning_rate": 0.00037334748224581506,
"loss": 0.0132,
"step": 7040
},
{
"epoch": 23.5,
"grad_norm": 0.9243494272232056,
"learning_rate": 0.000372933231161401,
"loss": 0.0049,
"step": 7050
},
{
"epoch": 23.533333333333335,
"grad_norm": 0.0001606469159014523,
"learning_rate": 0.0003725185344196892,
"loss": 0.0001,
"step": 7060
},
{
"epoch": 23.566666666666666,
"grad_norm": 1.1334620714187622,
"learning_rate": 0.0003721033935240376,
"loss": 0.0027,
"step": 7070
},
{
"epoch": 23.6,
"grad_norm": 1.3876824378967285,
"learning_rate": 0.0003716878099794141,
"loss": 0.0105,
"step": 7080
},
{
"epoch": 23.633333333333333,
"grad_norm": 5.220254593041318e-07,
"learning_rate": 0.00037127178529239123,
"loss": 0.0146,
"step": 7090
},
{
"epoch": 23.666666666666668,
"grad_norm": 5.209434986114502,
"learning_rate": 0.00037085532097114095,
"loss": 0.0073,
"step": 7100
},
{
"epoch": 23.7,
"grad_norm": 0.0003162418433930725,
"learning_rate": 0.0003704384185254288,
"loss": 0.0816,
"step": 7110
},
{
"epoch": 23.733333333333334,
"grad_norm": 0.3284040689468384,
"learning_rate": 0.00037002107946660875,
"loss": 0.0005,
"step": 7120
},
{
"epoch": 23.766666666666666,
"grad_norm": 0.00015756633365526795,
"learning_rate": 0.00036960330530761733,
"loss": 0.0046,
"step": 7130
},
{
"epoch": 23.8,
"grad_norm": 33.33992004394531,
"learning_rate": 0.00036918509756296873,
"loss": 0.0572,
"step": 7140
},
{
"epoch": 23.833333333333332,
"grad_norm": 0.003860224736854434,
"learning_rate": 0.00036876645774874876,
"loss": 0.0015,
"step": 7150
},
{
"epoch": 23.866666666666667,
"grad_norm": 2.565090539974335e-07,
"learning_rate": 0.00036834738738260954,
"loss": 0.009,
"step": 7160
},
{
"epoch": 23.9,
"grad_norm": 0.0023236051201820374,
"learning_rate": 0.0003679278879837642,
"loss": 0.0012,
"step": 7170
},
{
"epoch": 23.933333333333334,
"grad_norm": 21.017024993896484,
"learning_rate": 0.00036750796107298106,
"loss": 0.0585,
"step": 7180
},
{
"epoch": 23.966666666666665,
"grad_norm": 0.0037448403891175985,
"learning_rate": 0.00036708760817257837,
"loss": 0.0031,
"step": 7190
},
{
"epoch": 24.0,
"grad_norm": 18.846464157104492,
"learning_rate": 0.00036666683080641843,
"loss": 0.0181,
"step": 7200
},
{
"epoch": 24.0,
"eval_accuracy": 0.9925,
"eval_f1": 0.9924950401511573,
"eval_kappa": 0.9848851269649335,
"eval_loss": 0.013661917299032211,
"eval_precision": 0.9926027397260273,
"eval_recall": 0.9925,
"eval_runtime": 8.9153,
"eval_samples_per_second": 44.867,
"eval_steps_per_second": 1.907,
"step": 7200
},
{
"epoch": 24.033333333333335,
"grad_norm": 0.0003208270645700395,
"learning_rate": 0.0003662456304999027,
"loss": 0.0176,
"step": 7210
},
{
"epoch": 24.066666666666666,
"grad_norm": 0.011914746835827827,
"learning_rate": 0.00036582400877996547,
"loss": 0.0073,
"step": 7220
},
{
"epoch": 24.1,
"grad_norm": 0.362394779920578,
"learning_rate": 0.000365401967175069,
"loss": 0.0193,
"step": 7230
},
{
"epoch": 24.133333333333333,
"grad_norm": 1.1130025256989029e-07,
"learning_rate": 0.0003649795072151977,
"loss": 0.0026,
"step": 7240
},
{
"epoch": 24.166666666666668,
"grad_norm": 0.0001176462828880176,
"learning_rate": 0.0003645566304318526,
"loss": 0.0278,
"step": 7250
},
{
"epoch": 24.2,
"grad_norm": 18.362728118896484,
"learning_rate": 0.0003641333383580456,
"loss": 0.0113,
"step": 7260
},
{
"epoch": 24.233333333333334,
"grad_norm": 0.10462316870689392,
"learning_rate": 0.0003637096325282945,
"loss": 0.0138,
"step": 7270
},
{
"epoch": 24.266666666666666,
"grad_norm": 0.006980831269174814,
"learning_rate": 0.0003632855144786164,
"loss": 0.0073,
"step": 7280
},
{
"epoch": 24.3,
"grad_norm": 0.013762867078185081,
"learning_rate": 0.00036286098574652353,
"loss": 0.0004,
"step": 7290
},
{
"epoch": 24.333333333333332,
"grad_norm": 13.014883995056152,
"learning_rate": 0.00036243604787101645,
"loss": 0.041,
"step": 7300
},
{
"epoch": 24.366666666666667,
"grad_norm": 0.011269000358879566,
"learning_rate": 0.0003620107023925791,
"loss": 0.0074,
"step": 7310
},
{
"epoch": 24.4,
"grad_norm": 0.0007277583354152739,
"learning_rate": 0.000361584950853173,
"loss": 0.0003,
"step": 7320
},
{
"epoch": 24.433333333333334,
"grad_norm": 24.452768325805664,
"learning_rate": 0.00036115879479623185,
"loss": 0.0162,
"step": 7330
},
{
"epoch": 24.466666666666665,
"grad_norm": 0.004250858910381794,
"learning_rate": 0.0003607322357666557,
"loss": 0.0102,
"step": 7340
},
{
"epoch": 24.5,
"grad_norm": 4.788829326629639,
"learning_rate": 0.0003603052753108053,
"loss": 0.002,
"step": 7350
},
{
"epoch": 24.533333333333335,
"grad_norm": 5.666919605573639e-05,
"learning_rate": 0.000359877914976497,
"loss": 0.0132,
"step": 7360
},
{
"epoch": 24.566666666666666,
"grad_norm": 0.00400648545473814,
"learning_rate": 0.0003594501563129966,
"loss": 0.0018,
"step": 7370
},
{
"epoch": 24.6,
"grad_norm": 2.8069054678780958e-05,
"learning_rate": 0.00035902200087101384,
"loss": 0.0168,
"step": 7380
},
{
"epoch": 24.633333333333333,
"grad_norm": 0.012254276312887669,
"learning_rate": 0.000358593450202697,
"loss": 0.0429,
"step": 7390
},
{
"epoch": 24.666666666666668,
"grad_norm": 7.442674387903025e-08,
"learning_rate": 0.00035816450586162706,
"loss": 0.0025,
"step": 7400
},
{
"epoch": 24.7,
"grad_norm": 9.398029327392578,
"learning_rate": 0.00035773516940281223,
"loss": 0.0135,
"step": 7410
},
{
"epoch": 24.733333333333334,
"grad_norm": 1.0428972927911673e-05,
"learning_rate": 0.00035730544238268206,
"loss": 0.0181,
"step": 7420
},
{
"epoch": 24.766666666666666,
"grad_norm": 0.0002591295342426747,
"learning_rate": 0.00035687532635908216,
"loss": 0.0039,
"step": 7430
},
{
"epoch": 24.8,
"grad_norm": 0.00013015963486395776,
"learning_rate": 0.0003564448228912682,
"loss": 0.0033,
"step": 7440
},
{
"epoch": 24.833333333333332,
"grad_norm": 0.19798079133033752,
"learning_rate": 0.00035601393353990046,
"loss": 0.0,
"step": 7450
},
{
"epoch": 24.866666666666667,
"grad_norm": 0.18493784964084625,
"learning_rate": 0.0003555826598670382,
"loss": 0.0171,
"step": 7460
},
{
"epoch": 24.9,
"grad_norm": 0.0026060056407004595,
"learning_rate": 0.0003551510034361337,
"loss": 0.0366,
"step": 7470
},
{
"epoch": 24.933333333333334,
"grad_norm": 0.0010627699084579945,
"learning_rate": 0.0003547189658120272,
"loss": 0.0027,
"step": 7480
},
{
"epoch": 24.966666666666665,
"grad_norm": 5.541090104088653e-06,
"learning_rate": 0.0003542865485609404,
"loss": 0.0009,
"step": 7490
},
{
"epoch": 25.0,
"grad_norm": 0.0014559195842593908,
"learning_rate": 0.00035385375325047166,
"loss": 0.0171,
"step": 7500
},
{
"epoch": 25.0,
"eval_accuracy": 1.0,
"eval_f1": 1.0,
"eval_kappa": 1.0,
"eval_loss": 0.005007035564631224,
"eval_precision": 1.0,
"eval_recall": 1.0,
"eval_runtime": 8.9128,
"eval_samples_per_second": 44.879,
"eval_steps_per_second": 1.907,
"step": 7500
}
],
"logging_steps": 10,
"max_steps": 18000,
"num_input_tokens_seen": 0,
"num_train_epochs": 60,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 1.89101405896704e+18,
"train_batch_size": 24,
"trial_name": null,
"trial_params": null
}