{ "best_metric": 1.0, "best_model_checkpoint": "phikon_leopard_2/checkpoint-7500", "epoch": 25.0, "eval_steps": 500, "global_step": 7500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, "grad_norm": 10.40684986114502, "learning_rate": 3.3333333333333337e-06, "loss": 0.8204, "step": 10 }, { "epoch": 0.06666666666666667, "grad_norm": 13.229052543640137, "learning_rate": 6.6666666666666675e-06, "loss": 0.8376, "step": 20 }, { "epoch": 0.1, "grad_norm": 14.727029800415039, "learning_rate": 1e-05, "loss": 0.8368, "step": 30 }, { "epoch": 0.13333333333333333, "grad_norm": 19.26563835144043, "learning_rate": 1.3333333333333335e-05, "loss": 0.6774, "step": 40 }, { "epoch": 0.16666666666666666, "grad_norm": 12.464519500732422, "learning_rate": 1.6666666666666667e-05, "loss": 0.6611, "step": 50 }, { "epoch": 0.2, "grad_norm": 9.706178665161133, "learning_rate": 2e-05, "loss": 0.5936, "step": 60 }, { "epoch": 0.23333333333333334, "grad_norm": 20.20228385925293, "learning_rate": 2.3333333333333336e-05, "loss": 0.5647, "step": 70 }, { "epoch": 0.26666666666666666, "grad_norm": 9.019632339477539, "learning_rate": 2.666666666666667e-05, "loss": 0.4235, "step": 80 }, { "epoch": 0.3, "grad_norm": 9.443696022033691, "learning_rate": 3e-05, "loss": 0.3427, "step": 90 }, { "epoch": 0.3333333333333333, "grad_norm": 13.720805168151855, "learning_rate": 3.3333333333333335e-05, "loss": 0.3335, "step": 100 }, { "epoch": 0.36666666666666664, "grad_norm": 32.24056625366211, "learning_rate": 3.6666666666666666e-05, "loss": 0.2616, "step": 110 }, { "epoch": 0.4, "grad_norm": 27.36871910095215, "learning_rate": 4e-05, "loss": 0.231, "step": 120 }, { "epoch": 0.43333333333333335, "grad_norm": 6.440493106842041, "learning_rate": 4.3333333333333334e-05, "loss": 0.2306, "step": 130 }, { "epoch": 0.4666666666666667, "grad_norm": 3.979595422744751, "learning_rate": 4.666666666666667e-05, "loss": 0.1915, "step": 140 }, { "epoch": 0.5, "grad_norm": 14.703475952148438, "learning_rate": 5e-05, "loss": 0.2146, "step": 150 }, { "epoch": 0.5333333333333333, "grad_norm": 12.133000373840332, "learning_rate": 5.333333333333334e-05, "loss": 0.1677, "step": 160 }, { "epoch": 0.5666666666666667, "grad_norm": 3.946819305419922, "learning_rate": 5.6666666666666664e-05, "loss": 0.1136, "step": 170 }, { "epoch": 0.6, "grad_norm": 17.351539611816406, "learning_rate": 6e-05, "loss": 0.1685, "step": 180 }, { "epoch": 0.6333333333333333, "grad_norm": 8.088935852050781, "learning_rate": 6.333333333333335e-05, "loss": 0.2801, "step": 190 }, { "epoch": 0.6666666666666666, "grad_norm": 1.9004828929901123, "learning_rate": 6.666666666666667e-05, "loss": 0.1142, "step": 200 }, { "epoch": 0.7, "grad_norm": 22.632282257080078, "learning_rate": 7.000000000000001e-05, "loss": 0.1934, "step": 210 }, { "epoch": 0.7333333333333333, "grad_norm": 16.069622039794922, "learning_rate": 7.333333333333333e-05, "loss": 0.2116, "step": 220 }, { "epoch": 0.7666666666666667, "grad_norm": 4.640405178070068, "learning_rate": 7.666666666666667e-05, "loss": 0.2516, "step": 230 }, { "epoch": 0.8, "grad_norm": 21.024972915649414, "learning_rate": 8e-05, "loss": 0.2464, "step": 240 }, { "epoch": 0.8333333333333334, "grad_norm": 24.865827560424805, "learning_rate": 8.333333333333333e-05, "loss": 0.1282, "step": 250 }, { "epoch": 0.8666666666666667, "grad_norm": 57.33536911010742, "learning_rate": 8.666666666666667e-05, "loss": 0.1288, "step": 260 }, { "epoch": 0.9, "grad_norm": 2.9938220977783203, "learning_rate": 8.999999999999999e-05, "loss": 0.0878, "step": 270 }, { "epoch": 0.9333333333333333, "grad_norm": 5.010091781616211, "learning_rate": 9.333333333333334e-05, "loss": 0.0548, "step": 280 }, { "epoch": 0.9666666666666667, "grad_norm": 11.914796829223633, "learning_rate": 9.666666666666667e-05, "loss": 0.1699, "step": 290 }, { "epoch": 1.0, "grad_norm": 3.1874632835388184, "learning_rate": 0.0001, "loss": 0.1314, "step": 300 }, { "epoch": 1.0, "eval_accuracy": 0.965, "eval_f1": 0.9650526315789475, "eval_kappa": 0.9298878205128205, "eval_loss": 0.0974951758980751, "eval_precision": 0.9668427370948379, "eval_recall": 0.965, "eval_runtime": 7.3478, "eval_samples_per_second": 54.438, "eval_steps_per_second": 2.314, "step": 300 }, { "epoch": 1.0333333333333334, "grad_norm": 5.853661060333252, "learning_rate": 0.00010333333333333333, "loss": 0.1632, "step": 310 }, { "epoch": 1.0666666666666667, "grad_norm": 4.40404748916626, "learning_rate": 0.00010666666666666668, "loss": 0.179, "step": 320 }, { "epoch": 1.1, "grad_norm": 13.998967170715332, "learning_rate": 0.00011, "loss": 0.1205, "step": 330 }, { "epoch": 1.1333333333333333, "grad_norm": 2.588562488555908, "learning_rate": 0.00011333333333333333, "loss": 0.0696, "step": 340 }, { "epoch": 1.1666666666666667, "grad_norm": 58.213844299316406, "learning_rate": 0.00011666666666666667, "loss": 0.185, "step": 350 }, { "epoch": 1.2, "grad_norm": 0.5367558598518372, "learning_rate": 0.00012, "loss": 0.0978, "step": 360 }, { "epoch": 1.2333333333333334, "grad_norm": 5.09960412979126, "learning_rate": 0.00012333333333333334, "loss": 0.0441, "step": 370 }, { "epoch": 1.2666666666666666, "grad_norm": 8.864643096923828, "learning_rate": 0.0001266666666666667, "loss": 0.133, "step": 380 }, { "epoch": 1.3, "grad_norm": 18.213979721069336, "learning_rate": 0.00013000000000000002, "loss": 0.1125, "step": 390 }, { "epoch": 1.3333333333333333, "grad_norm": 43.96633529663086, "learning_rate": 0.00013333333333333334, "loss": 0.081, "step": 400 }, { "epoch": 1.3666666666666667, "grad_norm": 16.093639373779297, "learning_rate": 0.00013666666666666666, "loss": 0.2059, "step": 410 }, { "epoch": 1.4, "grad_norm": 5.3681182861328125, "learning_rate": 0.00014000000000000001, "loss": 0.1092, "step": 420 }, { "epoch": 1.4333333333333333, "grad_norm": 22.289615631103516, "learning_rate": 0.00014333333333333334, "loss": 0.1799, "step": 430 }, { "epoch": 1.4666666666666668, "grad_norm": 10.704950332641602, "learning_rate": 0.00014666666666666666, "loss": 0.0896, "step": 440 }, { "epoch": 1.5, "grad_norm": 9.731138229370117, "learning_rate": 0.00015, "loss": 0.084, "step": 450 }, { "epoch": 1.5333333333333332, "grad_norm": 73.84809875488281, "learning_rate": 0.00015333333333333334, "loss": 0.1068, "step": 460 }, { "epoch": 1.5666666666666667, "grad_norm": 11.718538284301758, "learning_rate": 0.0001566666666666667, "loss": 0.1381, "step": 470 }, { "epoch": 1.6, "grad_norm": 6.703563690185547, "learning_rate": 0.00016, "loss": 0.1447, "step": 480 }, { "epoch": 1.6333333333333333, "grad_norm": 0.5254905223846436, "learning_rate": 0.00016333333333333334, "loss": 0.1534, "step": 490 }, { "epoch": 1.6666666666666665, "grad_norm": 15.59839153289795, "learning_rate": 0.00016666666666666666, "loss": 0.0839, "step": 500 }, { "epoch": 1.7, "grad_norm": 51.54722595214844, "learning_rate": 0.00017, "loss": 0.0946, "step": 510 }, { "epoch": 1.7333333333333334, "grad_norm": 0.4045482277870178, "learning_rate": 0.00017333333333333334, "loss": 0.1094, "step": 520 }, { "epoch": 1.7666666666666666, "grad_norm": 1.8732757568359375, "learning_rate": 0.00017666666666666666, "loss": 0.0615, "step": 530 }, { "epoch": 1.8, "grad_norm": 2.8650341033935547, "learning_rate": 0.00017999999999999998, "loss": 0.0313, "step": 540 }, { "epoch": 1.8333333333333335, "grad_norm": 53.85961151123047, "learning_rate": 0.00018333333333333334, "loss": 0.2269, "step": 550 }, { "epoch": 1.8666666666666667, "grad_norm": 22.627843856811523, "learning_rate": 0.0001866666666666667, "loss": 0.1654, "step": 560 }, { "epoch": 1.9, "grad_norm": 26.226465225219727, "learning_rate": 0.00019, "loss": 0.0884, "step": 570 }, { "epoch": 1.9333333333333333, "grad_norm": 2.285435676574707, "learning_rate": 0.00019333333333333333, "loss": 0.1131, "step": 580 }, { "epoch": 1.9666666666666668, "grad_norm": 25.028507232666016, "learning_rate": 0.00019666666666666666, "loss": 0.1031, "step": 590 }, { "epoch": 2.0, "grad_norm": 0.4155627489089966, "learning_rate": 0.0002, "loss": 0.0514, "step": 600 }, { "epoch": 2.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924984425244319, "eval_kappa": 0.9848973016512284, "eval_loss": 0.032248713076114655, "eval_precision": 0.9925093802724686, "eval_recall": 0.9925, "eval_runtime": 7.4789, "eval_samples_per_second": 53.484, "eval_steps_per_second": 2.273, "step": 600 }, { "epoch": 2.033333333333333, "grad_norm": 11.480493545532227, "learning_rate": 0.00020333333333333333, "loss": 0.1238, "step": 610 }, { "epoch": 2.066666666666667, "grad_norm": 34.10750198364258, "learning_rate": 0.00020666666666666666, "loss": 0.1613, "step": 620 }, { "epoch": 2.1, "grad_norm": 59.7767333984375, "learning_rate": 0.00021, "loss": 0.153, "step": 630 }, { "epoch": 2.1333333333333333, "grad_norm": 0.030956873670220375, "learning_rate": 0.00021333333333333336, "loss": 0.0362, "step": 640 }, { "epoch": 2.1666666666666665, "grad_norm": 0.7113701105117798, "learning_rate": 0.00021666666666666668, "loss": 0.1279, "step": 650 }, { "epoch": 2.2, "grad_norm": 0.036753419786691666, "learning_rate": 0.00022, "loss": 0.0826, "step": 660 }, { "epoch": 2.2333333333333334, "grad_norm": 31.153987884521484, "learning_rate": 0.00022333333333333333, "loss": 0.0544, "step": 670 }, { "epoch": 2.2666666666666666, "grad_norm": 41.63099670410156, "learning_rate": 0.00022666666666666666, "loss": 0.1596, "step": 680 }, { "epoch": 2.3, "grad_norm": 16.148771286010742, "learning_rate": 0.00023, "loss": 0.3149, "step": 690 }, { "epoch": 2.3333333333333335, "grad_norm": 3.936267852783203, "learning_rate": 0.00023333333333333333, "loss": 0.087, "step": 700 }, { "epoch": 2.3666666666666667, "grad_norm": 10.360591888427734, "learning_rate": 0.00023666666666666668, "loss": 0.0539, "step": 710 }, { "epoch": 2.4, "grad_norm": 7.021051406860352, "learning_rate": 0.00024, "loss": 0.1349, "step": 720 }, { "epoch": 2.4333333333333336, "grad_norm": 19.7969913482666, "learning_rate": 0.00024333333333333336, "loss": 0.1902, "step": 730 }, { "epoch": 2.466666666666667, "grad_norm": 3.9114363193511963, "learning_rate": 0.0002466666666666667, "loss": 0.1267, "step": 740 }, { "epoch": 2.5, "grad_norm": 7.794479846954346, "learning_rate": 0.00025, "loss": 0.06, "step": 750 }, { "epoch": 2.533333333333333, "grad_norm": 6.126293659210205, "learning_rate": 0.0002533333333333334, "loss": 0.1415, "step": 760 }, { "epoch": 2.5666666666666664, "grad_norm": 37.84233474731445, "learning_rate": 0.00025666666666666665, "loss": 0.1258, "step": 770 }, { "epoch": 2.6, "grad_norm": 23.545204162597656, "learning_rate": 0.00026000000000000003, "loss": 0.171, "step": 780 }, { "epoch": 2.6333333333333333, "grad_norm": 28.475013732910156, "learning_rate": 0.0002633333333333333, "loss": 0.257, "step": 790 }, { "epoch": 2.6666666666666665, "grad_norm": 3.5256567001342773, "learning_rate": 0.0002666666666666667, "loss": 0.0947, "step": 800 }, { "epoch": 2.7, "grad_norm": 3.099149703979492, "learning_rate": 0.00027, "loss": 0.064, "step": 810 }, { "epoch": 2.7333333333333334, "grad_norm": 0.26131123304367065, "learning_rate": 0.00027333333333333333, "loss": 0.0546, "step": 820 }, { "epoch": 2.7666666666666666, "grad_norm": 12.054543495178223, "learning_rate": 0.00027666666666666665, "loss": 0.0212, "step": 830 }, { "epoch": 2.8, "grad_norm": 0.029533645138144493, "learning_rate": 0.00028000000000000003, "loss": 0.1015, "step": 840 }, { "epoch": 2.8333333333333335, "grad_norm": 15.776507377624512, "learning_rate": 0.00028333333333333335, "loss": 0.0697, "step": 850 }, { "epoch": 2.8666666666666667, "grad_norm": 27.243316650390625, "learning_rate": 0.0002866666666666667, "loss": 0.0792, "step": 860 }, { "epoch": 2.9, "grad_norm": 1.336427092552185, "learning_rate": 0.00029, "loss": 0.0692, "step": 870 }, { "epoch": 2.9333333333333336, "grad_norm": 0.8693376183509827, "learning_rate": 0.0002933333333333333, "loss": 0.1561, "step": 880 }, { "epoch": 2.966666666666667, "grad_norm": 23.98179054260254, "learning_rate": 0.0002966666666666667, "loss": 0.0723, "step": 890 }, { "epoch": 3.0, "grad_norm": 7.080474853515625, "learning_rate": 0.0003, "loss": 0.0331, "step": 900 }, { "epoch": 3.0, "eval_accuracy": 0.975, "eval_f1": 0.9749336434186909, "eval_kappa": 0.9494745351657236, "eval_loss": 0.07423003017902374, "eval_precision": 0.9761061946902655, "eval_recall": 0.975, "eval_runtime": 7.4439, "eval_samples_per_second": 53.735, "eval_steps_per_second": 2.284, "step": 900 }, { "epoch": 3.033333333333333, "grad_norm": 0.6346681714057922, "learning_rate": 0.00030333333333333335, "loss": 0.0951, "step": 910 }, { "epoch": 3.066666666666667, "grad_norm": 5.4937262535095215, "learning_rate": 0.0003066666666666667, "loss": 0.0309, "step": 920 }, { "epoch": 3.1, "grad_norm": 0.28873440623283386, "learning_rate": 0.00031, "loss": 0.0722, "step": 930 }, { "epoch": 3.1333333333333333, "grad_norm": 23.229862213134766, "learning_rate": 0.0003133333333333334, "loss": 0.1332, "step": 940 }, { "epoch": 3.1666666666666665, "grad_norm": 12.44790267944336, "learning_rate": 0.00031666666666666665, "loss": 0.1945, "step": 950 }, { "epoch": 3.2, "grad_norm": 24.034635543823242, "learning_rate": 0.00032, "loss": 0.0665, "step": 960 }, { "epoch": 3.2333333333333334, "grad_norm": 4.845742225646973, "learning_rate": 0.0003233333333333333, "loss": 0.1132, "step": 970 }, { "epoch": 3.2666666666666666, "grad_norm": 13.879509925842285, "learning_rate": 0.0003266666666666667, "loss": 0.1168, "step": 980 }, { "epoch": 3.3, "grad_norm": 0.8819650411605835, "learning_rate": 0.00033, "loss": 0.03, "step": 990 }, { "epoch": 3.3333333333333335, "grad_norm": 20.817033767700195, "learning_rate": 0.0003333333333333333, "loss": 0.1599, "step": 1000 }, { "epoch": 3.3666666666666667, "grad_norm": 0.08637402951717377, "learning_rate": 0.0003366666666666667, "loss": 0.0989, "step": 1010 }, { "epoch": 3.4, "grad_norm": 12.32111644744873, "learning_rate": 0.00034, "loss": 0.064, "step": 1020 }, { "epoch": 3.4333333333333336, "grad_norm": 4.319044589996338, "learning_rate": 0.00034333333333333335, "loss": 0.1845, "step": 1030 }, { "epoch": 3.466666666666667, "grad_norm": 4.642833232879639, "learning_rate": 0.00034666666666666667, "loss": 0.0245, "step": 1040 }, { "epoch": 3.5, "grad_norm": 4.123671531677246, "learning_rate": 0.00035, "loss": 0.0534, "step": 1050 }, { "epoch": 3.533333333333333, "grad_norm": 39.12535858154297, "learning_rate": 0.0003533333333333333, "loss": 0.2904, "step": 1060 }, { "epoch": 3.5666666666666664, "grad_norm": 0.37203097343444824, "learning_rate": 0.0003566666666666667, "loss": 0.1135, "step": 1070 }, { "epoch": 3.6, "grad_norm": 0.8821052312850952, "learning_rate": 0.00035999999999999997, "loss": 0.1018, "step": 1080 }, { "epoch": 3.6333333333333333, "grad_norm": 16.677507400512695, "learning_rate": 0.00036333333333333335, "loss": 0.1235, "step": 1090 }, { "epoch": 3.6666666666666665, "grad_norm": 1.3173631429672241, "learning_rate": 0.00036666666666666667, "loss": 0.0596, "step": 1100 }, { "epoch": 3.7, "grad_norm": 1.2510654926300049, "learning_rate": 0.00037, "loss": 0.0666, "step": 1110 }, { "epoch": 3.7333333333333334, "grad_norm": 14.92336654663086, "learning_rate": 0.0003733333333333334, "loss": 0.1338, "step": 1120 }, { "epoch": 3.7666666666666666, "grad_norm": 39.0262336730957, "learning_rate": 0.00037666666666666664, "loss": 0.0891, "step": 1130 }, { "epoch": 3.8, "grad_norm": 0.018070606514811516, "learning_rate": 0.00038, "loss": 0.031, "step": 1140 }, { "epoch": 3.8333333333333335, "grad_norm": 22.499074935913086, "learning_rate": 0.00038333333333333334, "loss": 0.0426, "step": 1150 }, { "epoch": 3.8666666666666667, "grad_norm": 8.244810104370117, "learning_rate": 0.00038666666666666667, "loss": 0.0845, "step": 1160 }, { "epoch": 3.9, "grad_norm": 2.2742626667022705, "learning_rate": 0.00039000000000000005, "loss": 0.0561, "step": 1170 }, { "epoch": 3.9333333333333336, "grad_norm": 0.7521847486495972, "learning_rate": 0.0003933333333333333, "loss": 0.0572, "step": 1180 }, { "epoch": 3.966666666666667, "grad_norm": 0.09927993267774582, "learning_rate": 0.0003966666666666667, "loss": 0.1111, "step": 1190 }, { "epoch": 4.0, "grad_norm": 18.968303680419922, "learning_rate": 0.0004, "loss": 0.1484, "step": 1200 }, { "epoch": 4.0, "eval_accuracy": 0.99, "eval_f1": 0.989990926504688, "eval_kappa": 0.9798387096774194, "eval_loss": 0.04373510926961899, "eval_precision": 0.9901818181818182, "eval_recall": 0.99, "eval_runtime": 7.4926, "eval_samples_per_second": 53.386, "eval_steps_per_second": 2.269, "step": 1200 }, { "epoch": 4.033333333333333, "grad_norm": 25.371929168701172, "learning_rate": 0.00040333333333333334, "loss": 0.0635, "step": 1210 }, { "epoch": 4.066666666666666, "grad_norm": 14.979025840759277, "learning_rate": 0.00040666666666666667, "loss": 0.2519, "step": 1220 }, { "epoch": 4.1, "grad_norm": 12.460908889770508, "learning_rate": 0.00041, "loss": 0.1177, "step": 1230 }, { "epoch": 4.133333333333334, "grad_norm": 1.3772943019866943, "learning_rate": 0.0004133333333333333, "loss": 0.0524, "step": 1240 }, { "epoch": 4.166666666666667, "grad_norm": 29.62944221496582, "learning_rate": 0.0004166666666666667, "loss": 0.0839, "step": 1250 }, { "epoch": 4.2, "grad_norm": 15.755326271057129, "learning_rate": 0.00042, "loss": 0.2239, "step": 1260 }, { "epoch": 4.233333333333333, "grad_norm": 2.076596975326538, "learning_rate": 0.00042333333333333334, "loss": 0.0918, "step": 1270 }, { "epoch": 4.266666666666667, "grad_norm": 3.272007703781128, "learning_rate": 0.0004266666666666667, "loss": 0.0529, "step": 1280 }, { "epoch": 4.3, "grad_norm": 1.8795185089111328, "learning_rate": 0.00043, "loss": 0.069, "step": 1290 }, { "epoch": 4.333333333333333, "grad_norm": 0.2725735902786255, "learning_rate": 0.00043333333333333337, "loss": 0.0404, "step": 1300 }, { "epoch": 4.366666666666666, "grad_norm": 28.226680755615234, "learning_rate": 0.00043666666666666664, "loss": 0.0561, "step": 1310 }, { "epoch": 4.4, "grad_norm": 5.252725601196289, "learning_rate": 0.00044, "loss": 0.1038, "step": 1320 }, { "epoch": 4.433333333333334, "grad_norm": 1.2938400506973267, "learning_rate": 0.00044333333333333334, "loss": 0.2152, "step": 1330 }, { "epoch": 4.466666666666667, "grad_norm": 9.768004417419434, "learning_rate": 0.00044666666666666666, "loss": 0.0891, "step": 1340 }, { "epoch": 4.5, "grad_norm": 0.7659115791320801, "learning_rate": 0.00045000000000000004, "loss": 0.0769, "step": 1350 }, { "epoch": 4.533333333333333, "grad_norm": 0.8454284071922302, "learning_rate": 0.0004533333333333333, "loss": 0.0795, "step": 1360 }, { "epoch": 4.566666666666666, "grad_norm": 19.232542037963867, "learning_rate": 0.0004566666666666667, "loss": 0.0874, "step": 1370 }, { "epoch": 4.6, "grad_norm": 20.568710327148438, "learning_rate": 0.00046, "loss": 0.0861, "step": 1380 }, { "epoch": 4.633333333333333, "grad_norm": 14.232442855834961, "learning_rate": 0.00046333333333333334, "loss": 0.0653, "step": 1390 }, { "epoch": 4.666666666666667, "grad_norm": 0.21883870661258698, "learning_rate": 0.00046666666666666666, "loss": 0.0606, "step": 1400 }, { "epoch": 4.7, "grad_norm": 6.472827911376953, "learning_rate": 0.00047, "loss": 0.0891, "step": 1410 }, { "epoch": 4.733333333333333, "grad_norm": 4.268059253692627, "learning_rate": 0.00047333333333333336, "loss": 0.0715, "step": 1420 }, { "epoch": 4.766666666666667, "grad_norm": 1.4576590061187744, "learning_rate": 0.0004766666666666667, "loss": 0.1292, "step": 1430 }, { "epoch": 4.8, "grad_norm": 36.225502014160156, "learning_rate": 0.00048, "loss": 0.154, "step": 1440 }, { "epoch": 4.833333333333333, "grad_norm": 0.5948257446289062, "learning_rate": 0.00048333333333333334, "loss": 0.0321, "step": 1450 }, { "epoch": 4.866666666666667, "grad_norm": 0.3781585693359375, "learning_rate": 0.0004866666666666667, "loss": 0.0378, "step": 1460 }, { "epoch": 4.9, "grad_norm": 16.30947494506836, "learning_rate": 0.00049, "loss": 0.1035, "step": 1470 }, { "epoch": 4.933333333333334, "grad_norm": 12.747450828552246, "learning_rate": 0.0004933333333333334, "loss": 0.0539, "step": 1480 }, { "epoch": 4.966666666666667, "grad_norm": 20.051815032958984, "learning_rate": 0.0004966666666666666, "loss": 0.097, "step": 1490 }, { "epoch": 5.0, "grad_norm": 1.6473357677459717, "learning_rate": 0.0005, "loss": 0.1261, "step": 1500 }, { "epoch": 5.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924984425244319, "eval_kappa": 0.9848973016512284, "eval_loss": 0.04971776530146599, "eval_precision": 0.9925093802724686, "eval_recall": 0.9925, "eval_runtime": 7.2832, "eval_samples_per_second": 54.921, "eval_steps_per_second": 2.334, "step": 1500 }, { "epoch": 5.033333333333333, "grad_norm": 0.21915239095687866, "learning_rate": 0.0004999995468502563, "loss": 0.1911, "step": 1510 }, { "epoch": 5.066666666666666, "grad_norm": 4.358417987823486, "learning_rate": 0.0004999981874026677, "loss": 0.1721, "step": 1520 }, { "epoch": 5.1, "grad_norm": 2.60898756980896, "learning_rate": 0.0004999959216621625, "loss": 0.0663, "step": 1530 }, { "epoch": 5.133333333333334, "grad_norm": 2.521845579147339, "learning_rate": 0.0004999927496369547, "loss": 0.0661, "step": 1540 }, { "epoch": 5.166666666666667, "grad_norm": 17.43767547607422, "learning_rate": 0.0004999886713385432, "loss": 0.0643, "step": 1550 }, { "epoch": 5.2, "grad_norm": 10.015254974365234, "learning_rate": 0.000499983686781713, "loss": 0.1634, "step": 1560 }, { "epoch": 5.233333333333333, "grad_norm": 14.734820365905762, "learning_rate": 0.0004999777959845337, "loss": 0.0929, "step": 1570 }, { "epoch": 5.266666666666667, "grad_norm": 18.222352981567383, "learning_rate": 0.0004999709989683607, "loss": 0.1415, "step": 1580 }, { "epoch": 5.3, "grad_norm": 4.770617961883545, "learning_rate": 0.0004999632957578349, "loss": 0.0573, "step": 1590 }, { "epoch": 5.333333333333333, "grad_norm": 31.683618545532227, "learning_rate": 0.0004999546863808815, "loss": 0.129, "step": 1600 }, { "epoch": 5.366666666666666, "grad_norm": 0.03848810866475105, "learning_rate": 0.0004999451708687113, "loss": 0.0678, "step": 1610 }, { "epoch": 5.4, "grad_norm": 0.01938723959028721, "learning_rate": 0.0004999347492558202, "loss": 0.1103, "step": 1620 }, { "epoch": 5.433333333333334, "grad_norm": 12.235125541687012, "learning_rate": 0.0004999234215799884, "loss": 0.2061, "step": 1630 }, { "epoch": 5.466666666666667, "grad_norm": 3.241697311401367, "learning_rate": 0.0004999111878822808, "loss": 0.0229, "step": 1640 }, { "epoch": 5.5, "grad_norm": 18.129112243652344, "learning_rate": 0.0004998980482070473, "loss": 0.1596, "step": 1650 }, { "epoch": 5.533333333333333, "grad_norm": 0.8510303497314453, "learning_rate": 0.0004998840026019216, "loss": 0.0243, "step": 1660 }, { "epoch": 5.566666666666666, "grad_norm": 0.5481222867965698, "learning_rate": 0.000499869051117822, "loss": 0.0365, "step": 1670 }, { "epoch": 5.6, "grad_norm": 0.0010958850616589189, "learning_rate": 0.0004998531938089503, "loss": 0.1484, "step": 1680 }, { "epoch": 5.633333333333333, "grad_norm": 8.034405708312988, "learning_rate": 0.0004998364307327927, "loss": 0.0568, "step": 1690 }, { "epoch": 5.666666666666667, "grad_norm": 2.918168544769287, "learning_rate": 0.0004998187619501184, "loss": 0.0234, "step": 1700 }, { "epoch": 5.7, "grad_norm": 7.948535442352295, "learning_rate": 0.0004998001875249804, "loss": 0.0457, "step": 1710 }, { "epoch": 5.733333333333333, "grad_norm": 1.4337245225906372, "learning_rate": 0.0004997807075247146, "loss": 0.1755, "step": 1720 }, { "epoch": 5.766666666666667, "grad_norm": 0.09344102442264557, "learning_rate": 0.0004997603220199398, "loss": 0.0266, "step": 1730 }, { "epoch": 5.8, "grad_norm": 29.620872497558594, "learning_rate": 0.0004997390310845578, "loss": 0.1196, "step": 1740 }, { "epoch": 5.833333333333333, "grad_norm": 0.45817267894744873, "learning_rate": 0.000499716834795752, "loss": 0.0245, "step": 1750 }, { "epoch": 5.866666666666667, "grad_norm": 22.253326416015625, "learning_rate": 0.0004996937332339887, "loss": 0.1039, "step": 1760 }, { "epoch": 5.9, "grad_norm": 20.02093505859375, "learning_rate": 0.0004996697264830153, "loss": 0.0605, "step": 1770 }, { "epoch": 5.933333333333334, "grad_norm": 6.386890888214111, "learning_rate": 0.0004996448146298614, "loss": 0.0826, "step": 1780 }, { "epoch": 5.966666666666667, "grad_norm": 1.342224359512329, "learning_rate": 0.0004996189977648372, "loss": 0.0278, "step": 1790 }, { "epoch": 6.0, "grad_norm": 0.06541286408901215, "learning_rate": 0.0004995922759815339, "loss": 0.0965, "step": 1800 }, { "epoch": 6.0, "eval_accuracy": 0.99, "eval_f1": 0.9900037712130737, "eval_kappa": 0.9798873692679002, "eval_loss": 0.031534310430288315, "eval_precision": 0.990057280675309, "eval_recall": 0.99, "eval_runtime": 7.3582, "eval_samples_per_second": 54.361, "eval_steps_per_second": 2.31, "step": 1800 }, { "epoch": 6.033333333333333, "grad_norm": 11.891799926757812, "learning_rate": 0.0004995646493768233, "loss": 0.1096, "step": 1810 }, { "epoch": 6.066666666666666, "grad_norm": 4.773056507110596, "learning_rate": 0.0004995361180508575, "loss": 0.0887, "step": 1820 }, { "epoch": 6.1, "grad_norm": 0.0633956715464592, "learning_rate": 0.0004995066821070679, "loss": 0.0595, "step": 1830 }, { "epoch": 6.133333333333334, "grad_norm": 1.1848310232162476, "learning_rate": 0.0004994763416521659, "loss": 0.0457, "step": 1840 }, { "epoch": 6.166666666666667, "grad_norm": 1.9995553493499756, "learning_rate": 0.0004994450967961413, "loss": 0.081, "step": 1850 }, { "epoch": 6.2, "grad_norm": 6.867255210876465, "learning_rate": 0.0004994129476522632, "loss": 0.0517, "step": 1860 }, { "epoch": 6.233333333333333, "grad_norm": 20.199514389038086, "learning_rate": 0.0004993798943370785, "loss": 0.0343, "step": 1870 }, { "epoch": 6.266666666666667, "grad_norm": 0.19586598873138428, "learning_rate": 0.0004993459369704121, "loss": 0.0611, "step": 1880 }, { "epoch": 6.3, "grad_norm": 21.155536651611328, "learning_rate": 0.0004993110756753659, "loss": 0.021, "step": 1890 }, { "epoch": 6.333333333333333, "grad_norm": 3.191210985183716, "learning_rate": 0.0004992753105783193, "loss": 0.2308, "step": 1900 }, { "epoch": 6.366666666666666, "grad_norm": 0.9887709617614746, "learning_rate": 0.0004992386418089279, "loss": 0.0864, "step": 1910 }, { "epoch": 6.4, "grad_norm": 27.715328216552734, "learning_rate": 0.0004992010695001229, "loss": 0.1266, "step": 1920 }, { "epoch": 6.433333333333334, "grad_norm": 10.004547119140625, "learning_rate": 0.0004991625937881116, "loss": 0.0841, "step": 1930 }, { "epoch": 6.466666666666667, "grad_norm": 0.22679829597473145, "learning_rate": 0.0004991232148123761, "loss": 0.0279, "step": 1940 }, { "epoch": 6.5, "grad_norm": 0.405646950006485, "learning_rate": 0.0004990829327156728, "loss": 0.0645, "step": 1950 }, { "epoch": 6.533333333333333, "grad_norm": 14.19960880279541, "learning_rate": 0.0004990417476440325, "loss": 0.0783, "step": 1960 }, { "epoch": 6.566666666666666, "grad_norm": 10.112009048461914, "learning_rate": 0.0004989996597467591, "loss": 0.0241, "step": 1970 }, { "epoch": 6.6, "grad_norm": 34.6565055847168, "learning_rate": 0.0004989566691764295, "loss": 0.0517, "step": 1980 }, { "epoch": 6.633333333333333, "grad_norm": 0.17711442708969116, "learning_rate": 0.0004989127760888931, "loss": 0.0669, "step": 1990 }, { "epoch": 6.666666666666667, "grad_norm": 8.408811569213867, "learning_rate": 0.0004988679806432712, "loss": 0.0336, "step": 2000 }, { "epoch": 6.7, "grad_norm": 0.44612711668014526, "learning_rate": 0.0004988222830019559, "loss": 0.0445, "step": 2010 }, { "epoch": 6.733333333333333, "grad_norm": 19.24823570251465, "learning_rate": 0.0004987756833306102, "loss": 0.0573, "step": 2020 }, { "epoch": 6.766666666666667, "grad_norm": 3.0871477127075195, "learning_rate": 0.0004987281817981674, "loss": 0.0759, "step": 2030 }, { "epoch": 6.8, "grad_norm": 9.81881332397461, "learning_rate": 0.0004986797785768297, "loss": 0.0194, "step": 2040 }, { "epoch": 6.833333333333333, "grad_norm": 0.020128833130002022, "learning_rate": 0.0004986304738420684, "loss": 0.1081, "step": 2050 }, { "epoch": 6.866666666666667, "grad_norm": 14.229121208190918, "learning_rate": 0.000498580267772623, "loss": 0.1216, "step": 2060 }, { "epoch": 6.9, "grad_norm": 10.793590545654297, "learning_rate": 0.0004985291605505004, "loss": 0.0393, "step": 2070 }, { "epoch": 6.933333333333334, "grad_norm": 34.25983428955078, "learning_rate": 0.0004984771523609743, "loss": 0.1162, "step": 2080 }, { "epoch": 6.966666666666667, "grad_norm": 1.280573844909668, "learning_rate": 0.0004984242433925849, "loss": 0.0228, "step": 2090 }, { "epoch": 7.0, "grad_norm": 5.426878452301025, "learning_rate": 0.0004983704338371376, "loss": 0.0198, "step": 2100 }, { "epoch": 7.0, "eval_accuracy": 0.995, "eval_f1": 0.9949978595351413, "eval_kappa": 0.9899274778404512, "eval_loss": 0.013717448338866234, "eval_precision": 0.9950458715596331, "eval_recall": 0.995, "eval_runtime": 7.3893, "eval_samples_per_second": 54.132, "eval_steps_per_second": 2.301, "step": 2100 }, { "epoch": 7.033333333333333, "grad_norm": 0.8536394238471985, "learning_rate": 0.0004983157238897026, "loss": 0.0459, "step": 2110 }, { "epoch": 7.066666666666666, "grad_norm": 11.758991241455078, "learning_rate": 0.0004982601137486143, "loss": 0.0732, "step": 2120 }, { "epoch": 7.1, "grad_norm": 0.6861909627914429, "learning_rate": 0.0004982036036154706, "loss": 0.1708, "step": 2130 }, { "epoch": 7.133333333333334, "grad_norm": 0.11518755555152893, "learning_rate": 0.0004981461936951319, "loss": 0.0295, "step": 2140 }, { "epoch": 7.166666666666667, "grad_norm": 0.07353509962558746, "learning_rate": 0.0004980878841957203, "loss": 0.0511, "step": 2150 }, { "epoch": 7.2, "grad_norm": 0.008462195284664631, "learning_rate": 0.0004980286753286195, "loss": 0.0061, "step": 2160 }, { "epoch": 7.233333333333333, "grad_norm": 1.4422004222869873, "learning_rate": 0.0004979685673084733, "loss": 0.0977, "step": 2170 }, { "epoch": 7.266666666666667, "grad_norm": 0.00832983199506998, "learning_rate": 0.0004979075603531852, "loss": 0.0615, "step": 2180 }, { "epoch": 7.3, "grad_norm": 8.086910247802734, "learning_rate": 0.0004978456546839174, "loss": 0.0474, "step": 2190 }, { "epoch": 7.333333333333333, "grad_norm": 10.531082153320312, "learning_rate": 0.0004977828505250904, "loss": 0.0291, "step": 2200 }, { "epoch": 7.366666666666666, "grad_norm": 0.0030356640927493572, "learning_rate": 0.0004977191481043814, "loss": 0.0801, "step": 2210 }, { "epoch": 7.4, "grad_norm": 0.24155472218990326, "learning_rate": 0.0004976545476527245, "loss": 0.0406, "step": 2220 }, { "epoch": 7.433333333333334, "grad_norm": 14.044878959655762, "learning_rate": 0.0004975890494043092, "loss": 0.2774, "step": 2230 }, { "epoch": 7.466666666666667, "grad_norm": 15.277134895324707, "learning_rate": 0.0004975226535965794, "loss": 0.0467, "step": 2240 }, { "epoch": 7.5, "grad_norm": 11.408771514892578, "learning_rate": 0.0004974553604702333, "loss": 0.1214, "step": 2250 }, { "epoch": 7.533333333333333, "grad_norm": 25.75912857055664, "learning_rate": 0.0004973871702692214, "loss": 0.0689, "step": 2260 }, { "epoch": 7.566666666666666, "grad_norm": 5.471491813659668, "learning_rate": 0.0004973180832407472, "loss": 0.004, "step": 2270 }, { "epoch": 7.6, "grad_norm": 0.7957646250724792, "learning_rate": 0.0004972480996352644, "loss": 0.1066, "step": 2280 }, { "epoch": 7.633333333333333, "grad_norm": 0.13768936693668365, "learning_rate": 0.0004971772197064775, "loss": 0.0636, "step": 2290 }, { "epoch": 7.666666666666667, "grad_norm": 0.004563705530017614, "learning_rate": 0.0004971054437113406, "loss": 0.0168, "step": 2300 }, { "epoch": 7.7, "grad_norm": 24.983537673950195, "learning_rate": 0.0004970327719100556, "loss": 0.0853, "step": 2310 }, { "epoch": 7.733333333333333, "grad_norm": 2.120246648788452, "learning_rate": 0.0004969592045660722, "loss": 0.0859, "step": 2320 }, { "epoch": 7.766666666666667, "grad_norm": 15.012920379638672, "learning_rate": 0.0004968847419460867, "loss": 0.0281, "step": 2330 }, { "epoch": 7.8, "grad_norm": 12.018982887268066, "learning_rate": 0.0004968093843200407, "loss": 0.0273, "step": 2340 }, { "epoch": 7.833333333333333, "grad_norm": 14.459258079528809, "learning_rate": 0.0004967331319611206, "loss": 0.1001, "step": 2350 }, { "epoch": 7.866666666666667, "grad_norm": 27.96418571472168, "learning_rate": 0.0004966559851457562, "loss": 0.0954, "step": 2360 }, { "epoch": 7.9, "grad_norm": 0.1574789136648178, "learning_rate": 0.0004965779441536201, "loss": 0.0795, "step": 2370 }, { "epoch": 7.933333333333334, "grad_norm": 0.44669950008392334, "learning_rate": 0.0004964990092676262, "loss": 0.03, "step": 2380 }, { "epoch": 7.966666666666667, "grad_norm": 0.3899398446083069, "learning_rate": 0.0004964191807739293, "loss": 0.0459, "step": 2390 }, { "epoch": 8.0, "grad_norm": 2.4037952423095703, "learning_rate": 0.0004963384589619233, "loss": 0.016, "step": 2400 }, { "epoch": 8.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924984425244319, "eval_kappa": 0.9848973016512284, "eval_loss": 0.009391581639647484, "eval_precision": 0.9925093802724686, "eval_recall": 0.9925, "eval_runtime": 7.3286, "eval_samples_per_second": 54.581, "eval_steps_per_second": 2.32, "step": 2400 }, { "epoch": 8.033333333333333, "grad_norm": 18.691381454467773, "learning_rate": 0.0004962568441242408, "loss": 0.0886, "step": 2410 }, { "epoch": 8.066666666666666, "grad_norm": 0.7050238251686096, "learning_rate": 0.0004961743365567517, "loss": 0.0191, "step": 2420 }, { "epoch": 8.1, "grad_norm": 0.16664516925811768, "learning_rate": 0.0004960909365585624, "loss": 0.0635, "step": 2430 }, { "epoch": 8.133333333333333, "grad_norm": 0.9202438592910767, "learning_rate": 0.0004960066444320143, "loss": 0.0296, "step": 2440 }, { "epoch": 8.166666666666666, "grad_norm": 0.17928561568260193, "learning_rate": 0.0004959214604826831, "loss": 0.0237, "step": 2450 }, { "epoch": 8.2, "grad_norm": 0.00436717364937067, "learning_rate": 0.0004958353850193773, "loss": 0.0007, "step": 2460 }, { "epoch": 8.233333333333333, "grad_norm": 23.427932739257812, "learning_rate": 0.0004957484183541377, "loss": 0.0538, "step": 2470 }, { "epoch": 8.266666666666667, "grad_norm": 0.4889396131038666, "learning_rate": 0.0004956605608022357, "loss": 0.091, "step": 2480 }, { "epoch": 8.3, "grad_norm": 53.982887268066406, "learning_rate": 0.0004955718126821722, "loss": 0.0239, "step": 2490 }, { "epoch": 8.333333333333334, "grad_norm": 0.060606587678194046, "learning_rate": 0.0004954821743156767, "loss": 0.0367, "step": 2500 }, { "epoch": 8.366666666666667, "grad_norm": 0.0266529843211174, "learning_rate": 0.000495391646027706, "loss": 0.0489, "step": 2510 }, { "epoch": 8.4, "grad_norm": 0.733482301235199, "learning_rate": 0.0004953002281464432, "loss": 0.1085, "step": 2520 }, { "epoch": 8.433333333333334, "grad_norm": 0.002645180793479085, "learning_rate": 0.0004952079210032961, "loss": 0.0542, "step": 2530 }, { "epoch": 8.466666666666667, "grad_norm": 0.02045312523841858, "learning_rate": 0.0004951147249328964, "loss": 0.1004, "step": 2540 }, { "epoch": 8.5, "grad_norm": 0.25311747193336487, "learning_rate": 0.0004950206402730983, "loss": 0.0064, "step": 2550 }, { "epoch": 8.533333333333333, "grad_norm": 14.137146949768066, "learning_rate": 0.0004949256673649774, "loss": 0.0736, "step": 2560 }, { "epoch": 8.566666666666666, "grad_norm": 18.044233322143555, "learning_rate": 0.0004948298065528292, "loss": 0.043, "step": 2570 }, { "epoch": 8.6, "grad_norm": 0.20478780567646027, "learning_rate": 0.000494733058184168, "loss": 0.0476, "step": 2580 }, { "epoch": 8.633333333333333, "grad_norm": 0.0009861149592325091, "learning_rate": 0.0004946354226097261, "loss": 0.0541, "step": 2590 }, { "epoch": 8.666666666666666, "grad_norm": 4.064932346343994, "learning_rate": 0.0004945369001834514, "loss": 0.015, "step": 2600 }, { "epoch": 8.7, "grad_norm": 12.540112495422363, "learning_rate": 0.0004944374912625076, "loss": 0.0594, "step": 2610 }, { "epoch": 8.733333333333333, "grad_norm": 0.008549841120839119, "learning_rate": 0.0004943371962072713, "loss": 0.0707, "step": 2620 }, { "epoch": 8.766666666666667, "grad_norm": 1.925380825996399, "learning_rate": 0.0004942360153813324, "loss": 0.0297, "step": 2630 }, { "epoch": 8.8, "grad_norm": 1.1041579246520996, "learning_rate": 0.0004941339491514909, "loss": 0.0976, "step": 2640 }, { "epoch": 8.833333333333334, "grad_norm": 0.7771681547164917, "learning_rate": 0.0004940309978877575, "loss": 0.0169, "step": 2650 }, { "epoch": 8.866666666666667, "grad_norm": 11.451831817626953, "learning_rate": 0.0004939271619633507, "loss": 0.0108, "step": 2660 }, { "epoch": 8.9, "grad_norm": 0.0025792683009058237, "learning_rate": 0.0004938224417546965, "loss": 0.0252, "step": 2670 }, { "epoch": 8.933333333333334, "grad_norm": 0.5602428317070007, "learning_rate": 0.0004937168376414261, "loss": 0.0203, "step": 2680 }, { "epoch": 8.966666666666667, "grad_norm": 0.026095090433955193, "learning_rate": 0.0004936103500063755, "loss": 0.0331, "step": 2690 }, { "epoch": 9.0, "grad_norm": 0.06067637726664543, "learning_rate": 0.0004935029792355834, "loss": 0.1923, "step": 2700 }, { "epoch": 9.0, "eval_accuracy": 0.9875, "eval_f1": 0.9875068327898516, "eval_kappa": 0.9748693204664254, "eval_loss": 0.028073739260435104, "eval_precision": 0.987625216539881, "eval_recall": 0.9875, "eval_runtime": 7.3626, "eval_samples_per_second": 54.329, "eval_steps_per_second": 2.309, "step": 2700 }, { "epoch": 9.033333333333333, "grad_norm": 0.19523067772388458, "learning_rate": 0.0004933947257182901, "loss": 0.0199, "step": 2710 }, { "epoch": 9.066666666666666, "grad_norm": 3.053314208984375, "learning_rate": 0.000493285589846936, "loss": 0.0068, "step": 2720 }, { "epoch": 9.1, "grad_norm": 0.22583183646202087, "learning_rate": 0.0004931755720171603, "loss": 0.0929, "step": 2730 }, { "epoch": 9.133333333333333, "grad_norm": 0.2969551086425781, "learning_rate": 0.0004930646726277994, "loss": 0.0073, "step": 2740 }, { "epoch": 9.166666666666666, "grad_norm": 1.7761553525924683, "learning_rate": 0.0004929528920808855, "loss": 0.0699, "step": 2750 }, { "epoch": 9.2, "grad_norm": 35.166629791259766, "learning_rate": 0.0004928402307816451, "loss": 0.0186, "step": 2760 }, { "epoch": 9.233333333333333, "grad_norm": 2.6943020820617676, "learning_rate": 0.000492726689138498, "loss": 0.0249, "step": 2770 }, { "epoch": 9.266666666666667, "grad_norm": 15.054105758666992, "learning_rate": 0.0004926122675630548, "loss": 0.04, "step": 2780 }, { "epoch": 9.3, "grad_norm": 0.00670548714697361, "learning_rate": 0.0004924969664701168, "loss": 0.0222, "step": 2790 }, { "epoch": 9.333333333333334, "grad_norm": 3.6571757793426514, "learning_rate": 0.0004923807862776728, "loss": 0.0185, "step": 2800 }, { "epoch": 9.366666666666667, "grad_norm": 0.4846095144748688, "learning_rate": 0.0004922637274068993, "loss": 0.0069, "step": 2810 }, { "epoch": 9.4, "grad_norm": 0.04100838676095009, "learning_rate": 0.0004921457902821578, "loss": 0.0038, "step": 2820 }, { "epoch": 9.433333333333334, "grad_norm": 0.06146049499511719, "learning_rate": 0.0004920269753309937, "loss": 0.0594, "step": 2830 }, { "epoch": 9.466666666666667, "grad_norm": 32.66959762573242, "learning_rate": 0.0004919072829841347, "loss": 0.0733, "step": 2840 }, { "epoch": 9.5, "grad_norm": 13.61474609375, "learning_rate": 0.0004917867136754893, "loss": 0.1538, "step": 2850 }, { "epoch": 9.533333333333333, "grad_norm": 0.23982226848602295, "learning_rate": 0.000491665267842145, "loss": 0.1145, "step": 2860 }, { "epoch": 9.566666666666666, "grad_norm": 4.305579662322998, "learning_rate": 0.0004915429459243672, "loss": 0.0113, "step": 2870 }, { "epoch": 9.6, "grad_norm": 0.8647874593734741, "learning_rate": 0.000491419748365597, "loss": 0.1841, "step": 2880 }, { "epoch": 9.633333333333333, "grad_norm": 9.716819763183594, "learning_rate": 0.0004912956756124498, "loss": 0.0264, "step": 2890 }, { "epoch": 9.666666666666666, "grad_norm": 7.745243549346924, "learning_rate": 0.000491170728114714, "loss": 0.0088, "step": 2900 }, { "epoch": 9.7, "grad_norm": 1.824566125869751, "learning_rate": 0.0004910449063253489, "loss": 0.0947, "step": 2910 }, { "epoch": 9.733333333333333, "grad_norm": 1.2929129600524902, "learning_rate": 0.0004909182107004834, "loss": 0.0421, "step": 2920 }, { "epoch": 9.766666666666667, "grad_norm": 4.2170281410217285, "learning_rate": 0.0004907906416994146, "loss": 0.1019, "step": 2930 }, { "epoch": 9.8, "grad_norm": 1.5145924091339111, "learning_rate": 0.0004906621997846049, "loss": 0.0748, "step": 2940 }, { "epoch": 9.833333333333334, "grad_norm": 29.543188095092773, "learning_rate": 0.0004905328854216818, "loss": 0.0423, "step": 2950 }, { "epoch": 9.866666666666667, "grad_norm": 0.030437791720032692, "learning_rate": 0.0004904026990794355, "loss": 0.0316, "step": 2960 }, { "epoch": 9.9, "grad_norm": 0.0006298078806139529, "learning_rate": 0.0004902716412298174, "loss": 0.0251, "step": 2970 }, { "epoch": 9.933333333333334, "grad_norm": 0.7163373231887817, "learning_rate": 0.000490139712347938, "loss": 0.0319, "step": 2980 }, { "epoch": 9.966666666666667, "grad_norm": 1.6022979021072388, "learning_rate": 0.0004900069129120655, "loss": 0.0531, "step": 2990 }, { "epoch": 10.0, "grad_norm": 0.18895569443702698, "learning_rate": 0.0004898732434036243, "loss": 0.0318, "step": 3000 }, { "epoch": 10.0, "eval_accuracy": 0.995, "eval_f1": 0.9949978595351413, "eval_kappa": 0.9899274778404512, "eval_loss": 0.02089308761060238, "eval_precision": 0.9950458715596331, "eval_recall": 0.995, "eval_runtime": 7.4318, "eval_samples_per_second": 53.823, "eval_steps_per_second": 2.287, "step": 3000 }, { "epoch": 10.033333333333333, "grad_norm": 17.70781135559082, "learning_rate": 0.000489738704307193, "loss": 0.0229, "step": 3010 }, { "epoch": 10.066666666666666, "grad_norm": 0.03209957107901573, "learning_rate": 0.000489603296110502, "loss": 0.0077, "step": 3020 }, { "epoch": 10.1, "grad_norm": 1.0363398790359497, "learning_rate": 0.0004894670193044332, "loss": 0.0899, "step": 3030 }, { "epoch": 10.133333333333333, "grad_norm": 0.20282617211341858, "learning_rate": 0.0004893298743830168, "loss": 0.0265, "step": 3040 }, { "epoch": 10.166666666666666, "grad_norm": 0.004087963607162237, "learning_rate": 0.0004891918618434304, "loss": 0.01, "step": 3050 }, { "epoch": 10.2, "grad_norm": 0.07597868889570236, "learning_rate": 0.0004890529821859968, "loss": 0.0049, "step": 3060 }, { "epoch": 10.233333333333333, "grad_norm": 4.141262531280518, "learning_rate": 0.0004889132359141822, "loss": 0.0525, "step": 3070 }, { "epoch": 10.266666666666667, "grad_norm": 5.220034122467041, "learning_rate": 0.0004887726235345942, "loss": 0.0373, "step": 3080 }, { "epoch": 10.3, "grad_norm": 0.994594156742096, "learning_rate": 0.0004886311455569811, "loss": 0.0195, "step": 3090 }, { "epoch": 10.333333333333334, "grad_norm": 10.113892555236816, "learning_rate": 0.0004884888024942282, "loss": 0.0217, "step": 3100 }, { "epoch": 10.366666666666667, "grad_norm": 0.008713426068425179, "learning_rate": 0.0004883455948623573, "loss": 0.0918, "step": 3110 }, { "epoch": 10.4, "grad_norm": 11.263032913208008, "learning_rate": 0.00048820152318052447, "loss": 0.0217, "step": 3120 }, { "epoch": 10.433333333333334, "grad_norm": 0.07357630878686905, "learning_rate": 0.000488056587971018, "loss": 0.1833, "step": 3130 }, { "epoch": 10.466666666666667, "grad_norm": 0.03532209247350693, "learning_rate": 0.00048791078975925694, "loss": 0.0174, "step": 3140 }, { "epoch": 10.5, "grad_norm": 0.022222023457288742, "learning_rate": 0.0004877641290737884, "loss": 0.0047, "step": 3150 }, { "epoch": 10.533333333333333, "grad_norm": 0.18489806354045868, "learning_rate": 0.00048761660644628654, "loss": 0.0136, "step": 3160 }, { "epoch": 10.566666666666666, "grad_norm": 0.00013999214570503682, "learning_rate": 0.00048746822241155, "loss": 0.0783, "step": 3170 }, { "epoch": 10.6, "grad_norm": 0.05402855575084686, "learning_rate": 0.00048731897750750044, "loss": 0.1268, "step": 3180 }, { "epoch": 10.633333333333333, "grad_norm": 0.3978906273841858, "learning_rate": 0.00048716887227517994, "loss": 0.0013, "step": 3190 }, { "epoch": 10.666666666666666, "grad_norm": 0.0717267394065857, "learning_rate": 0.0004870179072587499, "loss": 0.0009, "step": 3200 }, { "epoch": 10.7, "grad_norm": 1.2164305448532104, "learning_rate": 0.0004868660830054883, "loss": 0.0317, "step": 3210 }, { "epoch": 10.733333333333333, "grad_norm": 0.06170390173792839, "learning_rate": 0.000486713400065788, "loss": 0.1632, "step": 3220 }, { "epoch": 10.766666666666667, "grad_norm": 0.0237569622695446, "learning_rate": 0.00048655985899315516, "loss": 0.0056, "step": 3230 }, { "epoch": 10.8, "grad_norm": 11.921058654785156, "learning_rate": 0.00048640546034420625, "loss": 0.0592, "step": 3240 }, { "epoch": 10.833333333333334, "grad_norm": 0.023388676345348358, "learning_rate": 0.0004862502046786671, "loss": 0.0057, "step": 3250 }, { "epoch": 10.866666666666667, "grad_norm": 0.004828088451176882, "learning_rate": 0.0004860940925593703, "loss": 0.0587, "step": 3260 }, { "epoch": 10.9, "grad_norm": 0.010196227580308914, "learning_rate": 0.00048593712455225304, "loss": 0.1446, "step": 3270 }, { "epoch": 10.933333333333334, "grad_norm": 1.6788548231124878, "learning_rate": 0.0004857793012263554, "loss": 0.0254, "step": 3280 }, { "epoch": 10.966666666666667, "grad_norm": 0.003925603814423084, "learning_rate": 0.0004856206231538184, "loss": 0.0493, "step": 3290 }, { "epoch": 11.0, "grad_norm": 8.052026748657227, "learning_rate": 0.0004854610909098812, "loss": 0.0944, "step": 3300 }, { "epoch": 11.0, "eval_accuracy": 0.9975, "eval_f1": 0.9975004873018568, "eval_kappa": 0.9949698189134809, "eval_loss": 0.015911616384983063, "eval_precision": 0.9975135135135136, "eval_recall": 0.9975, "eval_runtime": 7.3757, "eval_samples_per_second": 54.232, "eval_steps_per_second": 2.305, "step": 3300 }, { "epoch": 11.033333333333333, "grad_norm": 2.871225357055664, "learning_rate": 0.00048530070507287994, "loss": 0.0121, "step": 3310 }, { "epoch": 11.066666666666666, "grad_norm": 0.5825998187065125, "learning_rate": 0.00048513946622424486, "loss": 0.0307, "step": 3320 }, { "epoch": 11.1, "grad_norm": 0.0036350239533931017, "learning_rate": 0.00048497737494849894, "loss": 0.0342, "step": 3330 }, { "epoch": 11.133333333333333, "grad_norm": 0.008223793469369411, "learning_rate": 0.0004848144318332549, "loss": 0.023, "step": 3340 }, { "epoch": 11.166666666666666, "grad_norm": 0.03048713505268097, "learning_rate": 0.00048465063746921396, "loss": 0.0458, "step": 3350 }, { "epoch": 11.2, "grad_norm": 3.248398542404175, "learning_rate": 0.000484485992450163, "loss": 0.0071, "step": 3360 }, { "epoch": 11.233333333333333, "grad_norm": 0.0007288438500836492, "learning_rate": 0.0004843204973729729, "loss": 0.0216, "step": 3370 }, { "epoch": 11.266666666666667, "grad_norm": 0.02933153323829174, "learning_rate": 0.000484154152837596, "loss": 0.1388, "step": 3380 }, { "epoch": 11.3, "grad_norm": 19.944454193115234, "learning_rate": 0.00048398695944706417, "loss": 0.0199, "step": 3390 }, { "epoch": 11.333333333333334, "grad_norm": 0.01811784878373146, "learning_rate": 0.00048381891780748665, "loss": 0.0018, "step": 3400 }, { "epoch": 11.366666666666667, "grad_norm": 1.3311184644699097, "learning_rate": 0.0004836500285280475, "loss": 0.0084, "step": 3410 }, { "epoch": 11.4, "grad_norm": 0.023560378700494766, "learning_rate": 0.0004834802922210039, "loss": 0.0131, "step": 3420 }, { "epoch": 11.433333333333334, "grad_norm": 0.14196720719337463, "learning_rate": 0.0004833097095016835, "loss": 0.0643, "step": 3430 }, { "epoch": 11.466666666666667, "grad_norm": 0.022539904341101646, "learning_rate": 0.0004831382809884825, "loss": 0.0072, "step": 3440 }, { "epoch": 11.5, "grad_norm": 0.002136025344952941, "learning_rate": 0.0004829660073028631, "loss": 0.0148, "step": 3450 }, { "epoch": 11.533333333333333, "grad_norm": 0.015343907289206982, "learning_rate": 0.0004827928890693515, "loss": 0.0686, "step": 3460 }, { "epoch": 11.566666666666666, "grad_norm": 0.2076902538537979, "learning_rate": 0.00048261892691553573, "loss": 0.0235, "step": 3470 }, { "epoch": 11.6, "grad_norm": 7.497281551361084, "learning_rate": 0.00048244412147206283, "loss": 0.0197, "step": 3480 }, { "epoch": 11.633333333333333, "grad_norm": 0.543480634689331, "learning_rate": 0.0004822684733726373, "loss": 0.0415, "step": 3490 }, { "epoch": 11.666666666666666, "grad_norm": 7.600778102874756, "learning_rate": 0.00048209198325401817, "loss": 0.0165, "step": 3500 }, { "epoch": 11.7, "grad_norm": 28.45496368408203, "learning_rate": 0.00048191465175601706, "loss": 0.0572, "step": 3510 }, { "epoch": 11.733333333333333, "grad_norm": 0.8768689036369324, "learning_rate": 0.0004817364795214958, "loss": 0.0068, "step": 3520 }, { "epoch": 11.766666666666667, "grad_norm": 0.0015293970936909318, "learning_rate": 0.00048155746719636403, "loss": 0.0524, "step": 3530 }, { "epoch": 11.8, "grad_norm": 0.21707843244075775, "learning_rate": 0.0004813776154295767, "loss": 0.0544, "step": 3540 }, { "epoch": 11.833333333333334, "grad_norm": 2.173311948776245, "learning_rate": 0.00048119692487313227, "loss": 0.0461, "step": 3550 }, { "epoch": 11.866666666666667, "grad_norm": 0.029398364946246147, "learning_rate": 0.0004810153961820697, "loss": 0.0251, "step": 3560 }, { "epoch": 11.9, "grad_norm": 0.07431753724813461, "learning_rate": 0.00048083303001446645, "loss": 0.0162, "step": 3570 }, { "epoch": 11.933333333333334, "grad_norm": 12.078067779541016, "learning_rate": 0.0004806498270314359, "loss": 0.0503, "step": 3580 }, { "epoch": 11.966666666666667, "grad_norm": 1.0195358991622925, "learning_rate": 0.00048046578789712516, "loss": 0.014, "step": 3590 }, { "epoch": 12.0, "grad_norm": 0.003098301822319627, "learning_rate": 0.00048028091327871256, "loss": 0.0229, "step": 3600 }, { "epoch": 12.0, "eval_accuracy": 0.995, "eval_f1": 0.9950018856065367, "eval_kappa": 0.9899436846339501, "eval_loss": 0.007985816337168217, "eval_precision": 0.9950537634408602, "eval_recall": 0.995, "eval_runtime": 7.4244, "eval_samples_per_second": 53.877, "eval_steps_per_second": 2.29, "step": 3600 }, { "epoch": 12.033333333333333, "grad_norm": 0.14159473776817322, "learning_rate": 0.00048009520384640513, "loss": 0.0303, "step": 3610 }, { "epoch": 12.066666666666666, "grad_norm": 3.98813796043396, "learning_rate": 0.0004799086602734364, "loss": 0.0183, "step": 3620 }, { "epoch": 12.1, "grad_norm": 0.06656892597675323, "learning_rate": 0.0004797212832360637, "loss": 0.0056, "step": 3630 }, { "epoch": 12.133333333333333, "grad_norm": 0.39640679955482483, "learning_rate": 0.0004795330734135659, "loss": 0.0314, "step": 3640 }, { "epoch": 12.166666666666666, "grad_norm": 0.09042102843523026, "learning_rate": 0.00047934403148824087, "loss": 0.0424, "step": 3650 }, { "epoch": 12.2, "grad_norm": 0.0011783058289438486, "learning_rate": 0.000479154158145403, "loss": 0.0301, "step": 3660 }, { "epoch": 12.233333333333333, "grad_norm": 16.78108787536621, "learning_rate": 0.0004789634540733807, "loss": 0.0181, "step": 3670 }, { "epoch": 12.266666666666667, "grad_norm": 0.0844041258096695, "learning_rate": 0.00047877191996351397, "loss": 0.0575, "step": 3680 }, { "epoch": 12.3, "grad_norm": 0.0004439417680259794, "learning_rate": 0.00047857955651015195, "loss": 0.0118, "step": 3690 }, { "epoch": 12.333333333333334, "grad_norm": 0.00219926075078547, "learning_rate": 0.0004783863644106502, "loss": 0.0429, "step": 3700 }, { "epoch": 12.366666666666667, "grad_norm": 0.04280629754066467, "learning_rate": 0.0004781923443653684, "loss": 0.0268, "step": 3710 }, { "epoch": 12.4, "grad_norm": 0.11606118083000183, "learning_rate": 0.00047799749707766746, "loss": 0.019, "step": 3720 }, { "epoch": 12.433333333333334, "grad_norm": 0.3587077856063843, "learning_rate": 0.0004778018232539075, "loss": 0.1508, "step": 3730 }, { "epoch": 12.466666666666667, "grad_norm": 0.012295096181333065, "learning_rate": 0.0004776053236034449, "loss": 0.0567, "step": 3740 }, { "epoch": 12.5, "grad_norm": 4.565114068100229e-05, "learning_rate": 0.0004774079988386296, "loss": 0.0249, "step": 3750 }, { "epoch": 12.533333333333333, "grad_norm": 0.003383655333891511, "learning_rate": 0.0004772098496748031, "loss": 0.0433, "step": 3760 }, { "epoch": 12.566666666666666, "grad_norm": 0.004308935720473528, "learning_rate": 0.00047701087683029526, "loss": 0.0075, "step": 3770 }, { "epoch": 12.6, "grad_norm": 0.03766516223549843, "learning_rate": 0.00047681108102642206, "loss": 0.0398, "step": 3780 }, { "epoch": 12.633333333333333, "grad_norm": 1.6207733154296875, "learning_rate": 0.0004766104629874829, "loss": 0.008, "step": 3790 }, { "epoch": 12.666666666666666, "grad_norm": 9.335482597351074, "learning_rate": 0.0004764090234407577, "loss": 0.0203, "step": 3800 }, { "epoch": 12.7, "grad_norm": 0.003392050275579095, "learning_rate": 0.0004762067631165049, "loss": 0.0294, "step": 3810 }, { "epoch": 12.733333333333333, "grad_norm": 0.3824714720249176, "learning_rate": 0.0004760036827479581, "loss": 0.0055, "step": 3820 }, { "epoch": 12.766666666666667, "grad_norm": 0.01920243538916111, "learning_rate": 0.0004757997830713239, "loss": 0.1337, "step": 3830 }, { "epoch": 12.8, "grad_norm": 0.002765109995380044, "learning_rate": 0.00047559506482577885, "loss": 0.0725, "step": 3840 }, { "epoch": 12.833333333333334, "grad_norm": 0.49867746233940125, "learning_rate": 0.0004753895287534673, "loss": 0.0333, "step": 3850 }, { "epoch": 12.866666666666667, "grad_norm": 0.5436999201774597, "learning_rate": 0.0004751831755994981, "loss": 0.0722, "step": 3860 }, { "epoch": 12.9, "grad_norm": 0.13900534808635712, "learning_rate": 0.0004749760061119422, "loss": 0.0514, "step": 3870 }, { "epoch": 12.933333333333334, "grad_norm": 0.5604411959648132, "learning_rate": 0.00047476802104183015, "loss": 0.0353, "step": 3880 }, { "epoch": 12.966666666666667, "grad_norm": 18.976787567138672, "learning_rate": 0.000474559221143149, "loss": 0.0893, "step": 3890 }, { "epoch": 13.0, "grad_norm": 0.030641691759228706, "learning_rate": 0.0004743496071728396, "loss": 0.0104, "step": 3900 }, { "epoch": 13.0, "eval_accuracy": 0.98, "eval_f1": 0.9799595959595959, "eval_kappa": 0.9596122778675282, "eval_loss": 0.05243048071861267, "eval_precision": 0.9807142857142856, "eval_recall": 0.98, "eval_runtime": 7.3583, "eval_samples_per_second": 54.36, "eval_steps_per_second": 2.31, "step": 3900 }, { "epoch": 13.033333333333333, "grad_norm": 23.265657424926758, "learning_rate": 0.00047413917989079415, "loss": 0.0245, "step": 3910 }, { "epoch": 13.066666666666666, "grad_norm": 2.9652233123779297, "learning_rate": 0.0004739279400598532, "loss": 0.0199, "step": 3920 }, { "epoch": 13.1, "grad_norm": 2.5520131587982178, "learning_rate": 0.00047371588844580297, "loss": 0.0785, "step": 3930 }, { "epoch": 13.133333333333333, "grad_norm": 4.938477993011475, "learning_rate": 0.0004735030258173725, "loss": 0.1211, "step": 3940 }, { "epoch": 13.166666666666666, "grad_norm": 0.23714496195316315, "learning_rate": 0.000473289352946231, "loss": 0.0162, "step": 3950 }, { "epoch": 13.2, "grad_norm": 0.4921053946018219, "learning_rate": 0.00047307487060698486, "loss": 0.0271, "step": 3960 }, { "epoch": 13.233333333333333, "grad_norm": 3.513289451599121, "learning_rate": 0.000472859579577175, "loss": 0.0485, "step": 3970 }, { "epoch": 13.266666666666667, "grad_norm": 1.9259859323501587, "learning_rate": 0.00047264348063727414, "loss": 0.0263, "step": 3980 }, { "epoch": 13.3, "grad_norm": 0.00044262909796088934, "learning_rate": 0.0004724265745706836, "loss": 0.0223, "step": 3990 }, { "epoch": 13.333333333333334, "grad_norm": 1.4673163890838623, "learning_rate": 0.0004722088621637309, "loss": 0.0069, "step": 4000 }, { "epoch": 13.366666666666667, "grad_norm": 0.00814584270119667, "learning_rate": 0.0004719903442056665, "loss": 0.093, "step": 4010 }, { "epoch": 13.4, "grad_norm": 0.03399132937192917, "learning_rate": 0.00047177102148866133, "loss": 0.0224, "step": 4020 }, { "epoch": 13.433333333333334, "grad_norm": 0.5761755704879761, "learning_rate": 0.00047155089480780364, "loss": 0.0012, "step": 4030 }, { "epoch": 13.466666666666667, "grad_norm": 1.2075037956237793, "learning_rate": 0.00047132996496109626, "loss": 0.0198, "step": 4040 }, { "epoch": 13.5, "grad_norm": 0.0027148097287863493, "learning_rate": 0.0004711082327494536, "loss": 0.0089, "step": 4050 }, { "epoch": 13.533333333333333, "grad_norm": 0.02435988560318947, "learning_rate": 0.0004708856989766988, "loss": 0.0387, "step": 4060 }, { "epoch": 13.566666666666666, "grad_norm": 0.04581742361187935, "learning_rate": 0.0004706623644495608, "loss": 0.0237, "step": 4070 }, { "epoch": 13.6, "grad_norm": 3.6842305660247803, "learning_rate": 0.00047043822997767145, "loss": 0.0113, "step": 4080 }, { "epoch": 13.633333333333333, "grad_norm": 18.461259841918945, "learning_rate": 0.0004702132963735627, "loss": 0.0374, "step": 4090 }, { "epoch": 13.666666666666666, "grad_norm": 0.03505110740661621, "learning_rate": 0.0004699875644526633, "loss": 0.0477, "step": 4100 }, { "epoch": 13.7, "grad_norm": 1.6540740728378296, "learning_rate": 0.00046976103503329616, "loss": 0.0137, "step": 4110 }, { "epoch": 13.733333333333333, "grad_norm": 0.1410187929868698, "learning_rate": 0.0004695337089366754, "loss": 0.0002, "step": 4120 }, { "epoch": 13.766666666666667, "grad_norm": 0.015506432391703129, "learning_rate": 0.00046930558698690287, "loss": 0.0578, "step": 4130 }, { "epoch": 13.8, "grad_norm": 0.3643234372138977, "learning_rate": 0.0004690766700109659, "loss": 0.0033, "step": 4140 }, { "epoch": 13.833333333333334, "grad_norm": 0.1073959544301033, "learning_rate": 0.0004688469588387339, "loss": 0.0412, "step": 4150 }, { "epoch": 13.866666666666667, "grad_norm": 0.0946379154920578, "learning_rate": 0.0004686164543029554, "loss": 0.1215, "step": 4160 }, { "epoch": 13.9, "grad_norm": 0.3427139222621918, "learning_rate": 0.0004683851572392548, "loss": 0.0159, "step": 4170 }, { "epoch": 13.933333333333334, "grad_norm": 2.0237042903900146, "learning_rate": 0.00046815306848612976, "loss": 0.084, "step": 4180 }, { "epoch": 13.966666666666667, "grad_norm": 5.675958156585693, "learning_rate": 0.000467920188884948, "loss": 0.0178, "step": 4190 }, { "epoch": 14.0, "grad_norm": 1.7019257545471191, "learning_rate": 0.00046768651927994433, "loss": 0.0483, "step": 4200 }, { "epoch": 14.0, "eval_accuracy": 0.9975, "eval_f1": 0.9974994808414773, "eval_kappa": 0.9949657672170761, "eval_loss": 0.00451456755399704, "eval_precision": 0.9975115207373273, "eval_recall": 0.9975, "eval_runtime": 7.2972, "eval_samples_per_second": 54.816, "eval_steps_per_second": 2.33, "step": 4200 }, { "epoch": 14.033333333333333, "grad_norm": 9.1857271194458, "learning_rate": 0.0004674520605182171, "loss": 0.0028, "step": 4210 }, { "epoch": 14.066666666666666, "grad_norm": 5.523562867892906e-05, "learning_rate": 0.00046721681344972577, "loss": 0.0056, "step": 4220 }, { "epoch": 14.1, "grad_norm": 3.9123904705047607, "learning_rate": 0.0004669807789272876, "loss": 0.034, "step": 4230 }, { "epoch": 14.133333333333333, "grad_norm": 0.7227023243904114, "learning_rate": 0.00046674395780657444, "loss": 0.0115, "step": 4240 }, { "epoch": 14.166666666666666, "grad_norm": 20.133054733276367, "learning_rate": 0.00046650635094610973, "loss": 0.0117, "step": 4250 }, { "epoch": 14.2, "grad_norm": 2.1840555667877197, "learning_rate": 0.0004662679592072653, "loss": 0.006, "step": 4260 }, { "epoch": 14.233333333333333, "grad_norm": 1.3089158535003662, "learning_rate": 0.00046602878345425845, "loss": 0.0198, "step": 4270 }, { "epoch": 14.266666666666667, "grad_norm": 0.032126154750585556, "learning_rate": 0.0004657888245541486, "loss": 0.0117, "step": 4280 }, { "epoch": 14.3, "grad_norm": 0.1218077763915062, "learning_rate": 0.0004655480833768344, "loss": 0.0065, "step": 4290 }, { "epoch": 14.333333333333334, "grad_norm": 0.0682288408279419, "learning_rate": 0.0004653065607950502, "loss": 0.0138, "step": 4300 }, { "epoch": 14.366666666666667, "grad_norm": 0.00038056381163187325, "learning_rate": 0.000465064257684363, "loss": 0.0211, "step": 4310 }, { "epoch": 14.4, "grad_norm": 7.7468061447143555, "learning_rate": 0.0004648211749231698, "loss": 0.0092, "step": 4320 }, { "epoch": 14.433333333333334, "grad_norm": 0.00033462975989095867, "learning_rate": 0.0004645773133926935, "loss": 0.0085, "step": 4330 }, { "epoch": 14.466666666666667, "grad_norm": 1.2854167222976685, "learning_rate": 0.00046433267397698053, "loss": 0.0158, "step": 4340 }, { "epoch": 14.5, "grad_norm": 0.0037089725956320763, "learning_rate": 0.00046408725756289724, "loss": 0.0002, "step": 4350 }, { "epoch": 14.533333333333333, "grad_norm": 0.06741482764482498, "learning_rate": 0.0004638410650401267, "loss": 0.012, "step": 4360 }, { "epoch": 14.566666666666666, "grad_norm": 0.7089601159095764, "learning_rate": 0.0004635940973011654, "loss": 0.0509, "step": 4370 }, { "epoch": 14.6, "grad_norm": 0.022032683715224266, "learning_rate": 0.00046334635524132047, "loss": 0.0013, "step": 4380 }, { "epoch": 14.633333333333333, "grad_norm": 0.14006319642066956, "learning_rate": 0.0004630978397587058, "loss": 0.0015, "step": 4390 }, { "epoch": 14.666666666666666, "grad_norm": 61.62250900268555, "learning_rate": 0.0004628485517542392, "loss": 0.0558, "step": 4400 }, { "epoch": 14.7, "grad_norm": 0.5041285157203674, "learning_rate": 0.0004625984921316392, "loss": 0.0144, "step": 4410 }, { "epoch": 14.733333333333333, "grad_norm": 0.9366334080696106, "learning_rate": 0.00046234766179742117, "loss": 0.0726, "step": 4420 }, { "epoch": 14.766666666666667, "grad_norm": 0.011175020597875118, "learning_rate": 0.0004620960616608949, "loss": 0.0056, "step": 4430 }, { "epoch": 14.8, "grad_norm": 9.877839088439941, "learning_rate": 0.00046184369263416067, "loss": 0.0221, "step": 4440 }, { "epoch": 14.833333333333334, "grad_norm": 0.052618566900491714, "learning_rate": 0.0004615905556321061, "loss": 0.0001, "step": 4450 }, { "epoch": 14.866666666666667, "grad_norm": 8.235169410705566, "learning_rate": 0.00046133665157240304, "loss": 0.0396, "step": 4460 }, { "epoch": 14.9, "grad_norm": 0.0023794234730303288, "learning_rate": 0.00046108198137550377, "loss": 0.0047, "step": 4470 }, { "epoch": 14.933333333333334, "grad_norm": 1.037344217300415, "learning_rate": 0.00046082654596463836, "loss": 0.0213, "step": 4480 }, { "epoch": 14.966666666666667, "grad_norm": 0.9687237739562988, "learning_rate": 0.00046057034626581066, "loss": 0.0035, "step": 4490 }, { "epoch": 15.0, "grad_norm": 0.009436891414225101, "learning_rate": 0.0004603133832077953, "loss": 0.0364, "step": 4500 }, { "epoch": 15.0, "eval_accuracy": 0.9875, "eval_f1": 0.9875068327898516, "eval_kappa": 0.9748693204664254, "eval_loss": 0.029378846287727356, "eval_precision": 0.987625216539881, "eval_recall": 0.9875, "eval_runtime": 7.2663, "eval_samples_per_second": 55.049, "eval_steps_per_second": 2.34, "step": 4500 }, { "epoch": 15.033333333333333, "grad_norm": 15.442131996154785, "learning_rate": 0.0004600556577221342, "loss": 0.0587, "step": 4510 }, { "epoch": 15.066666666666666, "grad_norm": 2.1621975898742676, "learning_rate": 0.0004597971707431333, "loss": 0.0031, "step": 4520 }, { "epoch": 15.1, "grad_norm": 0.09139201790094376, "learning_rate": 0.00045953792320785916, "loss": 0.0464, "step": 4530 }, { "epoch": 15.133333333333333, "grad_norm": 10.80909252166748, "learning_rate": 0.0004592779160561352, "loss": 0.0119, "step": 4540 }, { "epoch": 15.166666666666666, "grad_norm": 0.0028503378853201866, "learning_rate": 0.000459017150230539, "loss": 0.0284, "step": 4550 }, { "epoch": 15.2, "grad_norm": 0.0037527629174292088, "learning_rate": 0.00045875562667639815, "loss": 0.0052, "step": 4560 }, { "epoch": 15.233333333333333, "grad_norm": 0.008923468180000782, "learning_rate": 0.0004584933463417874, "loss": 0.0181, "step": 4570 }, { "epoch": 15.266666666666667, "grad_norm": 0.11511397361755371, "learning_rate": 0.00045823031017752484, "loss": 0.0012, "step": 4580 }, { "epoch": 15.3, "grad_norm": 0.0019222634145990014, "learning_rate": 0.0004579665191371687, "loss": 0.0018, "step": 4590 }, { "epoch": 15.333333333333334, "grad_norm": 0.02708413079380989, "learning_rate": 0.00045770197417701366, "loss": 0.0456, "step": 4600 }, { "epoch": 15.366666666666667, "grad_norm": 0.49283456802368164, "learning_rate": 0.00045743667625608756, "loss": 0.0086, "step": 4610 }, { "epoch": 15.4, "grad_norm": 0.18149667978286743, "learning_rate": 0.00045717062633614795, "loss": 0.005, "step": 4620 }, { "epoch": 15.433333333333334, "grad_norm": 0.02925139293074608, "learning_rate": 0.0004569038253816783, "loss": 0.0335, "step": 4630 }, { "epoch": 15.466666666666667, "grad_norm": 0.025850404053926468, "learning_rate": 0.00045663627435988503, "loss": 0.0076, "step": 4640 }, { "epoch": 15.5, "grad_norm": 0.03791815787553787, "learning_rate": 0.0004563679742406935, "loss": 0.0181, "step": 4650 }, { "epoch": 15.533333333333333, "grad_norm": 4.157740116119385, "learning_rate": 0.0004560989259967447, "loss": 0.0265, "step": 4660 }, { "epoch": 15.566666666666666, "grad_norm": 31.737028121948242, "learning_rate": 0.0004558291306033919, "loss": 0.0662, "step": 4670 }, { "epoch": 15.6, "grad_norm": 0.00034419956500642, "learning_rate": 0.00045555858903869684, "loss": 0.0033, "step": 4680 }, { "epoch": 15.633333333333333, "grad_norm": 36.032081604003906, "learning_rate": 0.000455287302283426, "loss": 0.2059, "step": 4690 }, { "epoch": 15.666666666666666, "grad_norm": 0.09268007427453995, "learning_rate": 0.0004550152713210478, "loss": 0.0654, "step": 4700 }, { "epoch": 15.7, "grad_norm": 0.003424269612878561, "learning_rate": 0.0004547424971377282, "loss": 0.011, "step": 4710 }, { "epoch": 15.733333333333333, "grad_norm": 36.533512115478516, "learning_rate": 0.00045446898072232765, "loss": 0.0291, "step": 4720 }, { "epoch": 15.766666666666667, "grad_norm": 0.057702332735061646, "learning_rate": 0.00045419472306639733, "loss": 0.0384, "step": 4730 }, { "epoch": 15.8, "grad_norm": 3.593590736272745e-05, "learning_rate": 0.00045391972516417545, "loss": 0.0035, "step": 4740 }, { "epoch": 15.833333333333334, "grad_norm": 0.017503496259450912, "learning_rate": 0.00045364398801258396, "loss": 0.09, "step": 4750 }, { "epoch": 15.866666666666667, "grad_norm": 0.01603321172297001, "learning_rate": 0.0004533675126112245, "loss": 0.0269, "step": 4760 }, { "epoch": 15.9, "grad_norm": 0.109935462474823, "learning_rate": 0.00045309029996237516, "loss": 0.0097, "step": 4770 }, { "epoch": 15.933333333333334, "grad_norm": 0.028454294428229332, "learning_rate": 0.0004528123510709867, "loss": 0.0199, "step": 4780 }, { "epoch": 15.966666666666667, "grad_norm": 0.03414365276694298, "learning_rate": 0.0004525336669446789, "loss": 0.0007, "step": 4790 }, { "epoch": 16.0, "grad_norm": 0.0039358725771307945, "learning_rate": 0.0004522542485937369, "loss": 0.0239, "step": 4800 }, { "epoch": 16.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924950401511573, "eval_kappa": 0.9848851269649335, "eval_loss": 0.011240070685744286, "eval_precision": 0.9926027397260273, "eval_recall": 0.9925, "eval_runtime": 7.3933, "eval_samples_per_second": 54.103, "eval_steps_per_second": 2.299, "step": 4800 }, { "epoch": 16.033333333333335, "grad_norm": 0.003939064685255289, "learning_rate": 0.0004519740970311074, "loss": 0.056, "step": 4810 }, { "epoch": 16.066666666666666, "grad_norm": 0.0002586791233625263, "learning_rate": 0.0004516932132723953, "loss": 0.0076, "step": 4820 }, { "epoch": 16.1, "grad_norm": 6.035449028015137, "learning_rate": 0.00045141159833585995, "loss": 0.0043, "step": 4830 }, { "epoch": 16.133333333333333, "grad_norm": 0.23382249474525452, "learning_rate": 0.0004511292532424111, "loss": 0.0375, "step": 4840 }, { "epoch": 16.166666666666668, "grad_norm": 0.003644285025075078, "learning_rate": 0.00045084617901560564, "loss": 0.0067, "step": 4850 }, { "epoch": 16.2, "grad_norm": 0.3566889762878418, "learning_rate": 0.0004505623766816438, "loss": 0.0007, "step": 4860 }, { "epoch": 16.233333333333334, "grad_norm": 0.0989418774843216, "learning_rate": 0.00045027784726936503, "loss": 0.0701, "step": 4870 }, { "epoch": 16.266666666666666, "grad_norm": 4.09375, "learning_rate": 0.000449992591810245, "loss": 0.0555, "step": 4880 }, { "epoch": 16.3, "grad_norm": 0.013414149172604084, "learning_rate": 0.00044970661133839096, "loss": 0.0026, "step": 4890 }, { "epoch": 16.333333333333332, "grad_norm": 2.3153756956162397e-06, "learning_rate": 0.00044941990689053885, "loss": 0.0446, "step": 4900 }, { "epoch": 16.366666666666667, "grad_norm": 2.82499058812391e-05, "learning_rate": 0.00044913247950604905, "loss": 0.0184, "step": 4910 }, { "epoch": 16.4, "grad_norm": 0.4367436170578003, "learning_rate": 0.00044884433022690274, "loss": 0.1106, "step": 4920 }, { "epoch": 16.433333333333334, "grad_norm": 0.021237192675471306, "learning_rate": 0.0004485554600976981, "loss": 0.0015, "step": 4930 }, { "epoch": 16.466666666666665, "grad_norm": 8.756088256835938, "learning_rate": 0.0004482658701656465, "loss": 0.01, "step": 4940 }, { "epoch": 16.5, "grad_norm": 0.000679507153108716, "learning_rate": 0.0004479755614805688, "loss": 0.0281, "step": 4950 }, { "epoch": 16.533333333333335, "grad_norm": 4.841014385223389, "learning_rate": 0.00044768453509489136, "loss": 0.0029, "step": 4960 }, { "epoch": 16.566666666666666, "grad_norm": 0.013903344981372356, "learning_rate": 0.0004473927920636426, "loss": 0.0137, "step": 4970 }, { "epoch": 16.6, "grad_norm": 0.00465978542342782, "learning_rate": 0.00044710033344444856, "loss": 0.015, "step": 4980 }, { "epoch": 16.633333333333333, "grad_norm": 0.017884723842144012, "learning_rate": 0.0004468071602975298, "loss": 0.0222, "step": 4990 }, { "epoch": 16.666666666666668, "grad_norm": 0.10206126421689987, "learning_rate": 0.0004465132736856969, "loss": 0.0535, "step": 5000 }, { "epoch": 16.7, "grad_norm": 0.09528321772813797, "learning_rate": 0.00044621867467434706, "loss": 0.034, "step": 5010 }, { "epoch": 16.733333333333334, "grad_norm": 0.0033129348885267973, "learning_rate": 0.00044592336433145995, "loss": 0.0766, "step": 5020 }, { "epoch": 16.766666666666666, "grad_norm": 0.003946595825254917, "learning_rate": 0.0004456273437275941, "loss": 0.0879, "step": 5030 }, { "epoch": 16.8, "grad_norm": 0.07561410218477249, "learning_rate": 0.00044533061393588284, "loss": 0.0028, "step": 5040 }, { "epoch": 16.833333333333332, "grad_norm": 0.0002018914819927886, "learning_rate": 0.0004450331760320302, "loss": 0.0562, "step": 5050 }, { "epoch": 16.866666666666667, "grad_norm": 0.0016976863844320178, "learning_rate": 0.0004447350310943076, "loss": 0.0178, "step": 5060 }, { "epoch": 16.9, "grad_norm": 0.012086511589586735, "learning_rate": 0.0004444361802035495, "loss": 0.0091, "step": 5070 }, { "epoch": 16.933333333333334, "grad_norm": 0.003081787843257189, "learning_rate": 0.0004441366244431494, "loss": 0.0219, "step": 5080 }, { "epoch": 16.966666666666665, "grad_norm": 18.680606842041016, "learning_rate": 0.00044383636489905636, "loss": 0.0693, "step": 5090 }, { "epoch": 17.0, "grad_norm": 19.928892135620117, "learning_rate": 0.00044353540265977065, "loss": 0.0251, "step": 5100 }, { "epoch": 17.0, "eval_accuracy": 0.975, "eval_f1": 0.975034479299882, "eval_kappa": 0.9498797113071371, "eval_loss": 0.17754234373569489, "eval_precision": 0.9762886597938144, "eval_recall": 0.975, "eval_runtime": 7.2945, "eval_samples_per_second": 54.836, "eval_steps_per_second": 2.331, "step": 5100 }, { "epoch": 17.033333333333335, "grad_norm": 0.0158667154610157, "learning_rate": 0.0004432337388163399, "loss": 0.0169, "step": 5110 }, { "epoch": 17.066666666666666, "grad_norm": 0.04557795822620392, "learning_rate": 0.0004429313744623552, "loss": 0.149, "step": 5120 }, { "epoch": 17.1, "grad_norm": 11.541633605957031, "learning_rate": 0.0004426283106939473, "loss": 0.0364, "step": 5130 }, { "epoch": 17.133333333333333, "grad_norm": 0.003035008441656828, "learning_rate": 0.00044232454860978235, "loss": 0.0135, "step": 5140 }, { "epoch": 17.166666666666668, "grad_norm": 20.01824188232422, "learning_rate": 0.00044202008931105795, "loss": 0.0727, "step": 5150 }, { "epoch": 17.2, "grad_norm": 0.0038418022450059652, "learning_rate": 0.00044171493390149943, "loss": 0.0656, "step": 5160 }, { "epoch": 17.233333333333334, "grad_norm": 0.5585111975669861, "learning_rate": 0.0004414090834873555, "loss": 0.0687, "step": 5170 }, { "epoch": 17.266666666666666, "grad_norm": 0.40798482298851013, "learning_rate": 0.0004411025391773945, "loss": 0.0088, "step": 5180 }, { "epoch": 17.3, "grad_norm": 0.5033943057060242, "learning_rate": 0.0004407953020829001, "loss": 0.0017, "step": 5190 }, { "epoch": 17.333333333333332, "grad_norm": 0.006301830522716045, "learning_rate": 0.0004404873733176677, "loss": 0.0069, "step": 5200 }, { "epoch": 17.366666666666667, "grad_norm": 57.35346984863281, "learning_rate": 0.000440178753998, "loss": 0.057, "step": 5210 }, { "epoch": 17.4, "grad_norm": 20.014352798461914, "learning_rate": 0.0004398694452427032, "loss": 0.057, "step": 5220 }, { "epoch": 17.433333333333334, "grad_norm": 1.6002854108810425, "learning_rate": 0.00043955944817308264, "loss": 0.0283, "step": 5230 }, { "epoch": 17.466666666666665, "grad_norm": 0.1630188226699829, "learning_rate": 0.0004392487639129391, "loss": 0.0149, "step": 5240 }, { "epoch": 17.5, "grad_norm": 1.5527725219726562, "learning_rate": 0.0004389373935885646, "loss": 0.0033, "step": 5250 }, { "epoch": 17.533333333333335, "grad_norm": 0.08788882941007614, "learning_rate": 0.00043862533832873807, "loss": 0.0181, "step": 5260 }, { "epoch": 17.566666666666666, "grad_norm": 18.95491600036621, "learning_rate": 0.0004383125992647217, "loss": 0.0551, "step": 5270 }, { "epoch": 17.6, "grad_norm": 0.09805364906787872, "learning_rate": 0.0004379991775302565, "loss": 0.0016, "step": 5280 }, { "epoch": 17.633333333333333, "grad_norm": 0.08975560963153839, "learning_rate": 0.0004376850742615582, "loss": 0.0094, "step": 5290 }, { "epoch": 17.666666666666668, "grad_norm": 0.0001883259683381766, "learning_rate": 0.00043737029059731354, "loss": 0.0345, "step": 5300 }, { "epoch": 17.7, "grad_norm": 0.013120437040925026, "learning_rate": 0.0004370548276786753, "loss": 0.0012, "step": 5310 }, { "epoch": 17.733333333333334, "grad_norm": 0.001265104510821402, "learning_rate": 0.0004367386866492593, "loss": 0.0065, "step": 5320 }, { "epoch": 17.766666666666666, "grad_norm": 0.00024534211843274534, "learning_rate": 0.00043642186865513923, "loss": 0.059, "step": 5330 }, { "epoch": 17.8, "grad_norm": 0.00401131808757782, "learning_rate": 0.000436104374844843, "loss": 0.013, "step": 5340 }, { "epoch": 17.833333333333332, "grad_norm": 8.443090337095782e-05, "learning_rate": 0.00043578620636934855, "loss": 0.0187, "step": 5350 }, { "epoch": 17.866666666666667, "grad_norm": 3.067394495010376, "learning_rate": 0.0004354673643820796, "loss": 0.0088, "step": 5360 }, { "epoch": 17.9, "grad_norm": 9.890982627868652, "learning_rate": 0.00043514785003890145, "loss": 0.0055, "step": 5370 }, { "epoch": 17.933333333333334, "grad_norm": 0.06324765086174011, "learning_rate": 0.0004348276644981169, "loss": 0.0059, "step": 5380 }, { "epoch": 17.966666666666665, "grad_norm": 1.9441681615717243e-06, "learning_rate": 0.0004345068089204618, "loss": 0.0157, "step": 5390 }, { "epoch": 18.0, "grad_norm": 0.0008120173588395119, "learning_rate": 0.00043418528446910123, "loss": 0.0176, "step": 5400 }, { "epoch": 18.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924950401511573, "eval_kappa": 0.9848851269649335, "eval_loss": 0.012522498145699501, "eval_precision": 0.9926027397260273, "eval_recall": 0.9925, "eval_runtime": 7.2697, "eval_samples_per_second": 55.023, "eval_steps_per_second": 2.338, "step": 5400 }, { "epoch": 18.033333333333335, "grad_norm": 2.747086763381958, "learning_rate": 0.00043386309230962494, "loss": 0.0049, "step": 5410 }, { "epoch": 18.066666666666666, "grad_norm": 0.17824751138687134, "learning_rate": 0.00043354023361004326, "loss": 0.0055, "step": 5420 }, { "epoch": 18.1, "grad_norm": 0.012055006809532642, "learning_rate": 0.00043321670954078295, "loss": 0.0059, "step": 5430 }, { "epoch": 18.133333333333333, "grad_norm": 2.920243105108966e-07, "learning_rate": 0.00043289252127468275, "loss": 0.013, "step": 5440 }, { "epoch": 18.166666666666668, "grad_norm": 0.02946869097650051, "learning_rate": 0.00043256766998698936, "loss": 0.0129, "step": 5450 }, { "epoch": 18.2, "grad_norm": 0.15984544157981873, "learning_rate": 0.00043224215685535287, "loss": 0.0259, "step": 5460 }, { "epoch": 18.233333333333334, "grad_norm": 0.007439691107720137, "learning_rate": 0.00043191598305982295, "loss": 0.0071, "step": 5470 }, { "epoch": 18.266666666666666, "grad_norm": 0.003393712919205427, "learning_rate": 0.00043158914978284413, "loss": 0.0, "step": 5480 }, { "epoch": 18.3, "grad_norm": 0.026435252279043198, "learning_rate": 0.00043126165820925175, "loss": 0.0024, "step": 5490 }, { "epoch": 18.333333333333332, "grad_norm": 0.058090608566999435, "learning_rate": 0.0004309335095262675, "loss": 0.0851, "step": 5500 }, { "epoch": 18.366666666666667, "grad_norm": 0.004093553405255079, "learning_rate": 0.00043060470492349546, "loss": 0.055, "step": 5510 }, { "epoch": 18.4, "grad_norm": 0.006154999136924744, "learning_rate": 0.00043027524559291735, "loss": 0.0444, "step": 5520 }, { "epoch": 18.433333333333334, "grad_norm": 1.4688598639622796e-05, "learning_rate": 0.0004299451327288884, "loss": 0.1432, "step": 5530 }, { "epoch": 18.466666666666665, "grad_norm": 0.01573503017425537, "learning_rate": 0.00042961436752813313, "loss": 0.0567, "step": 5540 }, { "epoch": 18.5, "grad_norm": 0.09377676993608475, "learning_rate": 0.0004292829511897409, "loss": 0.004, "step": 5550 }, { "epoch": 18.533333333333335, "grad_norm": 0.0003030710795428604, "learning_rate": 0.00042895088491516143, "loss": 0.0109, "step": 5560 }, { "epoch": 18.566666666666666, "grad_norm": 0.37513068318367004, "learning_rate": 0.00042861816990820087, "loss": 0.0139, "step": 5570 }, { "epoch": 18.6, "grad_norm": 0.01114998385310173, "learning_rate": 0.00042828480737501685, "loss": 0.0121, "step": 5580 }, { "epoch": 18.633333333333333, "grad_norm": 0.016994353383779526, "learning_rate": 0.0004279507985241146, "loss": 0.0018, "step": 5590 }, { "epoch": 18.666666666666668, "grad_norm": 23.48972511291504, "learning_rate": 0.00042761614456634226, "loss": 0.0639, "step": 5600 }, { "epoch": 18.7, "grad_norm": 15.19426155090332, "learning_rate": 0.00042728084671488667, "loss": 0.0308, "step": 5610 }, { "epoch": 18.733333333333334, "grad_norm": 0.4076824188232422, "learning_rate": 0.000426944906185269, "loss": 0.0067, "step": 5620 }, { "epoch": 18.766666666666666, "grad_norm": 0.00021396263036876917, "learning_rate": 0.00042660832419534015, "loss": 0.0213, "step": 5630 }, { "epoch": 18.8, "grad_norm": 0.0007938387570902705, "learning_rate": 0.00042627110196527643, "loss": 0.0027, "step": 5640 }, { "epoch": 18.833333333333332, "grad_norm": 6.3498005867004395, "learning_rate": 0.00042593324071757513, "loss": 0.0014, "step": 5650 }, { "epoch": 18.866666666666667, "grad_norm": 0.01834871992468834, "learning_rate": 0.00042559474167705024, "loss": 0.005, "step": 5660 }, { "epoch": 18.9, "grad_norm": 25.21710968017578, "learning_rate": 0.0004252556060708277, "loss": 0.0112, "step": 5670 }, { "epoch": 18.933333333333334, "grad_norm": 0.0007557334029115736, "learning_rate": 0.00042491583512834137, "loss": 0.0048, "step": 5680 }, { "epoch": 18.966666666666665, "grad_norm": 0.0007840251782909036, "learning_rate": 0.00042457543008132803, "loss": 0.0028, "step": 5690 }, { "epoch": 19.0, "grad_norm": 0.00020392781880218536, "learning_rate": 0.00042423439216382345, "loss": 0.004, "step": 5700 }, { "epoch": 19.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924950401511573, "eval_kappa": 0.9848851269649335, "eval_loss": 0.02138124778866768, "eval_precision": 0.9926027397260273, "eval_recall": 0.9925, "eval_runtime": 7.2724, "eval_samples_per_second": 55.002, "eval_steps_per_second": 2.338, "step": 5700 }, { "epoch": 19.033333333333335, "grad_norm": 3.409046257729642e-05, "learning_rate": 0.0004238927226121574, "loss": 0.0053, "step": 5710 }, { "epoch": 19.066666666666666, "grad_norm": 5.1102761062793434e-05, "learning_rate": 0.0004235504226649499, "loss": 0.0006, "step": 5720 }, { "epoch": 19.1, "grad_norm": 4.482835265662288e-06, "learning_rate": 0.00042320749356310585, "loss": 0.0062, "step": 5730 }, { "epoch": 19.133333333333333, "grad_norm": 6.407644377759425e-06, "learning_rate": 0.00042286393654981117, "loss": 0.0144, "step": 5740 }, { "epoch": 19.166666666666668, "grad_norm": 6.763396868336713e-06, "learning_rate": 0.000422519752870528, "loss": 0.0074, "step": 5750 }, { "epoch": 19.2, "grad_norm": 0.6662626266479492, "learning_rate": 0.0004221749437729904, "loss": 0.0249, "step": 5760 }, { "epoch": 19.233333333333334, "grad_norm": 2.1368918418884277, "learning_rate": 0.00042182951050719953, "loss": 0.0005, "step": 5770 }, { "epoch": 19.266666666666666, "grad_norm": 0.7532082796096802, "learning_rate": 0.00042148345432541947, "loss": 0.0012, "step": 5780 }, { "epoch": 19.3, "grad_norm": 0.0029580825939774513, "learning_rate": 0.0004211367764821722, "loss": 0.0908, "step": 5790 }, { "epoch": 19.333333333333332, "grad_norm": 0.0024131108075380325, "learning_rate": 0.00042078947823423365, "loss": 0.0003, "step": 5800 }, { "epoch": 19.366666666666667, "grad_norm": 0.3826955556869507, "learning_rate": 0.0004204415608406287, "loss": 0.0017, "step": 5810 }, { "epoch": 19.4, "grad_norm": 0.6719952821731567, "learning_rate": 0.0004200930255626267, "loss": 0.0045, "step": 5820 }, { "epoch": 19.433333333333334, "grad_norm": 0.0007892029243521392, "learning_rate": 0.0004197438736637371, "loss": 0.0018, "step": 5830 }, { "epoch": 19.466666666666665, "grad_norm": 0.3547203838825226, "learning_rate": 0.00041939410640970463, "loss": 0.0001, "step": 5840 }, { "epoch": 19.5, "grad_norm": 0.0005942045827396214, "learning_rate": 0.0004190437250685049, "loss": 0.0041, "step": 5850 }, { "epoch": 19.533333333333335, "grad_norm": 2.2738926418242045e-05, "learning_rate": 0.0004186927309103395, "loss": 0.0249, "step": 5860 }, { "epoch": 19.566666666666666, "grad_norm": 0.2131558209657669, "learning_rate": 0.0004183411252076318, "loss": 0.0021, "step": 5870 }, { "epoch": 19.6, "grad_norm": 5.3966072300681844e-05, "learning_rate": 0.00041798890923502196, "loss": 0.0142, "step": 5880 }, { "epoch": 19.633333333333333, "grad_norm": 5.459845488076098e-05, "learning_rate": 0.00041763608426936285, "loss": 0.0114, "step": 5890 }, { "epoch": 19.666666666666668, "grad_norm": 0.00019487504323478788, "learning_rate": 0.0004172826515897146, "loss": 0.0006, "step": 5900 }, { "epoch": 19.7, "grad_norm": 39.95808792114258, "learning_rate": 0.00041692861247734066, "loss": 0.027, "step": 5910 }, { "epoch": 19.733333333333334, "grad_norm": 0.09292138367891312, "learning_rate": 0.000416573968215703, "loss": 0.0142, "step": 5920 }, { "epoch": 19.766666666666666, "grad_norm": 0.4146019518375397, "learning_rate": 0.00041621872009045714, "loss": 0.0619, "step": 5930 }, { "epoch": 19.8, "grad_norm": 0.0032702682074159384, "learning_rate": 0.00041586286938944794, "loss": 0.049, "step": 5940 }, { "epoch": 19.833333333333332, "grad_norm": 9.901680641632993e-06, "learning_rate": 0.0004155064174027047, "loss": 0.053, "step": 5950 }, { "epoch": 19.866666666666667, "grad_norm": 2.382656560939722e-07, "learning_rate": 0.0004151493654224362, "loss": 0.0041, "step": 5960 }, { "epoch": 19.9, "grad_norm": 0.10070688277482986, "learning_rate": 0.0004147917147430267, "loss": 0.0002, "step": 5970 }, { "epoch": 19.933333333333334, "grad_norm": 0.37473300099372864, "learning_rate": 0.00041443346666103075, "loss": 0.0317, "step": 5980 }, { "epoch": 19.966666666666665, "grad_norm": 0.015777839347720146, "learning_rate": 0.0004140746224751686, "loss": 0.0049, "step": 5990 }, { "epoch": 20.0, "grad_norm": 0.06747877597808838, "learning_rate": 0.0004137151834863213, "loss": 0.0765, "step": 6000 }, { "epoch": 20.0, "eval_accuracy": 0.9925, "eval_f1": 0.9925014619055704, "eval_kappa": 0.9849094567404426, "eval_loss": 0.026282142847776413, "eval_precision": 0.9925153991200503, "eval_recall": 0.9925, "eval_runtime": 7.3526, "eval_samples_per_second": 54.403, "eval_steps_per_second": 2.312, "step": 6000 }, { "epoch": 20.033333333333335, "grad_norm": 7.862460915930569e-05, "learning_rate": 0.0004133551509975264, "loss": 0.0018, "step": 6010 }, { "epoch": 20.066666666666666, "grad_norm": 0.003342132782563567, "learning_rate": 0.00041299452631397295, "loss": 0.0073, "step": 6020 }, { "epoch": 20.1, "grad_norm": 0.0008726781816221774, "learning_rate": 0.00041263331074299674, "loss": 0.0006, "step": 6030 }, { "epoch": 20.133333333333333, "grad_norm": 0.003774689044803381, "learning_rate": 0.0004122715055940759, "loss": 0.0142, "step": 6040 }, { "epoch": 20.166666666666668, "grad_norm": 4.912187099456787, "learning_rate": 0.00041190911217882554, "loss": 0.0087, "step": 6050 }, { "epoch": 20.2, "grad_norm": 0.028365733101963997, "learning_rate": 0.00041154613181099354, "loss": 0.0009, "step": 6060 }, { "epoch": 20.233333333333334, "grad_norm": 0.5290868878364563, "learning_rate": 0.00041118256580645573, "loss": 0.0072, "step": 6070 }, { "epoch": 20.266666666666666, "grad_norm": 1.6444475477328524e-05, "learning_rate": 0.00041081841548321063, "loss": 0.0011, "step": 6080 }, { "epoch": 20.3, "grad_norm": 1.4104318324825726e-05, "learning_rate": 0.0004104536821613755, "loss": 0.0028, "step": 6090 }, { "epoch": 20.333333333333332, "grad_norm": 0.0005012187757529318, "learning_rate": 0.0004100883671631806, "loss": 0.0006, "step": 6100 }, { "epoch": 20.366666666666667, "grad_norm": 0.0006044594920240343, "learning_rate": 0.00040972247181296517, "loss": 0.0007, "step": 6110 }, { "epoch": 20.4, "grad_norm": 0.011126265861093998, "learning_rate": 0.00040935599743717243, "loss": 0.0, "step": 6120 }, { "epoch": 20.433333333333334, "grad_norm": 9.391146886628121e-05, "learning_rate": 0.00040898894536434436, "loss": 0.0036, "step": 6130 }, { "epoch": 20.466666666666665, "grad_norm": 0.0033955660182982683, "learning_rate": 0.0004086213169251175, "loss": 0.0055, "step": 6140 }, { "epoch": 20.5, "grad_norm": 3.899128932971507e-05, "learning_rate": 0.0004082531134522176, "loss": 0.0038, "step": 6150 }, { "epoch": 20.533333333333335, "grad_norm": 54.52496337890625, "learning_rate": 0.00040788433628045526, "loss": 0.0801, "step": 6160 }, { "epoch": 20.566666666666666, "grad_norm": 23.238245010375977, "learning_rate": 0.0004075149867467206, "loss": 0.0054, "step": 6170 }, { "epoch": 20.6, "grad_norm": 0.024889228865504265, "learning_rate": 0.0004071450661899789, "loss": 0.0006, "step": 6180 }, { "epoch": 20.633333333333333, "grad_norm": 0.00033502039150334895, "learning_rate": 0.00040677457595126535, "loss": 0.0193, "step": 6190 }, { "epoch": 20.666666666666668, "grad_norm": 1.2196564674377441, "learning_rate": 0.0004064035173736804, "loss": 0.0326, "step": 6200 }, { "epoch": 20.7, "grad_norm": 0.03614107146859169, "learning_rate": 0.00040603189180238487, "loss": 0.0428, "step": 6210 }, { "epoch": 20.733333333333334, "grad_norm": 0.00015757529763504863, "learning_rate": 0.00040565970058459495, "loss": 0.0178, "step": 6220 }, { "epoch": 20.766666666666666, "grad_norm": 31.76898956298828, "learning_rate": 0.0004052869450695776, "loss": 0.0377, "step": 6230 }, { "epoch": 20.8, "grad_norm": 2.0460689067840576, "learning_rate": 0.0004049136266086453, "loss": 0.0018, "step": 6240 }, { "epoch": 20.833333333333332, "grad_norm": 0.00013923767255619168, "learning_rate": 0.0004045397465551513, "loss": 0.0257, "step": 6250 }, { "epoch": 20.866666666666667, "grad_norm": 0.0006307970033958554, "learning_rate": 0.0004041653062644849, "loss": 0.0004, "step": 6260 }, { "epoch": 20.9, "grad_norm": 0.006992705166339874, "learning_rate": 0.0004037903070940663, "loss": 0.0184, "step": 6270 }, { "epoch": 20.933333333333334, "grad_norm": 4.516855239868164, "learning_rate": 0.0004034147504033415, "loss": 0.0011, "step": 6280 }, { "epoch": 20.966666666666665, "grad_norm": 2.106142282485962, "learning_rate": 0.0004030386375537781, "loss": 0.0004, "step": 6290 }, { "epoch": 21.0, "grad_norm": 0.021997051313519478, "learning_rate": 0.00040266196990885957, "loss": 0.0031, "step": 6300 }, { "epoch": 21.0, "eval_accuracy": 0.995, "eval_f1": 0.9949978595351413, "eval_kappa": 0.9899274778404512, "eval_loss": 0.007627411279827356, "eval_precision": 0.9950458715596331, "eval_recall": 0.995, "eval_runtime": 7.3429, "eval_samples_per_second": 54.474, "eval_steps_per_second": 2.315, "step": 6300 }, { "epoch": 21.033333333333335, "grad_norm": 0.10303360223770142, "learning_rate": 0.0004022847488340806, "loss": 0.0002, "step": 6310 }, { "epoch": 21.066666666666666, "grad_norm": 0.0006746263243257999, "learning_rate": 0.0004019069756969423, "loss": 0.0047, "step": 6320 }, { "epoch": 21.1, "grad_norm": 0.009801504202187061, "learning_rate": 0.0004015286518669471, "loss": 0.0001, "step": 6330 }, { "epoch": 21.133333333333333, "grad_norm": 0.0029807365499436855, "learning_rate": 0.00040114977871559375, "loss": 0.0003, "step": 6340 }, { "epoch": 21.166666666666668, "grad_norm": 4.46964713773923e-06, "learning_rate": 0.0004007703576163724, "loss": 0.0034, "step": 6350 }, { "epoch": 21.2, "grad_norm": 0.0006399075500667095, "learning_rate": 0.0004003903899447597, "loss": 0.0004, "step": 6360 }, { "epoch": 21.233333333333334, "grad_norm": 3.252115493523888e-05, "learning_rate": 0.00040000987707821355, "loss": 0.001, "step": 6370 }, { "epoch": 21.266666666666666, "grad_norm": 0.00783352367579937, "learning_rate": 0.0003996288203961686, "loss": 0.0003, "step": 6380 }, { "epoch": 21.3, "grad_norm": 2.122505975421518e-05, "learning_rate": 0.0003992472212800307, "loss": 0.0171, "step": 6390 }, { "epoch": 21.333333333333332, "grad_norm": 14.490923881530762, "learning_rate": 0.000398865081113172, "loss": 0.0322, "step": 6400 }, { "epoch": 21.366666666666667, "grad_norm": 3.637007694123895e-06, "learning_rate": 0.0003984824012809265, "loss": 0.0305, "step": 6410 }, { "epoch": 21.4, "grad_norm": 5.9053168296813965, "learning_rate": 0.0003980991831705842, "loss": 0.0107, "step": 6420 }, { "epoch": 21.433333333333334, "grad_norm": 0.28526216745376587, "learning_rate": 0.0003977154281713866, "loss": 0.0684, "step": 6430 }, { "epoch": 21.466666666666665, "grad_norm": 1.392630696296692, "learning_rate": 0.00039733113767452164, "loss": 0.0005, "step": 6440 }, { "epoch": 21.5, "grad_norm": 5.3771942475577816e-05, "learning_rate": 0.0003969463130731183, "loss": 0.0007, "step": 6450 }, { "epoch": 21.533333333333335, "grad_norm": 0.5646133422851562, "learning_rate": 0.00039656095576224204, "loss": 0.0082, "step": 6460 }, { "epoch": 21.566666666666666, "grad_norm": 57.72877883911133, "learning_rate": 0.0003961750671388894, "loss": 0.0146, "step": 6470 }, { "epoch": 21.6, "grad_norm": 23.014808654785156, "learning_rate": 0.000395788648601983, "loss": 0.0442, "step": 6480 }, { "epoch": 21.633333333333333, "grad_norm": 0.09101602435112, "learning_rate": 0.00039540170155236647, "loss": 0.0481, "step": 6490 }, { "epoch": 21.666666666666668, "grad_norm": 0.040844641625881195, "learning_rate": 0.0003950142273927996, "loss": 0.0161, "step": 6500 }, { "epoch": 21.7, "grad_norm": 0.4568909704685211, "learning_rate": 0.0003946262275279527, "loss": 0.0081, "step": 6510 }, { "epoch": 21.733333333333334, "grad_norm": 8.483947749482468e-05, "learning_rate": 0.00039423770336440234, "loss": 0.0169, "step": 6520 }, { "epoch": 21.766666666666666, "grad_norm": 0.016545411199331284, "learning_rate": 0.00039384865631062534, "loss": 0.0074, "step": 6530 }, { "epoch": 21.8, "grad_norm": 0.023100852966308594, "learning_rate": 0.00039345908777699436, "loss": 0.0144, "step": 6540 }, { "epoch": 21.833333333333332, "grad_norm": 0.012311081402003765, "learning_rate": 0.00039306899917577245, "loss": 0.0004, "step": 6550 }, { "epoch": 21.866666666666667, "grad_norm": 0.00015020677528809756, "learning_rate": 0.000392678391921108, "loss": 0.0178, "step": 6560 }, { "epoch": 21.9, "grad_norm": 2.5779238058021292e-05, "learning_rate": 0.00039228726742902956, "loss": 0.0042, "step": 6570 }, { "epoch": 21.933333333333334, "grad_norm": 0.0032437986228615046, "learning_rate": 0.0003918956271174409, "loss": 0.011, "step": 6580 }, { "epoch": 21.966666666666665, "grad_norm": 0.00043358461698517203, "learning_rate": 0.0003915034724061156, "loss": 0.0977, "step": 6590 }, { "epoch": 22.0, "grad_norm": 2.70005443780974e-07, "learning_rate": 0.0003911108047166924, "loss": 0.0241, "step": 6600 }, { "epoch": 22.0, "eval_accuracy": 0.995, "eval_f1": 0.9949978595351413, "eval_kappa": 0.9899274778404512, "eval_loss": 0.005487921182066202, "eval_precision": 0.9950458715596331, "eval_recall": 0.995, "eval_runtime": 7.6114, "eval_samples_per_second": 52.552, "eval_steps_per_second": 2.233, "step": 6600 }, { "epoch": 22.033333333333335, "grad_norm": 0.0010603450937196612, "learning_rate": 0.000390717625472669, "loss": 0.0413, "step": 6610 }, { "epoch": 22.066666666666666, "grad_norm": 0.1451718658208847, "learning_rate": 0.00039032393609939823, "loss": 0.0002, "step": 6620 }, { "epoch": 22.1, "grad_norm": 4.978695142199285e-05, "learning_rate": 0.00038992973802408186, "loss": 0.0105, "step": 6630 }, { "epoch": 22.133333333333333, "grad_norm": 4.238208930473775e-05, "learning_rate": 0.00038953503267576616, "loss": 0.0145, "step": 6640 }, { "epoch": 22.166666666666668, "grad_norm": 1.652227759361267, "learning_rate": 0.000389139821485336, "loss": 0.0046, "step": 6650 }, { "epoch": 22.2, "grad_norm": 1.4371596574783325, "learning_rate": 0.0003887441058855101, "loss": 0.0048, "step": 6660 }, { "epoch": 22.233333333333334, "grad_norm": 0.01756283827126026, "learning_rate": 0.000388347887310836, "loss": 0.0005, "step": 6670 }, { "epoch": 22.266666666666666, "grad_norm": 0.007431345991790295, "learning_rate": 0.0003879511671976844, "loss": 0.0211, "step": 6680 }, { "epoch": 22.3, "grad_norm": 0.05154158174991608, "learning_rate": 0.0003875539469842443, "loss": 0.0051, "step": 6690 }, { "epoch": 22.333333333333332, "grad_norm": 17.479228973388672, "learning_rate": 0.00038715622811051755, "loss": 0.0117, "step": 6700 }, { "epoch": 22.366666666666667, "grad_norm": 0.0018899671267718077, "learning_rate": 0.0003867580120183137, "loss": 0.0056, "step": 6710 }, { "epoch": 22.4, "grad_norm": 0.4511035084724426, "learning_rate": 0.000386359300151245, "loss": 0.0026, "step": 6720 }, { "epoch": 22.433333333333334, "grad_norm": 26.481822967529297, "learning_rate": 0.000385960093954721, "loss": 0.0373, "step": 6730 }, { "epoch": 22.466666666666665, "grad_norm": 5.34855325895478e-06, "learning_rate": 0.00038556039487594305, "loss": 0.0001, "step": 6740 }, { "epoch": 22.5, "grad_norm": 0.846415102481842, "learning_rate": 0.0003851602043638994, "loss": 0.009, "step": 6750 }, { "epoch": 22.533333333333335, "grad_norm": 0.0109387943521142, "learning_rate": 0.00038475952386936, "loss": 0.0027, "step": 6760 }, { "epoch": 22.566666666666666, "grad_norm": 0.01608428731560707, "learning_rate": 0.00038435835484487094, "loss": 0.0182, "step": 6770 }, { "epoch": 22.6, "grad_norm": 8.210320629586931e-06, "learning_rate": 0.00038395669874474915, "loss": 0.0012, "step": 6780 }, { "epoch": 22.633333333333333, "grad_norm": 4.5128417696105316e-05, "learning_rate": 0.0003835545570250778, "loss": 0.0017, "step": 6790 }, { "epoch": 22.666666666666668, "grad_norm": 9.459803550271317e-05, "learning_rate": 0.00038315193114369994, "loss": 0.0702, "step": 6800 }, { "epoch": 22.7, "grad_norm": 0.1442583054304123, "learning_rate": 0.00038274882256021436, "loss": 0.0114, "step": 6810 }, { "epoch": 22.733333333333334, "grad_norm": 4.343274213169934e-06, "learning_rate": 0.00038234523273596925, "loss": 0.0054, "step": 6820 }, { "epoch": 22.766666666666666, "grad_norm": 3.1445400714874268, "learning_rate": 0.00038194116313405776, "loss": 0.0012, "step": 6830 }, { "epoch": 22.8, "grad_norm": 2.3695269192103297e-05, "learning_rate": 0.00038153661521931215, "loss": 0.0299, "step": 6840 }, { "epoch": 22.833333333333332, "grad_norm": 0.009363389573991299, "learning_rate": 0.00038113159045829857, "loss": 0.0171, "step": 6850 }, { "epoch": 22.866666666666667, "grad_norm": 24.479642868041992, "learning_rate": 0.00038072609031931216, "loss": 0.0459, "step": 6860 }, { "epoch": 22.9, "grad_norm": 0.00038373778806999326, "learning_rate": 0.00038032011627237104, "loss": 0.0467, "step": 6870 }, { "epoch": 22.933333333333334, "grad_norm": 0.0011447573779150844, "learning_rate": 0.0003799136697892115, "loss": 0.0058, "step": 6880 }, { "epoch": 22.966666666666665, "grad_norm": 0.0019354552496224642, "learning_rate": 0.00037950675234328256, "loss": 0.0077, "step": 6890 }, { "epoch": 23.0, "grad_norm": 14.743107795715332, "learning_rate": 0.0003790993654097405, "loss": 0.0033, "step": 6900 }, { "epoch": 23.0, "eval_accuracy": 0.99, "eval_f1": 0.9899957190702827, "eval_kappa": 0.9798549556809025, "eval_loss": 0.013646052218973637, "eval_precision": 0.990041334811977, "eval_recall": 0.99, "eval_runtime": 7.3674, "eval_samples_per_second": 54.294, "eval_steps_per_second": 2.307, "step": 6900 }, { "epoch": 23.033333333333335, "grad_norm": 0.00013050199777353555, "learning_rate": 0.0003786915104654436, "loss": 0.0, "step": 6910 }, { "epoch": 23.066666666666666, "grad_norm": 0.5303778648376465, "learning_rate": 0.00037828318898894665, "loss": 0.0036, "step": 6920 }, { "epoch": 23.1, "grad_norm": 8.454459930362646e-06, "learning_rate": 0.000377874402460496, "loss": 0.0046, "step": 6930 }, { "epoch": 23.133333333333333, "grad_norm": 0.005222962703555822, "learning_rate": 0.0003774651523620237, "loss": 0.0, "step": 6940 }, { "epoch": 23.166666666666668, "grad_norm": 0.1712953895330429, "learning_rate": 0.0003770554401771423, "loss": 0.0041, "step": 6950 }, { "epoch": 23.2, "grad_norm": 0.17076972126960754, "learning_rate": 0.00037664526739113955, "loss": 0.0001, "step": 6960 }, { "epoch": 23.233333333333334, "grad_norm": 0.0013726474717259407, "learning_rate": 0.00037623463549097313, "loss": 0.0001, "step": 6970 }, { "epoch": 23.266666666666666, "grad_norm": 2.5219618692062795e-05, "learning_rate": 0.0003758235459652649, "loss": 0.0013, "step": 6980 }, { "epoch": 23.3, "grad_norm": 0.31080183386802673, "learning_rate": 0.0003754120003042957, "loss": 0.0033, "step": 6990 }, { "epoch": 23.333333333333332, "grad_norm": 0.00040980897028930485, "learning_rate": 0.000375, "loss": 0.0, "step": 7000 }, { "epoch": 23.366666666666667, "grad_norm": 6.820825547038112e-06, "learning_rate": 0.0003745875465459606, "loss": 0.0021, "step": 7010 }, { "epoch": 23.4, "grad_norm": 0.22616206109523773, "learning_rate": 0.0003741746414374028, "loss": 0.0021, "step": 7020 }, { "epoch": 23.433333333333334, "grad_norm": 6.284021765168291e-06, "learning_rate": 0.0003737612861711894, "loss": 0.0005, "step": 7030 }, { "epoch": 23.466666666666665, "grad_norm": 0.004215302877128124, "learning_rate": 0.00037334748224581506, "loss": 0.0132, "step": 7040 }, { "epoch": 23.5, "grad_norm": 0.9243494272232056, "learning_rate": 0.000372933231161401, "loss": 0.0049, "step": 7050 }, { "epoch": 23.533333333333335, "grad_norm": 0.0001606469159014523, "learning_rate": 0.0003725185344196892, "loss": 0.0001, "step": 7060 }, { "epoch": 23.566666666666666, "grad_norm": 1.1334620714187622, "learning_rate": 0.0003721033935240376, "loss": 0.0027, "step": 7070 }, { "epoch": 23.6, "grad_norm": 1.3876824378967285, "learning_rate": 0.0003716878099794141, "loss": 0.0105, "step": 7080 }, { "epoch": 23.633333333333333, "grad_norm": 5.220254593041318e-07, "learning_rate": 0.00037127178529239123, "loss": 0.0146, "step": 7090 }, { "epoch": 23.666666666666668, "grad_norm": 5.209434986114502, "learning_rate": 0.00037085532097114095, "loss": 0.0073, "step": 7100 }, { "epoch": 23.7, "grad_norm": 0.0003162418433930725, "learning_rate": 0.0003704384185254288, "loss": 0.0816, "step": 7110 }, { "epoch": 23.733333333333334, "grad_norm": 0.3284040689468384, "learning_rate": 0.00037002107946660875, "loss": 0.0005, "step": 7120 }, { "epoch": 23.766666666666666, "grad_norm": 0.00015756633365526795, "learning_rate": 0.00036960330530761733, "loss": 0.0046, "step": 7130 }, { "epoch": 23.8, "grad_norm": 33.33992004394531, "learning_rate": 0.00036918509756296873, "loss": 0.0572, "step": 7140 }, { "epoch": 23.833333333333332, "grad_norm": 0.003860224736854434, "learning_rate": 0.00036876645774874876, "loss": 0.0015, "step": 7150 }, { "epoch": 23.866666666666667, "grad_norm": 2.565090539974335e-07, "learning_rate": 0.00036834738738260954, "loss": 0.009, "step": 7160 }, { "epoch": 23.9, "grad_norm": 0.0023236051201820374, "learning_rate": 0.0003679278879837642, "loss": 0.0012, "step": 7170 }, { "epoch": 23.933333333333334, "grad_norm": 21.017024993896484, "learning_rate": 0.00036750796107298106, "loss": 0.0585, "step": 7180 }, { "epoch": 23.966666666666665, "grad_norm": 0.0037448403891175985, "learning_rate": 0.00036708760817257837, "loss": 0.0031, "step": 7190 }, { "epoch": 24.0, "grad_norm": 18.846464157104492, "learning_rate": 0.00036666683080641843, "loss": 0.0181, "step": 7200 }, { "epoch": 24.0, "eval_accuracy": 0.9925, "eval_f1": 0.9924950401511573, "eval_kappa": 0.9848851269649335, "eval_loss": 0.013661917299032211, "eval_precision": 0.9926027397260273, "eval_recall": 0.9925, "eval_runtime": 8.9153, "eval_samples_per_second": 44.867, "eval_steps_per_second": 1.907, "step": 7200 }, { "epoch": 24.033333333333335, "grad_norm": 0.0003208270645700395, "learning_rate": 0.0003662456304999027, "loss": 0.0176, "step": 7210 }, { "epoch": 24.066666666666666, "grad_norm": 0.011914746835827827, "learning_rate": 0.00036582400877996547, "loss": 0.0073, "step": 7220 }, { "epoch": 24.1, "grad_norm": 0.362394779920578, "learning_rate": 0.000365401967175069, "loss": 0.0193, "step": 7230 }, { "epoch": 24.133333333333333, "grad_norm": 1.1130025256989029e-07, "learning_rate": 0.0003649795072151977, "loss": 0.0026, "step": 7240 }, { "epoch": 24.166666666666668, "grad_norm": 0.0001176462828880176, "learning_rate": 0.0003645566304318526, "loss": 0.0278, "step": 7250 }, { "epoch": 24.2, "grad_norm": 18.362728118896484, "learning_rate": 0.0003641333383580456, "loss": 0.0113, "step": 7260 }, { "epoch": 24.233333333333334, "grad_norm": 0.10462316870689392, "learning_rate": 0.0003637096325282945, "loss": 0.0138, "step": 7270 }, { "epoch": 24.266666666666666, "grad_norm": 0.006980831269174814, "learning_rate": 0.0003632855144786164, "loss": 0.0073, "step": 7280 }, { "epoch": 24.3, "grad_norm": 0.013762867078185081, "learning_rate": 0.00036286098574652353, "loss": 0.0004, "step": 7290 }, { "epoch": 24.333333333333332, "grad_norm": 13.014883995056152, "learning_rate": 0.00036243604787101645, "loss": 0.041, "step": 7300 }, { "epoch": 24.366666666666667, "grad_norm": 0.011269000358879566, "learning_rate": 0.0003620107023925791, "loss": 0.0074, "step": 7310 }, { "epoch": 24.4, "grad_norm": 0.0007277583354152739, "learning_rate": 0.000361584950853173, "loss": 0.0003, "step": 7320 }, { "epoch": 24.433333333333334, "grad_norm": 24.452768325805664, "learning_rate": 0.00036115879479623185, "loss": 0.0162, "step": 7330 }, { "epoch": 24.466666666666665, "grad_norm": 0.004250858910381794, "learning_rate": 0.0003607322357666557, "loss": 0.0102, "step": 7340 }, { "epoch": 24.5, "grad_norm": 4.788829326629639, "learning_rate": 0.0003603052753108053, "loss": 0.002, "step": 7350 }, { "epoch": 24.533333333333335, "grad_norm": 5.666919605573639e-05, "learning_rate": 0.000359877914976497, "loss": 0.0132, "step": 7360 }, { "epoch": 24.566666666666666, "grad_norm": 0.00400648545473814, "learning_rate": 0.0003594501563129966, "loss": 0.0018, "step": 7370 }, { "epoch": 24.6, "grad_norm": 2.8069054678780958e-05, "learning_rate": 0.00035902200087101384, "loss": 0.0168, "step": 7380 }, { "epoch": 24.633333333333333, "grad_norm": 0.012254276312887669, "learning_rate": 0.000358593450202697, "loss": 0.0429, "step": 7390 }, { "epoch": 24.666666666666668, "grad_norm": 7.442674387903025e-08, "learning_rate": 0.00035816450586162706, "loss": 0.0025, "step": 7400 }, { "epoch": 24.7, "grad_norm": 9.398029327392578, "learning_rate": 0.00035773516940281223, "loss": 0.0135, "step": 7410 }, { "epoch": 24.733333333333334, "grad_norm": 1.0428972927911673e-05, "learning_rate": 0.00035730544238268206, "loss": 0.0181, "step": 7420 }, { "epoch": 24.766666666666666, "grad_norm": 0.0002591295342426747, "learning_rate": 0.00035687532635908216, "loss": 0.0039, "step": 7430 }, { "epoch": 24.8, "grad_norm": 0.00013015963486395776, "learning_rate": 0.0003564448228912682, "loss": 0.0033, "step": 7440 }, { "epoch": 24.833333333333332, "grad_norm": 0.19798079133033752, "learning_rate": 0.00035601393353990046, "loss": 0.0, "step": 7450 }, { "epoch": 24.866666666666667, "grad_norm": 0.18493784964084625, "learning_rate": 0.0003555826598670382, "loss": 0.0171, "step": 7460 }, { "epoch": 24.9, "grad_norm": 0.0026060056407004595, "learning_rate": 0.0003551510034361337, "loss": 0.0366, "step": 7470 }, { "epoch": 24.933333333333334, "grad_norm": 0.0010627699084579945, "learning_rate": 0.0003547189658120272, "loss": 0.0027, "step": 7480 }, { "epoch": 24.966666666666665, "grad_norm": 5.541090104088653e-06, "learning_rate": 0.0003542865485609404, "loss": 0.0009, "step": 7490 }, { "epoch": 25.0, "grad_norm": 0.0014559195842593908, "learning_rate": 0.00035385375325047166, "loss": 0.0171, "step": 7500 }, { "epoch": 25.0, "eval_accuracy": 1.0, "eval_f1": 1.0, "eval_kappa": 1.0, "eval_loss": 0.005007035564631224, "eval_precision": 1.0, "eval_recall": 1.0, "eval_runtime": 8.9128, "eval_samples_per_second": 44.879, "eval_steps_per_second": 1.907, "step": 7500 } ], "logging_steps": 10, "max_steps": 18000, "num_input_tokens_seen": 0, "num_train_epochs": 60, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.89101405896704e+18, "train_batch_size": 24, "trial_name": null, "trial_params": null }