|
{ |
|
"best_metric": 1.0, |
|
"best_model_checkpoint": "phikon_leopard_2/checkpoint-7500", |
|
"epoch": 25.0, |
|
"eval_steps": 500, |
|
"global_step": 7500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 10.40684986114502, |
|
"learning_rate": 3.3333333333333337e-06, |
|
"loss": 0.8204, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 13.229052543640137, |
|
"learning_rate": 6.6666666666666675e-06, |
|
"loss": 0.8376, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 14.727029800415039, |
|
"learning_rate": 1e-05, |
|
"loss": 0.8368, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 19.26563835144043, |
|
"learning_rate": 1.3333333333333335e-05, |
|
"loss": 0.6774, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 12.464519500732422, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.6611, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 9.706178665161133, |
|
"learning_rate": 2e-05, |
|
"loss": 0.5936, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 20.20228385925293, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.5647, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 9.019632339477539, |
|
"learning_rate": 2.666666666666667e-05, |
|
"loss": 0.4235, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 9.443696022033691, |
|
"learning_rate": 3e-05, |
|
"loss": 0.3427, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 13.720805168151855, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.3335, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 32.24056625366211, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 0.2616, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 27.36871910095215, |
|
"learning_rate": 4e-05, |
|
"loss": 0.231, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 6.440493106842041, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.2306, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 3.979595422744751, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 0.1915, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 14.703475952148438, |
|
"learning_rate": 5e-05, |
|
"loss": 0.2146, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 12.133000373840332, |
|
"learning_rate": 5.333333333333334e-05, |
|
"loss": 0.1677, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 3.946819305419922, |
|
"learning_rate": 5.6666666666666664e-05, |
|
"loss": 0.1136, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 17.351539611816406, |
|
"learning_rate": 6e-05, |
|
"loss": 0.1685, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 8.088935852050781, |
|
"learning_rate": 6.333333333333335e-05, |
|
"loss": 0.2801, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 1.9004828929901123, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 0.1142, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 22.632282257080078, |
|
"learning_rate": 7.000000000000001e-05, |
|
"loss": 0.1934, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 16.069622039794922, |
|
"learning_rate": 7.333333333333333e-05, |
|
"loss": 0.2116, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 4.640405178070068, |
|
"learning_rate": 7.666666666666667e-05, |
|
"loss": 0.2516, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 21.024972915649414, |
|
"learning_rate": 8e-05, |
|
"loss": 0.2464, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 24.865827560424805, |
|
"learning_rate": 8.333333333333333e-05, |
|
"loss": 0.1282, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 57.33536911010742, |
|
"learning_rate": 8.666666666666667e-05, |
|
"loss": 0.1288, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 2.9938220977783203, |
|
"learning_rate": 8.999999999999999e-05, |
|
"loss": 0.0878, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 5.010091781616211, |
|
"learning_rate": 9.333333333333334e-05, |
|
"loss": 0.0548, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 11.914796829223633, |
|
"learning_rate": 9.666666666666667e-05, |
|
"loss": 0.1699, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 3.1874632835388184, |
|
"learning_rate": 0.0001, |
|
"loss": 0.1314, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_accuracy": 0.965, |
|
"eval_f1": 0.9650526315789475, |
|
"eval_kappa": 0.9298878205128205, |
|
"eval_loss": 0.0974951758980751, |
|
"eval_precision": 0.9668427370948379, |
|
"eval_recall": 0.965, |
|
"eval_runtime": 7.3478, |
|
"eval_samples_per_second": 54.438, |
|
"eval_steps_per_second": 2.314, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.0333333333333334, |
|
"grad_norm": 5.853661060333252, |
|
"learning_rate": 0.00010333333333333333, |
|
"loss": 0.1632, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 4.40404748916626, |
|
"learning_rate": 0.00010666666666666668, |
|
"loss": 0.179, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 13.998967170715332, |
|
"learning_rate": 0.00011, |
|
"loss": 0.1205, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 2.588562488555908, |
|
"learning_rate": 0.00011333333333333333, |
|
"loss": 0.0696, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 58.213844299316406, |
|
"learning_rate": 0.00011666666666666667, |
|
"loss": 0.185, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 0.5367558598518372, |
|
"learning_rate": 0.00012, |
|
"loss": 0.0978, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 1.2333333333333334, |
|
"grad_norm": 5.09960412979126, |
|
"learning_rate": 0.00012333333333333334, |
|
"loss": 0.0441, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 8.864643096923828, |
|
"learning_rate": 0.0001266666666666667, |
|
"loss": 0.133, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 18.213979721069336, |
|
"learning_rate": 0.00013000000000000002, |
|
"loss": 0.1125, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 43.96633529663086, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 0.081, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.3666666666666667, |
|
"grad_norm": 16.093639373779297, |
|
"learning_rate": 0.00013666666666666666, |
|
"loss": 0.2059, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 5.3681182861328125, |
|
"learning_rate": 0.00014000000000000001, |
|
"loss": 0.1092, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 1.4333333333333333, |
|
"grad_norm": 22.289615631103516, |
|
"learning_rate": 0.00014333333333333334, |
|
"loss": 0.1799, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 10.704950332641602, |
|
"learning_rate": 0.00014666666666666666, |
|
"loss": 0.0896, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 9.731138229370117, |
|
"learning_rate": 0.00015, |
|
"loss": 0.084, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 1.5333333333333332, |
|
"grad_norm": 73.84809875488281, |
|
"learning_rate": 0.00015333333333333334, |
|
"loss": 0.1068, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 1.5666666666666667, |
|
"grad_norm": 11.718538284301758, |
|
"learning_rate": 0.0001566666666666667, |
|
"loss": 0.1381, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 6.703563690185547, |
|
"learning_rate": 0.00016, |
|
"loss": 0.1447, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 1.6333333333333333, |
|
"grad_norm": 0.5254905223846436, |
|
"learning_rate": 0.00016333333333333334, |
|
"loss": 0.1534, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 15.59839153289795, |
|
"learning_rate": 0.00016666666666666666, |
|
"loss": 0.0839, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 51.54722595214844, |
|
"learning_rate": 0.00017, |
|
"loss": 0.0946, |
|
"step": 510 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 0.4045482277870178, |
|
"learning_rate": 0.00017333333333333334, |
|
"loss": 0.1094, |
|
"step": 520 |
|
}, |
|
{ |
|
"epoch": 1.7666666666666666, |
|
"grad_norm": 1.8732757568359375, |
|
"learning_rate": 0.00017666666666666666, |
|
"loss": 0.0615, |
|
"step": 530 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 2.8650341033935547, |
|
"learning_rate": 0.00017999999999999998, |
|
"loss": 0.0313, |
|
"step": 540 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 53.85961151123047, |
|
"learning_rate": 0.00018333333333333334, |
|
"loss": 0.2269, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 22.627843856811523, |
|
"learning_rate": 0.0001866666666666667, |
|
"loss": 0.1654, |
|
"step": 560 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 26.226465225219727, |
|
"learning_rate": 0.00019, |
|
"loss": 0.0884, |
|
"step": 570 |
|
}, |
|
{ |
|
"epoch": 1.9333333333333333, |
|
"grad_norm": 2.285435676574707, |
|
"learning_rate": 0.00019333333333333333, |
|
"loss": 0.1131, |
|
"step": 580 |
|
}, |
|
{ |
|
"epoch": 1.9666666666666668, |
|
"grad_norm": 25.028507232666016, |
|
"learning_rate": 0.00019666666666666666, |
|
"loss": 0.1031, |
|
"step": 590 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 0.4155627489089966, |
|
"learning_rate": 0.0002, |
|
"loss": 0.0514, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924984425244319, |
|
"eval_kappa": 0.9848973016512284, |
|
"eval_loss": 0.032248713076114655, |
|
"eval_precision": 0.9925093802724686, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.4789, |
|
"eval_samples_per_second": 53.484, |
|
"eval_steps_per_second": 2.273, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 2.033333333333333, |
|
"grad_norm": 11.480493545532227, |
|
"learning_rate": 0.00020333333333333333, |
|
"loss": 0.1238, |
|
"step": 610 |
|
}, |
|
{ |
|
"epoch": 2.066666666666667, |
|
"grad_norm": 34.10750198364258, |
|
"learning_rate": 0.00020666666666666666, |
|
"loss": 0.1613, |
|
"step": 620 |
|
}, |
|
{ |
|
"epoch": 2.1, |
|
"grad_norm": 59.7767333984375, |
|
"learning_rate": 0.00021, |
|
"loss": 0.153, |
|
"step": 630 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 0.030956873670220375, |
|
"learning_rate": 0.00021333333333333336, |
|
"loss": 0.0362, |
|
"step": 640 |
|
}, |
|
{ |
|
"epoch": 2.1666666666666665, |
|
"grad_norm": 0.7113701105117798, |
|
"learning_rate": 0.00021666666666666668, |
|
"loss": 0.1279, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 2.2, |
|
"grad_norm": 0.036753419786691666, |
|
"learning_rate": 0.00022, |
|
"loss": 0.0826, |
|
"step": 660 |
|
}, |
|
{ |
|
"epoch": 2.2333333333333334, |
|
"grad_norm": 31.153987884521484, |
|
"learning_rate": 0.00022333333333333333, |
|
"loss": 0.0544, |
|
"step": 670 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"grad_norm": 41.63099670410156, |
|
"learning_rate": 0.00022666666666666666, |
|
"loss": 0.1596, |
|
"step": 680 |
|
}, |
|
{ |
|
"epoch": 2.3, |
|
"grad_norm": 16.148771286010742, |
|
"learning_rate": 0.00023, |
|
"loss": 0.3149, |
|
"step": 690 |
|
}, |
|
{ |
|
"epoch": 2.3333333333333335, |
|
"grad_norm": 3.936267852783203, |
|
"learning_rate": 0.00023333333333333333, |
|
"loss": 0.087, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 2.3666666666666667, |
|
"grad_norm": 10.360591888427734, |
|
"learning_rate": 0.00023666666666666668, |
|
"loss": 0.0539, |
|
"step": 710 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 7.021051406860352, |
|
"learning_rate": 0.00024, |
|
"loss": 0.1349, |
|
"step": 720 |
|
}, |
|
{ |
|
"epoch": 2.4333333333333336, |
|
"grad_norm": 19.7969913482666, |
|
"learning_rate": 0.00024333333333333336, |
|
"loss": 0.1902, |
|
"step": 730 |
|
}, |
|
{ |
|
"epoch": 2.466666666666667, |
|
"grad_norm": 3.9114363193511963, |
|
"learning_rate": 0.0002466666666666667, |
|
"loss": 0.1267, |
|
"step": 740 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 7.794479846954346, |
|
"learning_rate": 0.00025, |
|
"loss": 0.06, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"grad_norm": 6.126293659210205, |
|
"learning_rate": 0.0002533333333333334, |
|
"loss": 0.1415, |
|
"step": 760 |
|
}, |
|
{ |
|
"epoch": 2.5666666666666664, |
|
"grad_norm": 37.84233474731445, |
|
"learning_rate": 0.00025666666666666665, |
|
"loss": 0.1258, |
|
"step": 770 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"grad_norm": 23.545204162597656, |
|
"learning_rate": 0.00026000000000000003, |
|
"loss": 0.171, |
|
"step": 780 |
|
}, |
|
{ |
|
"epoch": 2.6333333333333333, |
|
"grad_norm": 28.475013732910156, |
|
"learning_rate": 0.0002633333333333333, |
|
"loss": 0.257, |
|
"step": 790 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 3.5256567001342773, |
|
"learning_rate": 0.0002666666666666667, |
|
"loss": 0.0947, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 2.7, |
|
"grad_norm": 3.099149703979492, |
|
"learning_rate": 0.00027, |
|
"loss": 0.064, |
|
"step": 810 |
|
}, |
|
{ |
|
"epoch": 2.7333333333333334, |
|
"grad_norm": 0.26131123304367065, |
|
"learning_rate": 0.00027333333333333333, |
|
"loss": 0.0546, |
|
"step": 820 |
|
}, |
|
{ |
|
"epoch": 2.7666666666666666, |
|
"grad_norm": 12.054543495178223, |
|
"learning_rate": 0.00027666666666666665, |
|
"loss": 0.0212, |
|
"step": 830 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 0.029533645138144493, |
|
"learning_rate": 0.00028000000000000003, |
|
"loss": 0.1015, |
|
"step": 840 |
|
}, |
|
{ |
|
"epoch": 2.8333333333333335, |
|
"grad_norm": 15.776507377624512, |
|
"learning_rate": 0.00028333333333333335, |
|
"loss": 0.0697, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 2.8666666666666667, |
|
"grad_norm": 27.243316650390625, |
|
"learning_rate": 0.0002866666666666667, |
|
"loss": 0.0792, |
|
"step": 860 |
|
}, |
|
{ |
|
"epoch": 2.9, |
|
"grad_norm": 1.336427092552185, |
|
"learning_rate": 0.00029, |
|
"loss": 0.0692, |
|
"step": 870 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"grad_norm": 0.8693376183509827, |
|
"learning_rate": 0.0002933333333333333, |
|
"loss": 0.1561, |
|
"step": 880 |
|
}, |
|
{ |
|
"epoch": 2.966666666666667, |
|
"grad_norm": 23.98179054260254, |
|
"learning_rate": 0.0002966666666666667, |
|
"loss": 0.0723, |
|
"step": 890 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 7.080474853515625, |
|
"learning_rate": 0.0003, |
|
"loss": 0.0331, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_accuracy": 0.975, |
|
"eval_f1": 0.9749336434186909, |
|
"eval_kappa": 0.9494745351657236, |
|
"eval_loss": 0.07423003017902374, |
|
"eval_precision": 0.9761061946902655, |
|
"eval_recall": 0.975, |
|
"eval_runtime": 7.4439, |
|
"eval_samples_per_second": 53.735, |
|
"eval_steps_per_second": 2.284, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 3.033333333333333, |
|
"grad_norm": 0.6346681714057922, |
|
"learning_rate": 0.00030333333333333335, |
|
"loss": 0.0951, |
|
"step": 910 |
|
}, |
|
{ |
|
"epoch": 3.066666666666667, |
|
"grad_norm": 5.4937262535095215, |
|
"learning_rate": 0.0003066666666666667, |
|
"loss": 0.0309, |
|
"step": 920 |
|
}, |
|
{ |
|
"epoch": 3.1, |
|
"grad_norm": 0.28873440623283386, |
|
"learning_rate": 0.00031, |
|
"loss": 0.0722, |
|
"step": 930 |
|
}, |
|
{ |
|
"epoch": 3.1333333333333333, |
|
"grad_norm": 23.229862213134766, |
|
"learning_rate": 0.0003133333333333334, |
|
"loss": 0.1332, |
|
"step": 940 |
|
}, |
|
{ |
|
"epoch": 3.1666666666666665, |
|
"grad_norm": 12.44790267944336, |
|
"learning_rate": 0.00031666666666666665, |
|
"loss": 0.1945, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 24.034635543823242, |
|
"learning_rate": 0.00032, |
|
"loss": 0.0665, |
|
"step": 960 |
|
}, |
|
{ |
|
"epoch": 3.2333333333333334, |
|
"grad_norm": 4.845742225646973, |
|
"learning_rate": 0.0003233333333333333, |
|
"loss": 0.1132, |
|
"step": 970 |
|
}, |
|
{ |
|
"epoch": 3.2666666666666666, |
|
"grad_norm": 13.879509925842285, |
|
"learning_rate": 0.0003266666666666667, |
|
"loss": 0.1168, |
|
"step": 980 |
|
}, |
|
{ |
|
"epoch": 3.3, |
|
"grad_norm": 0.8819650411605835, |
|
"learning_rate": 0.00033, |
|
"loss": 0.03, |
|
"step": 990 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 20.817033767700195, |
|
"learning_rate": 0.0003333333333333333, |
|
"loss": 0.1599, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 3.3666666666666667, |
|
"grad_norm": 0.08637402951717377, |
|
"learning_rate": 0.0003366666666666667, |
|
"loss": 0.0989, |
|
"step": 1010 |
|
}, |
|
{ |
|
"epoch": 3.4, |
|
"grad_norm": 12.32111644744873, |
|
"learning_rate": 0.00034, |
|
"loss": 0.064, |
|
"step": 1020 |
|
}, |
|
{ |
|
"epoch": 3.4333333333333336, |
|
"grad_norm": 4.319044589996338, |
|
"learning_rate": 0.00034333333333333335, |
|
"loss": 0.1845, |
|
"step": 1030 |
|
}, |
|
{ |
|
"epoch": 3.466666666666667, |
|
"grad_norm": 4.642833232879639, |
|
"learning_rate": 0.00034666666666666667, |
|
"loss": 0.0245, |
|
"step": 1040 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"grad_norm": 4.123671531677246, |
|
"learning_rate": 0.00035, |
|
"loss": 0.0534, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 3.533333333333333, |
|
"grad_norm": 39.12535858154297, |
|
"learning_rate": 0.0003533333333333333, |
|
"loss": 0.2904, |
|
"step": 1060 |
|
}, |
|
{ |
|
"epoch": 3.5666666666666664, |
|
"grad_norm": 0.37203097343444824, |
|
"learning_rate": 0.0003566666666666667, |
|
"loss": 0.1135, |
|
"step": 1070 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"grad_norm": 0.8821052312850952, |
|
"learning_rate": 0.00035999999999999997, |
|
"loss": 0.1018, |
|
"step": 1080 |
|
}, |
|
{ |
|
"epoch": 3.6333333333333333, |
|
"grad_norm": 16.677507400512695, |
|
"learning_rate": 0.00036333333333333335, |
|
"loss": 0.1235, |
|
"step": 1090 |
|
}, |
|
{ |
|
"epoch": 3.6666666666666665, |
|
"grad_norm": 1.3173631429672241, |
|
"learning_rate": 0.00036666666666666667, |
|
"loss": 0.0596, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 3.7, |
|
"grad_norm": 1.2510654926300049, |
|
"learning_rate": 0.00037, |
|
"loss": 0.0666, |
|
"step": 1110 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"grad_norm": 14.92336654663086, |
|
"learning_rate": 0.0003733333333333334, |
|
"loss": 0.1338, |
|
"step": 1120 |
|
}, |
|
{ |
|
"epoch": 3.7666666666666666, |
|
"grad_norm": 39.0262336730957, |
|
"learning_rate": 0.00037666666666666664, |
|
"loss": 0.0891, |
|
"step": 1130 |
|
}, |
|
{ |
|
"epoch": 3.8, |
|
"grad_norm": 0.018070606514811516, |
|
"learning_rate": 0.00038, |
|
"loss": 0.031, |
|
"step": 1140 |
|
}, |
|
{ |
|
"epoch": 3.8333333333333335, |
|
"grad_norm": 22.499074935913086, |
|
"learning_rate": 0.00038333333333333334, |
|
"loss": 0.0426, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 3.8666666666666667, |
|
"grad_norm": 8.244810104370117, |
|
"learning_rate": 0.00038666666666666667, |
|
"loss": 0.0845, |
|
"step": 1160 |
|
}, |
|
{ |
|
"epoch": 3.9, |
|
"grad_norm": 2.2742626667022705, |
|
"learning_rate": 0.00039000000000000005, |
|
"loss": 0.0561, |
|
"step": 1170 |
|
}, |
|
{ |
|
"epoch": 3.9333333333333336, |
|
"grad_norm": 0.7521847486495972, |
|
"learning_rate": 0.0003933333333333333, |
|
"loss": 0.0572, |
|
"step": 1180 |
|
}, |
|
{ |
|
"epoch": 3.966666666666667, |
|
"grad_norm": 0.09927993267774582, |
|
"learning_rate": 0.0003966666666666667, |
|
"loss": 0.1111, |
|
"step": 1190 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 18.968303680419922, |
|
"learning_rate": 0.0004, |
|
"loss": 0.1484, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_accuracy": 0.99, |
|
"eval_f1": 0.989990926504688, |
|
"eval_kappa": 0.9798387096774194, |
|
"eval_loss": 0.04373510926961899, |
|
"eval_precision": 0.9901818181818182, |
|
"eval_recall": 0.99, |
|
"eval_runtime": 7.4926, |
|
"eval_samples_per_second": 53.386, |
|
"eval_steps_per_second": 2.269, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 4.033333333333333, |
|
"grad_norm": 25.371929168701172, |
|
"learning_rate": 0.00040333333333333334, |
|
"loss": 0.0635, |
|
"step": 1210 |
|
}, |
|
{ |
|
"epoch": 4.066666666666666, |
|
"grad_norm": 14.979025840759277, |
|
"learning_rate": 0.00040666666666666667, |
|
"loss": 0.2519, |
|
"step": 1220 |
|
}, |
|
{ |
|
"epoch": 4.1, |
|
"grad_norm": 12.460908889770508, |
|
"learning_rate": 0.00041, |
|
"loss": 0.1177, |
|
"step": 1230 |
|
}, |
|
{ |
|
"epoch": 4.133333333333334, |
|
"grad_norm": 1.3772943019866943, |
|
"learning_rate": 0.0004133333333333333, |
|
"loss": 0.0524, |
|
"step": 1240 |
|
}, |
|
{ |
|
"epoch": 4.166666666666667, |
|
"grad_norm": 29.62944221496582, |
|
"learning_rate": 0.0004166666666666667, |
|
"loss": 0.0839, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 4.2, |
|
"grad_norm": 15.755326271057129, |
|
"learning_rate": 0.00042, |
|
"loss": 0.2239, |
|
"step": 1260 |
|
}, |
|
{ |
|
"epoch": 4.233333333333333, |
|
"grad_norm": 2.076596975326538, |
|
"learning_rate": 0.00042333333333333334, |
|
"loss": 0.0918, |
|
"step": 1270 |
|
}, |
|
{ |
|
"epoch": 4.266666666666667, |
|
"grad_norm": 3.272007703781128, |
|
"learning_rate": 0.0004266666666666667, |
|
"loss": 0.0529, |
|
"step": 1280 |
|
}, |
|
{ |
|
"epoch": 4.3, |
|
"grad_norm": 1.8795185089111328, |
|
"learning_rate": 0.00043, |
|
"loss": 0.069, |
|
"step": 1290 |
|
}, |
|
{ |
|
"epoch": 4.333333333333333, |
|
"grad_norm": 0.2725735902786255, |
|
"learning_rate": 0.00043333333333333337, |
|
"loss": 0.0404, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 4.366666666666666, |
|
"grad_norm": 28.226680755615234, |
|
"learning_rate": 0.00043666666666666664, |
|
"loss": 0.0561, |
|
"step": 1310 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"grad_norm": 5.252725601196289, |
|
"learning_rate": 0.00044, |
|
"loss": 0.1038, |
|
"step": 1320 |
|
}, |
|
{ |
|
"epoch": 4.433333333333334, |
|
"grad_norm": 1.2938400506973267, |
|
"learning_rate": 0.00044333333333333334, |
|
"loss": 0.2152, |
|
"step": 1330 |
|
}, |
|
{ |
|
"epoch": 4.466666666666667, |
|
"grad_norm": 9.768004417419434, |
|
"learning_rate": 0.00044666666666666666, |
|
"loss": 0.0891, |
|
"step": 1340 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"grad_norm": 0.7659115791320801, |
|
"learning_rate": 0.00045000000000000004, |
|
"loss": 0.0769, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 4.533333333333333, |
|
"grad_norm": 0.8454284071922302, |
|
"learning_rate": 0.0004533333333333333, |
|
"loss": 0.0795, |
|
"step": 1360 |
|
}, |
|
{ |
|
"epoch": 4.566666666666666, |
|
"grad_norm": 19.232542037963867, |
|
"learning_rate": 0.0004566666666666667, |
|
"loss": 0.0874, |
|
"step": 1370 |
|
}, |
|
{ |
|
"epoch": 4.6, |
|
"grad_norm": 20.568710327148438, |
|
"learning_rate": 0.00046, |
|
"loss": 0.0861, |
|
"step": 1380 |
|
}, |
|
{ |
|
"epoch": 4.633333333333333, |
|
"grad_norm": 14.232442855834961, |
|
"learning_rate": 0.00046333333333333334, |
|
"loss": 0.0653, |
|
"step": 1390 |
|
}, |
|
{ |
|
"epoch": 4.666666666666667, |
|
"grad_norm": 0.21883870661258698, |
|
"learning_rate": 0.00046666666666666666, |
|
"loss": 0.0606, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 4.7, |
|
"grad_norm": 6.472827911376953, |
|
"learning_rate": 0.00047, |
|
"loss": 0.0891, |
|
"step": 1410 |
|
}, |
|
{ |
|
"epoch": 4.733333333333333, |
|
"grad_norm": 4.268059253692627, |
|
"learning_rate": 0.00047333333333333336, |
|
"loss": 0.0715, |
|
"step": 1420 |
|
}, |
|
{ |
|
"epoch": 4.766666666666667, |
|
"grad_norm": 1.4576590061187744, |
|
"learning_rate": 0.0004766666666666667, |
|
"loss": 0.1292, |
|
"step": 1430 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"grad_norm": 36.225502014160156, |
|
"learning_rate": 0.00048, |
|
"loss": 0.154, |
|
"step": 1440 |
|
}, |
|
{ |
|
"epoch": 4.833333333333333, |
|
"grad_norm": 0.5948257446289062, |
|
"learning_rate": 0.00048333333333333334, |
|
"loss": 0.0321, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 4.866666666666667, |
|
"grad_norm": 0.3781585693359375, |
|
"learning_rate": 0.0004866666666666667, |
|
"loss": 0.0378, |
|
"step": 1460 |
|
}, |
|
{ |
|
"epoch": 4.9, |
|
"grad_norm": 16.30947494506836, |
|
"learning_rate": 0.00049, |
|
"loss": 0.1035, |
|
"step": 1470 |
|
}, |
|
{ |
|
"epoch": 4.933333333333334, |
|
"grad_norm": 12.747450828552246, |
|
"learning_rate": 0.0004933333333333334, |
|
"loss": 0.0539, |
|
"step": 1480 |
|
}, |
|
{ |
|
"epoch": 4.966666666666667, |
|
"grad_norm": 20.051815032958984, |
|
"learning_rate": 0.0004966666666666666, |
|
"loss": 0.097, |
|
"step": 1490 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"grad_norm": 1.6473357677459717, |
|
"learning_rate": 0.0005, |
|
"loss": 0.1261, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924984425244319, |
|
"eval_kappa": 0.9848973016512284, |
|
"eval_loss": 0.04971776530146599, |
|
"eval_precision": 0.9925093802724686, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.2832, |
|
"eval_samples_per_second": 54.921, |
|
"eval_steps_per_second": 2.334, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 5.033333333333333, |
|
"grad_norm": 0.21915239095687866, |
|
"learning_rate": 0.0004999995468502563, |
|
"loss": 0.1911, |
|
"step": 1510 |
|
}, |
|
{ |
|
"epoch": 5.066666666666666, |
|
"grad_norm": 4.358417987823486, |
|
"learning_rate": 0.0004999981874026677, |
|
"loss": 0.1721, |
|
"step": 1520 |
|
}, |
|
{ |
|
"epoch": 5.1, |
|
"grad_norm": 2.60898756980896, |
|
"learning_rate": 0.0004999959216621625, |
|
"loss": 0.0663, |
|
"step": 1530 |
|
}, |
|
{ |
|
"epoch": 5.133333333333334, |
|
"grad_norm": 2.521845579147339, |
|
"learning_rate": 0.0004999927496369547, |
|
"loss": 0.0661, |
|
"step": 1540 |
|
}, |
|
{ |
|
"epoch": 5.166666666666667, |
|
"grad_norm": 17.43767547607422, |
|
"learning_rate": 0.0004999886713385432, |
|
"loss": 0.0643, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 5.2, |
|
"grad_norm": 10.015254974365234, |
|
"learning_rate": 0.000499983686781713, |
|
"loss": 0.1634, |
|
"step": 1560 |
|
}, |
|
{ |
|
"epoch": 5.233333333333333, |
|
"grad_norm": 14.734820365905762, |
|
"learning_rate": 0.0004999777959845337, |
|
"loss": 0.0929, |
|
"step": 1570 |
|
}, |
|
{ |
|
"epoch": 5.266666666666667, |
|
"grad_norm": 18.222352981567383, |
|
"learning_rate": 0.0004999709989683607, |
|
"loss": 0.1415, |
|
"step": 1580 |
|
}, |
|
{ |
|
"epoch": 5.3, |
|
"grad_norm": 4.770617961883545, |
|
"learning_rate": 0.0004999632957578349, |
|
"loss": 0.0573, |
|
"step": 1590 |
|
}, |
|
{ |
|
"epoch": 5.333333333333333, |
|
"grad_norm": 31.683618545532227, |
|
"learning_rate": 0.0004999546863808815, |
|
"loss": 0.129, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 5.366666666666666, |
|
"grad_norm": 0.03848810866475105, |
|
"learning_rate": 0.0004999451708687113, |
|
"loss": 0.0678, |
|
"step": 1610 |
|
}, |
|
{ |
|
"epoch": 5.4, |
|
"grad_norm": 0.01938723959028721, |
|
"learning_rate": 0.0004999347492558202, |
|
"loss": 0.1103, |
|
"step": 1620 |
|
}, |
|
{ |
|
"epoch": 5.433333333333334, |
|
"grad_norm": 12.235125541687012, |
|
"learning_rate": 0.0004999234215799884, |
|
"loss": 0.2061, |
|
"step": 1630 |
|
}, |
|
{ |
|
"epoch": 5.466666666666667, |
|
"grad_norm": 3.241697311401367, |
|
"learning_rate": 0.0004999111878822808, |
|
"loss": 0.0229, |
|
"step": 1640 |
|
}, |
|
{ |
|
"epoch": 5.5, |
|
"grad_norm": 18.129112243652344, |
|
"learning_rate": 0.0004998980482070473, |
|
"loss": 0.1596, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 5.533333333333333, |
|
"grad_norm": 0.8510303497314453, |
|
"learning_rate": 0.0004998840026019216, |
|
"loss": 0.0243, |
|
"step": 1660 |
|
}, |
|
{ |
|
"epoch": 5.566666666666666, |
|
"grad_norm": 0.5481222867965698, |
|
"learning_rate": 0.000499869051117822, |
|
"loss": 0.0365, |
|
"step": 1670 |
|
}, |
|
{ |
|
"epoch": 5.6, |
|
"grad_norm": 0.0010958850616589189, |
|
"learning_rate": 0.0004998531938089503, |
|
"loss": 0.1484, |
|
"step": 1680 |
|
}, |
|
{ |
|
"epoch": 5.633333333333333, |
|
"grad_norm": 8.034405708312988, |
|
"learning_rate": 0.0004998364307327927, |
|
"loss": 0.0568, |
|
"step": 1690 |
|
}, |
|
{ |
|
"epoch": 5.666666666666667, |
|
"grad_norm": 2.918168544769287, |
|
"learning_rate": 0.0004998187619501184, |
|
"loss": 0.0234, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 5.7, |
|
"grad_norm": 7.948535442352295, |
|
"learning_rate": 0.0004998001875249804, |
|
"loss": 0.0457, |
|
"step": 1710 |
|
}, |
|
{ |
|
"epoch": 5.733333333333333, |
|
"grad_norm": 1.4337245225906372, |
|
"learning_rate": 0.0004997807075247146, |
|
"loss": 0.1755, |
|
"step": 1720 |
|
}, |
|
{ |
|
"epoch": 5.766666666666667, |
|
"grad_norm": 0.09344102442264557, |
|
"learning_rate": 0.0004997603220199398, |
|
"loss": 0.0266, |
|
"step": 1730 |
|
}, |
|
{ |
|
"epoch": 5.8, |
|
"grad_norm": 29.620872497558594, |
|
"learning_rate": 0.0004997390310845578, |
|
"loss": 0.1196, |
|
"step": 1740 |
|
}, |
|
{ |
|
"epoch": 5.833333333333333, |
|
"grad_norm": 0.45817267894744873, |
|
"learning_rate": 0.000499716834795752, |
|
"loss": 0.0245, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 5.866666666666667, |
|
"grad_norm": 22.253326416015625, |
|
"learning_rate": 0.0004996937332339887, |
|
"loss": 0.1039, |
|
"step": 1760 |
|
}, |
|
{ |
|
"epoch": 5.9, |
|
"grad_norm": 20.02093505859375, |
|
"learning_rate": 0.0004996697264830153, |
|
"loss": 0.0605, |
|
"step": 1770 |
|
}, |
|
{ |
|
"epoch": 5.933333333333334, |
|
"grad_norm": 6.386890888214111, |
|
"learning_rate": 0.0004996448146298614, |
|
"loss": 0.0826, |
|
"step": 1780 |
|
}, |
|
{ |
|
"epoch": 5.966666666666667, |
|
"grad_norm": 1.342224359512329, |
|
"learning_rate": 0.0004996189977648372, |
|
"loss": 0.0278, |
|
"step": 1790 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"grad_norm": 0.06541286408901215, |
|
"learning_rate": 0.0004995922759815339, |
|
"loss": 0.0965, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"eval_accuracy": 0.99, |
|
"eval_f1": 0.9900037712130737, |
|
"eval_kappa": 0.9798873692679002, |
|
"eval_loss": 0.031534310430288315, |
|
"eval_precision": 0.990057280675309, |
|
"eval_recall": 0.99, |
|
"eval_runtime": 7.3582, |
|
"eval_samples_per_second": 54.361, |
|
"eval_steps_per_second": 2.31, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 6.033333333333333, |
|
"grad_norm": 11.891799926757812, |
|
"learning_rate": 0.0004995646493768233, |
|
"loss": 0.1096, |
|
"step": 1810 |
|
}, |
|
{ |
|
"epoch": 6.066666666666666, |
|
"grad_norm": 4.773056507110596, |
|
"learning_rate": 0.0004995361180508575, |
|
"loss": 0.0887, |
|
"step": 1820 |
|
}, |
|
{ |
|
"epoch": 6.1, |
|
"grad_norm": 0.0633956715464592, |
|
"learning_rate": 0.0004995066821070679, |
|
"loss": 0.0595, |
|
"step": 1830 |
|
}, |
|
{ |
|
"epoch": 6.133333333333334, |
|
"grad_norm": 1.1848310232162476, |
|
"learning_rate": 0.0004994763416521659, |
|
"loss": 0.0457, |
|
"step": 1840 |
|
}, |
|
{ |
|
"epoch": 6.166666666666667, |
|
"grad_norm": 1.9995553493499756, |
|
"learning_rate": 0.0004994450967961413, |
|
"loss": 0.081, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 6.2, |
|
"grad_norm": 6.867255210876465, |
|
"learning_rate": 0.0004994129476522632, |
|
"loss": 0.0517, |
|
"step": 1860 |
|
}, |
|
{ |
|
"epoch": 6.233333333333333, |
|
"grad_norm": 20.199514389038086, |
|
"learning_rate": 0.0004993798943370785, |
|
"loss": 0.0343, |
|
"step": 1870 |
|
}, |
|
{ |
|
"epoch": 6.266666666666667, |
|
"grad_norm": 0.19586598873138428, |
|
"learning_rate": 0.0004993459369704121, |
|
"loss": 0.0611, |
|
"step": 1880 |
|
}, |
|
{ |
|
"epoch": 6.3, |
|
"grad_norm": 21.155536651611328, |
|
"learning_rate": 0.0004993110756753659, |
|
"loss": 0.021, |
|
"step": 1890 |
|
}, |
|
{ |
|
"epoch": 6.333333333333333, |
|
"grad_norm": 3.191210985183716, |
|
"learning_rate": 0.0004992753105783193, |
|
"loss": 0.2308, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 6.366666666666666, |
|
"grad_norm": 0.9887709617614746, |
|
"learning_rate": 0.0004992386418089279, |
|
"loss": 0.0864, |
|
"step": 1910 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"grad_norm": 27.715328216552734, |
|
"learning_rate": 0.0004992010695001229, |
|
"loss": 0.1266, |
|
"step": 1920 |
|
}, |
|
{ |
|
"epoch": 6.433333333333334, |
|
"grad_norm": 10.004547119140625, |
|
"learning_rate": 0.0004991625937881116, |
|
"loss": 0.0841, |
|
"step": 1930 |
|
}, |
|
{ |
|
"epoch": 6.466666666666667, |
|
"grad_norm": 0.22679829597473145, |
|
"learning_rate": 0.0004991232148123761, |
|
"loss": 0.0279, |
|
"step": 1940 |
|
}, |
|
{ |
|
"epoch": 6.5, |
|
"grad_norm": 0.405646950006485, |
|
"learning_rate": 0.0004990829327156728, |
|
"loss": 0.0645, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 6.533333333333333, |
|
"grad_norm": 14.19960880279541, |
|
"learning_rate": 0.0004990417476440325, |
|
"loss": 0.0783, |
|
"step": 1960 |
|
}, |
|
{ |
|
"epoch": 6.566666666666666, |
|
"grad_norm": 10.112009048461914, |
|
"learning_rate": 0.0004989996597467591, |
|
"loss": 0.0241, |
|
"step": 1970 |
|
}, |
|
{ |
|
"epoch": 6.6, |
|
"grad_norm": 34.6565055847168, |
|
"learning_rate": 0.0004989566691764295, |
|
"loss": 0.0517, |
|
"step": 1980 |
|
}, |
|
{ |
|
"epoch": 6.633333333333333, |
|
"grad_norm": 0.17711442708969116, |
|
"learning_rate": 0.0004989127760888931, |
|
"loss": 0.0669, |
|
"step": 1990 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"grad_norm": 8.408811569213867, |
|
"learning_rate": 0.0004988679806432712, |
|
"loss": 0.0336, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 6.7, |
|
"grad_norm": 0.44612711668014526, |
|
"learning_rate": 0.0004988222830019559, |
|
"loss": 0.0445, |
|
"step": 2010 |
|
}, |
|
{ |
|
"epoch": 6.733333333333333, |
|
"grad_norm": 19.24823570251465, |
|
"learning_rate": 0.0004987756833306102, |
|
"loss": 0.0573, |
|
"step": 2020 |
|
}, |
|
{ |
|
"epoch": 6.766666666666667, |
|
"grad_norm": 3.0871477127075195, |
|
"learning_rate": 0.0004987281817981674, |
|
"loss": 0.0759, |
|
"step": 2030 |
|
}, |
|
{ |
|
"epoch": 6.8, |
|
"grad_norm": 9.81881332397461, |
|
"learning_rate": 0.0004986797785768297, |
|
"loss": 0.0194, |
|
"step": 2040 |
|
}, |
|
{ |
|
"epoch": 6.833333333333333, |
|
"grad_norm": 0.020128833130002022, |
|
"learning_rate": 0.0004986304738420684, |
|
"loss": 0.1081, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 6.866666666666667, |
|
"grad_norm": 14.229121208190918, |
|
"learning_rate": 0.000498580267772623, |
|
"loss": 0.1216, |
|
"step": 2060 |
|
}, |
|
{ |
|
"epoch": 6.9, |
|
"grad_norm": 10.793590545654297, |
|
"learning_rate": 0.0004985291605505004, |
|
"loss": 0.0393, |
|
"step": 2070 |
|
}, |
|
{ |
|
"epoch": 6.933333333333334, |
|
"grad_norm": 34.25983428955078, |
|
"learning_rate": 0.0004984771523609743, |
|
"loss": 0.1162, |
|
"step": 2080 |
|
}, |
|
{ |
|
"epoch": 6.966666666666667, |
|
"grad_norm": 1.280573844909668, |
|
"learning_rate": 0.0004984242433925849, |
|
"loss": 0.0228, |
|
"step": 2090 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"grad_norm": 5.426878452301025, |
|
"learning_rate": 0.0004983704338371376, |
|
"loss": 0.0198, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"eval_accuracy": 0.995, |
|
"eval_f1": 0.9949978595351413, |
|
"eval_kappa": 0.9899274778404512, |
|
"eval_loss": 0.013717448338866234, |
|
"eval_precision": 0.9950458715596331, |
|
"eval_recall": 0.995, |
|
"eval_runtime": 7.3893, |
|
"eval_samples_per_second": 54.132, |
|
"eval_steps_per_second": 2.301, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 7.033333333333333, |
|
"grad_norm": 0.8536394238471985, |
|
"learning_rate": 0.0004983157238897026, |
|
"loss": 0.0459, |
|
"step": 2110 |
|
}, |
|
{ |
|
"epoch": 7.066666666666666, |
|
"grad_norm": 11.758991241455078, |
|
"learning_rate": 0.0004982601137486143, |
|
"loss": 0.0732, |
|
"step": 2120 |
|
}, |
|
{ |
|
"epoch": 7.1, |
|
"grad_norm": 0.6861909627914429, |
|
"learning_rate": 0.0004982036036154706, |
|
"loss": 0.1708, |
|
"step": 2130 |
|
}, |
|
{ |
|
"epoch": 7.133333333333334, |
|
"grad_norm": 0.11518755555152893, |
|
"learning_rate": 0.0004981461936951319, |
|
"loss": 0.0295, |
|
"step": 2140 |
|
}, |
|
{ |
|
"epoch": 7.166666666666667, |
|
"grad_norm": 0.07353509962558746, |
|
"learning_rate": 0.0004980878841957203, |
|
"loss": 0.0511, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 7.2, |
|
"grad_norm": 0.008462195284664631, |
|
"learning_rate": 0.0004980286753286195, |
|
"loss": 0.0061, |
|
"step": 2160 |
|
}, |
|
{ |
|
"epoch": 7.233333333333333, |
|
"grad_norm": 1.4422004222869873, |
|
"learning_rate": 0.0004979685673084733, |
|
"loss": 0.0977, |
|
"step": 2170 |
|
}, |
|
{ |
|
"epoch": 7.266666666666667, |
|
"grad_norm": 0.00832983199506998, |
|
"learning_rate": 0.0004979075603531852, |
|
"loss": 0.0615, |
|
"step": 2180 |
|
}, |
|
{ |
|
"epoch": 7.3, |
|
"grad_norm": 8.086910247802734, |
|
"learning_rate": 0.0004978456546839174, |
|
"loss": 0.0474, |
|
"step": 2190 |
|
}, |
|
{ |
|
"epoch": 7.333333333333333, |
|
"grad_norm": 10.531082153320312, |
|
"learning_rate": 0.0004977828505250904, |
|
"loss": 0.0291, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 7.366666666666666, |
|
"grad_norm": 0.0030356640927493572, |
|
"learning_rate": 0.0004977191481043814, |
|
"loss": 0.0801, |
|
"step": 2210 |
|
}, |
|
{ |
|
"epoch": 7.4, |
|
"grad_norm": 0.24155472218990326, |
|
"learning_rate": 0.0004976545476527245, |
|
"loss": 0.0406, |
|
"step": 2220 |
|
}, |
|
{ |
|
"epoch": 7.433333333333334, |
|
"grad_norm": 14.044878959655762, |
|
"learning_rate": 0.0004975890494043092, |
|
"loss": 0.2774, |
|
"step": 2230 |
|
}, |
|
{ |
|
"epoch": 7.466666666666667, |
|
"grad_norm": 15.277134895324707, |
|
"learning_rate": 0.0004975226535965794, |
|
"loss": 0.0467, |
|
"step": 2240 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"grad_norm": 11.408771514892578, |
|
"learning_rate": 0.0004974553604702333, |
|
"loss": 0.1214, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 7.533333333333333, |
|
"grad_norm": 25.75912857055664, |
|
"learning_rate": 0.0004973871702692214, |
|
"loss": 0.0689, |
|
"step": 2260 |
|
}, |
|
{ |
|
"epoch": 7.566666666666666, |
|
"grad_norm": 5.471491813659668, |
|
"learning_rate": 0.0004973180832407472, |
|
"loss": 0.004, |
|
"step": 2270 |
|
}, |
|
{ |
|
"epoch": 7.6, |
|
"grad_norm": 0.7957646250724792, |
|
"learning_rate": 0.0004972480996352644, |
|
"loss": 0.1066, |
|
"step": 2280 |
|
}, |
|
{ |
|
"epoch": 7.633333333333333, |
|
"grad_norm": 0.13768936693668365, |
|
"learning_rate": 0.0004971772197064775, |
|
"loss": 0.0636, |
|
"step": 2290 |
|
}, |
|
{ |
|
"epoch": 7.666666666666667, |
|
"grad_norm": 0.004563705530017614, |
|
"learning_rate": 0.0004971054437113406, |
|
"loss": 0.0168, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 7.7, |
|
"grad_norm": 24.983537673950195, |
|
"learning_rate": 0.0004970327719100556, |
|
"loss": 0.0853, |
|
"step": 2310 |
|
}, |
|
{ |
|
"epoch": 7.733333333333333, |
|
"grad_norm": 2.120246648788452, |
|
"learning_rate": 0.0004969592045660722, |
|
"loss": 0.0859, |
|
"step": 2320 |
|
}, |
|
{ |
|
"epoch": 7.766666666666667, |
|
"grad_norm": 15.012920379638672, |
|
"learning_rate": 0.0004968847419460867, |
|
"loss": 0.0281, |
|
"step": 2330 |
|
}, |
|
{ |
|
"epoch": 7.8, |
|
"grad_norm": 12.018982887268066, |
|
"learning_rate": 0.0004968093843200407, |
|
"loss": 0.0273, |
|
"step": 2340 |
|
}, |
|
{ |
|
"epoch": 7.833333333333333, |
|
"grad_norm": 14.459258079528809, |
|
"learning_rate": 0.0004967331319611206, |
|
"loss": 0.1001, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 7.866666666666667, |
|
"grad_norm": 27.96418571472168, |
|
"learning_rate": 0.0004966559851457562, |
|
"loss": 0.0954, |
|
"step": 2360 |
|
}, |
|
{ |
|
"epoch": 7.9, |
|
"grad_norm": 0.1574789136648178, |
|
"learning_rate": 0.0004965779441536201, |
|
"loss": 0.0795, |
|
"step": 2370 |
|
}, |
|
{ |
|
"epoch": 7.933333333333334, |
|
"grad_norm": 0.44669950008392334, |
|
"learning_rate": 0.0004964990092676262, |
|
"loss": 0.03, |
|
"step": 2380 |
|
}, |
|
{ |
|
"epoch": 7.966666666666667, |
|
"grad_norm": 0.3899398446083069, |
|
"learning_rate": 0.0004964191807739293, |
|
"loss": 0.0459, |
|
"step": 2390 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 2.4037952423095703, |
|
"learning_rate": 0.0004963384589619233, |
|
"loss": 0.016, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924984425244319, |
|
"eval_kappa": 0.9848973016512284, |
|
"eval_loss": 0.009391581639647484, |
|
"eval_precision": 0.9925093802724686, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.3286, |
|
"eval_samples_per_second": 54.581, |
|
"eval_steps_per_second": 2.32, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 8.033333333333333, |
|
"grad_norm": 18.691381454467773, |
|
"learning_rate": 0.0004962568441242408, |
|
"loss": 0.0886, |
|
"step": 2410 |
|
}, |
|
{ |
|
"epoch": 8.066666666666666, |
|
"grad_norm": 0.7050238251686096, |
|
"learning_rate": 0.0004961743365567517, |
|
"loss": 0.0191, |
|
"step": 2420 |
|
}, |
|
{ |
|
"epoch": 8.1, |
|
"grad_norm": 0.16664516925811768, |
|
"learning_rate": 0.0004960909365585624, |
|
"loss": 0.0635, |
|
"step": 2430 |
|
}, |
|
{ |
|
"epoch": 8.133333333333333, |
|
"grad_norm": 0.9202438592910767, |
|
"learning_rate": 0.0004960066444320143, |
|
"loss": 0.0296, |
|
"step": 2440 |
|
}, |
|
{ |
|
"epoch": 8.166666666666666, |
|
"grad_norm": 0.17928561568260193, |
|
"learning_rate": 0.0004959214604826831, |
|
"loss": 0.0237, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 8.2, |
|
"grad_norm": 0.00436717364937067, |
|
"learning_rate": 0.0004958353850193773, |
|
"loss": 0.0007, |
|
"step": 2460 |
|
}, |
|
{ |
|
"epoch": 8.233333333333333, |
|
"grad_norm": 23.427932739257812, |
|
"learning_rate": 0.0004957484183541377, |
|
"loss": 0.0538, |
|
"step": 2470 |
|
}, |
|
{ |
|
"epoch": 8.266666666666667, |
|
"grad_norm": 0.4889396131038666, |
|
"learning_rate": 0.0004956605608022357, |
|
"loss": 0.091, |
|
"step": 2480 |
|
}, |
|
{ |
|
"epoch": 8.3, |
|
"grad_norm": 53.982887268066406, |
|
"learning_rate": 0.0004955718126821722, |
|
"loss": 0.0239, |
|
"step": 2490 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"grad_norm": 0.060606587678194046, |
|
"learning_rate": 0.0004954821743156767, |
|
"loss": 0.0367, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 8.366666666666667, |
|
"grad_norm": 0.0266529843211174, |
|
"learning_rate": 0.000495391646027706, |
|
"loss": 0.0489, |
|
"step": 2510 |
|
}, |
|
{ |
|
"epoch": 8.4, |
|
"grad_norm": 0.733482301235199, |
|
"learning_rate": 0.0004953002281464432, |
|
"loss": 0.1085, |
|
"step": 2520 |
|
}, |
|
{ |
|
"epoch": 8.433333333333334, |
|
"grad_norm": 0.002645180793479085, |
|
"learning_rate": 0.0004952079210032961, |
|
"loss": 0.0542, |
|
"step": 2530 |
|
}, |
|
{ |
|
"epoch": 8.466666666666667, |
|
"grad_norm": 0.02045312523841858, |
|
"learning_rate": 0.0004951147249328964, |
|
"loss": 0.1004, |
|
"step": 2540 |
|
}, |
|
{ |
|
"epoch": 8.5, |
|
"grad_norm": 0.25311747193336487, |
|
"learning_rate": 0.0004950206402730983, |
|
"loss": 0.0064, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 8.533333333333333, |
|
"grad_norm": 14.137146949768066, |
|
"learning_rate": 0.0004949256673649774, |
|
"loss": 0.0736, |
|
"step": 2560 |
|
}, |
|
{ |
|
"epoch": 8.566666666666666, |
|
"grad_norm": 18.044233322143555, |
|
"learning_rate": 0.0004948298065528292, |
|
"loss": 0.043, |
|
"step": 2570 |
|
}, |
|
{ |
|
"epoch": 8.6, |
|
"grad_norm": 0.20478780567646027, |
|
"learning_rate": 0.000494733058184168, |
|
"loss": 0.0476, |
|
"step": 2580 |
|
}, |
|
{ |
|
"epoch": 8.633333333333333, |
|
"grad_norm": 0.0009861149592325091, |
|
"learning_rate": 0.0004946354226097261, |
|
"loss": 0.0541, |
|
"step": 2590 |
|
}, |
|
{ |
|
"epoch": 8.666666666666666, |
|
"grad_norm": 4.064932346343994, |
|
"learning_rate": 0.0004945369001834514, |
|
"loss": 0.015, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 8.7, |
|
"grad_norm": 12.540112495422363, |
|
"learning_rate": 0.0004944374912625076, |
|
"loss": 0.0594, |
|
"step": 2610 |
|
}, |
|
{ |
|
"epoch": 8.733333333333333, |
|
"grad_norm": 0.008549841120839119, |
|
"learning_rate": 0.0004943371962072713, |
|
"loss": 0.0707, |
|
"step": 2620 |
|
}, |
|
{ |
|
"epoch": 8.766666666666667, |
|
"grad_norm": 1.925380825996399, |
|
"learning_rate": 0.0004942360153813324, |
|
"loss": 0.0297, |
|
"step": 2630 |
|
}, |
|
{ |
|
"epoch": 8.8, |
|
"grad_norm": 1.1041579246520996, |
|
"learning_rate": 0.0004941339491514909, |
|
"loss": 0.0976, |
|
"step": 2640 |
|
}, |
|
{ |
|
"epoch": 8.833333333333334, |
|
"grad_norm": 0.7771681547164917, |
|
"learning_rate": 0.0004940309978877575, |
|
"loss": 0.0169, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 8.866666666666667, |
|
"grad_norm": 11.451831817626953, |
|
"learning_rate": 0.0004939271619633507, |
|
"loss": 0.0108, |
|
"step": 2660 |
|
}, |
|
{ |
|
"epoch": 8.9, |
|
"grad_norm": 0.0025792683009058237, |
|
"learning_rate": 0.0004938224417546965, |
|
"loss": 0.0252, |
|
"step": 2670 |
|
}, |
|
{ |
|
"epoch": 8.933333333333334, |
|
"grad_norm": 0.5602428317070007, |
|
"learning_rate": 0.0004937168376414261, |
|
"loss": 0.0203, |
|
"step": 2680 |
|
}, |
|
{ |
|
"epoch": 8.966666666666667, |
|
"grad_norm": 0.026095090433955193, |
|
"learning_rate": 0.0004936103500063755, |
|
"loss": 0.0331, |
|
"step": 2690 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"grad_norm": 0.06067637726664543, |
|
"learning_rate": 0.0004935029792355834, |
|
"loss": 0.1923, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"eval_accuracy": 0.9875, |
|
"eval_f1": 0.9875068327898516, |
|
"eval_kappa": 0.9748693204664254, |
|
"eval_loss": 0.028073739260435104, |
|
"eval_precision": 0.987625216539881, |
|
"eval_recall": 0.9875, |
|
"eval_runtime": 7.3626, |
|
"eval_samples_per_second": 54.329, |
|
"eval_steps_per_second": 2.309, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 9.033333333333333, |
|
"grad_norm": 0.19523067772388458, |
|
"learning_rate": 0.0004933947257182901, |
|
"loss": 0.0199, |
|
"step": 2710 |
|
}, |
|
{ |
|
"epoch": 9.066666666666666, |
|
"grad_norm": 3.053314208984375, |
|
"learning_rate": 0.000493285589846936, |
|
"loss": 0.0068, |
|
"step": 2720 |
|
}, |
|
{ |
|
"epoch": 9.1, |
|
"grad_norm": 0.22583183646202087, |
|
"learning_rate": 0.0004931755720171603, |
|
"loss": 0.0929, |
|
"step": 2730 |
|
}, |
|
{ |
|
"epoch": 9.133333333333333, |
|
"grad_norm": 0.2969551086425781, |
|
"learning_rate": 0.0004930646726277994, |
|
"loss": 0.0073, |
|
"step": 2740 |
|
}, |
|
{ |
|
"epoch": 9.166666666666666, |
|
"grad_norm": 1.7761553525924683, |
|
"learning_rate": 0.0004929528920808855, |
|
"loss": 0.0699, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 9.2, |
|
"grad_norm": 35.166629791259766, |
|
"learning_rate": 0.0004928402307816451, |
|
"loss": 0.0186, |
|
"step": 2760 |
|
}, |
|
{ |
|
"epoch": 9.233333333333333, |
|
"grad_norm": 2.6943020820617676, |
|
"learning_rate": 0.000492726689138498, |
|
"loss": 0.0249, |
|
"step": 2770 |
|
}, |
|
{ |
|
"epoch": 9.266666666666667, |
|
"grad_norm": 15.054105758666992, |
|
"learning_rate": 0.0004926122675630548, |
|
"loss": 0.04, |
|
"step": 2780 |
|
}, |
|
{ |
|
"epoch": 9.3, |
|
"grad_norm": 0.00670548714697361, |
|
"learning_rate": 0.0004924969664701168, |
|
"loss": 0.0222, |
|
"step": 2790 |
|
}, |
|
{ |
|
"epoch": 9.333333333333334, |
|
"grad_norm": 3.6571757793426514, |
|
"learning_rate": 0.0004923807862776728, |
|
"loss": 0.0185, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 9.366666666666667, |
|
"grad_norm": 0.4846095144748688, |
|
"learning_rate": 0.0004922637274068993, |
|
"loss": 0.0069, |
|
"step": 2810 |
|
}, |
|
{ |
|
"epoch": 9.4, |
|
"grad_norm": 0.04100838676095009, |
|
"learning_rate": 0.0004921457902821578, |
|
"loss": 0.0038, |
|
"step": 2820 |
|
}, |
|
{ |
|
"epoch": 9.433333333333334, |
|
"grad_norm": 0.06146049499511719, |
|
"learning_rate": 0.0004920269753309937, |
|
"loss": 0.0594, |
|
"step": 2830 |
|
}, |
|
{ |
|
"epoch": 9.466666666666667, |
|
"grad_norm": 32.66959762573242, |
|
"learning_rate": 0.0004919072829841347, |
|
"loss": 0.0733, |
|
"step": 2840 |
|
}, |
|
{ |
|
"epoch": 9.5, |
|
"grad_norm": 13.61474609375, |
|
"learning_rate": 0.0004917867136754893, |
|
"loss": 0.1538, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 9.533333333333333, |
|
"grad_norm": 0.23982226848602295, |
|
"learning_rate": 0.000491665267842145, |
|
"loss": 0.1145, |
|
"step": 2860 |
|
}, |
|
{ |
|
"epoch": 9.566666666666666, |
|
"grad_norm": 4.305579662322998, |
|
"learning_rate": 0.0004915429459243672, |
|
"loss": 0.0113, |
|
"step": 2870 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"grad_norm": 0.8647874593734741, |
|
"learning_rate": 0.000491419748365597, |
|
"loss": 0.1841, |
|
"step": 2880 |
|
}, |
|
{ |
|
"epoch": 9.633333333333333, |
|
"grad_norm": 9.716819763183594, |
|
"learning_rate": 0.0004912956756124498, |
|
"loss": 0.0264, |
|
"step": 2890 |
|
}, |
|
{ |
|
"epoch": 9.666666666666666, |
|
"grad_norm": 7.745243549346924, |
|
"learning_rate": 0.000491170728114714, |
|
"loss": 0.0088, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 9.7, |
|
"grad_norm": 1.824566125869751, |
|
"learning_rate": 0.0004910449063253489, |
|
"loss": 0.0947, |
|
"step": 2910 |
|
}, |
|
{ |
|
"epoch": 9.733333333333333, |
|
"grad_norm": 1.2929129600524902, |
|
"learning_rate": 0.0004909182107004834, |
|
"loss": 0.0421, |
|
"step": 2920 |
|
}, |
|
{ |
|
"epoch": 9.766666666666667, |
|
"grad_norm": 4.2170281410217285, |
|
"learning_rate": 0.0004907906416994146, |
|
"loss": 0.1019, |
|
"step": 2930 |
|
}, |
|
{ |
|
"epoch": 9.8, |
|
"grad_norm": 1.5145924091339111, |
|
"learning_rate": 0.0004906621997846049, |
|
"loss": 0.0748, |
|
"step": 2940 |
|
}, |
|
{ |
|
"epoch": 9.833333333333334, |
|
"grad_norm": 29.543188095092773, |
|
"learning_rate": 0.0004905328854216818, |
|
"loss": 0.0423, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 9.866666666666667, |
|
"grad_norm": 0.030437791720032692, |
|
"learning_rate": 0.0004904026990794355, |
|
"loss": 0.0316, |
|
"step": 2960 |
|
}, |
|
{ |
|
"epoch": 9.9, |
|
"grad_norm": 0.0006298078806139529, |
|
"learning_rate": 0.0004902716412298174, |
|
"loss": 0.0251, |
|
"step": 2970 |
|
}, |
|
{ |
|
"epoch": 9.933333333333334, |
|
"grad_norm": 0.7163373231887817, |
|
"learning_rate": 0.000490139712347938, |
|
"loss": 0.0319, |
|
"step": 2980 |
|
}, |
|
{ |
|
"epoch": 9.966666666666667, |
|
"grad_norm": 1.6022979021072388, |
|
"learning_rate": 0.0004900069129120655, |
|
"loss": 0.0531, |
|
"step": 2990 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 0.18895569443702698, |
|
"learning_rate": 0.0004898732434036243, |
|
"loss": 0.0318, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"eval_accuracy": 0.995, |
|
"eval_f1": 0.9949978595351413, |
|
"eval_kappa": 0.9899274778404512, |
|
"eval_loss": 0.02089308761060238, |
|
"eval_precision": 0.9950458715596331, |
|
"eval_recall": 0.995, |
|
"eval_runtime": 7.4318, |
|
"eval_samples_per_second": 53.823, |
|
"eval_steps_per_second": 2.287, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 10.033333333333333, |
|
"grad_norm": 17.70781135559082, |
|
"learning_rate": 0.000489738704307193, |
|
"loss": 0.0229, |
|
"step": 3010 |
|
}, |
|
{ |
|
"epoch": 10.066666666666666, |
|
"grad_norm": 0.03209957107901573, |
|
"learning_rate": 0.000489603296110502, |
|
"loss": 0.0077, |
|
"step": 3020 |
|
}, |
|
{ |
|
"epoch": 10.1, |
|
"grad_norm": 1.0363398790359497, |
|
"learning_rate": 0.0004894670193044332, |
|
"loss": 0.0899, |
|
"step": 3030 |
|
}, |
|
{ |
|
"epoch": 10.133333333333333, |
|
"grad_norm": 0.20282617211341858, |
|
"learning_rate": 0.0004893298743830168, |
|
"loss": 0.0265, |
|
"step": 3040 |
|
}, |
|
{ |
|
"epoch": 10.166666666666666, |
|
"grad_norm": 0.004087963607162237, |
|
"learning_rate": 0.0004891918618434304, |
|
"loss": 0.01, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 10.2, |
|
"grad_norm": 0.07597868889570236, |
|
"learning_rate": 0.0004890529821859968, |
|
"loss": 0.0049, |
|
"step": 3060 |
|
}, |
|
{ |
|
"epoch": 10.233333333333333, |
|
"grad_norm": 4.141262531280518, |
|
"learning_rate": 0.0004889132359141822, |
|
"loss": 0.0525, |
|
"step": 3070 |
|
}, |
|
{ |
|
"epoch": 10.266666666666667, |
|
"grad_norm": 5.220034122467041, |
|
"learning_rate": 0.0004887726235345942, |
|
"loss": 0.0373, |
|
"step": 3080 |
|
}, |
|
{ |
|
"epoch": 10.3, |
|
"grad_norm": 0.994594156742096, |
|
"learning_rate": 0.0004886311455569811, |
|
"loss": 0.0195, |
|
"step": 3090 |
|
}, |
|
{ |
|
"epoch": 10.333333333333334, |
|
"grad_norm": 10.113892555236816, |
|
"learning_rate": 0.0004884888024942282, |
|
"loss": 0.0217, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 10.366666666666667, |
|
"grad_norm": 0.008713426068425179, |
|
"learning_rate": 0.0004883455948623573, |
|
"loss": 0.0918, |
|
"step": 3110 |
|
}, |
|
{ |
|
"epoch": 10.4, |
|
"grad_norm": 11.263032913208008, |
|
"learning_rate": 0.00048820152318052447, |
|
"loss": 0.0217, |
|
"step": 3120 |
|
}, |
|
{ |
|
"epoch": 10.433333333333334, |
|
"grad_norm": 0.07357630878686905, |
|
"learning_rate": 0.000488056587971018, |
|
"loss": 0.1833, |
|
"step": 3130 |
|
}, |
|
{ |
|
"epoch": 10.466666666666667, |
|
"grad_norm": 0.03532209247350693, |
|
"learning_rate": 0.00048791078975925694, |
|
"loss": 0.0174, |
|
"step": 3140 |
|
}, |
|
{ |
|
"epoch": 10.5, |
|
"grad_norm": 0.022222023457288742, |
|
"learning_rate": 0.0004877641290737884, |
|
"loss": 0.0047, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 10.533333333333333, |
|
"grad_norm": 0.18489806354045868, |
|
"learning_rate": 0.00048761660644628654, |
|
"loss": 0.0136, |
|
"step": 3160 |
|
}, |
|
{ |
|
"epoch": 10.566666666666666, |
|
"grad_norm": 0.00013999214570503682, |
|
"learning_rate": 0.00048746822241155, |
|
"loss": 0.0783, |
|
"step": 3170 |
|
}, |
|
{ |
|
"epoch": 10.6, |
|
"grad_norm": 0.05402855575084686, |
|
"learning_rate": 0.00048731897750750044, |
|
"loss": 0.1268, |
|
"step": 3180 |
|
}, |
|
{ |
|
"epoch": 10.633333333333333, |
|
"grad_norm": 0.3978906273841858, |
|
"learning_rate": 0.00048716887227517994, |
|
"loss": 0.0013, |
|
"step": 3190 |
|
}, |
|
{ |
|
"epoch": 10.666666666666666, |
|
"grad_norm": 0.0717267394065857, |
|
"learning_rate": 0.0004870179072587499, |
|
"loss": 0.0009, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 10.7, |
|
"grad_norm": 1.2164305448532104, |
|
"learning_rate": 0.0004868660830054883, |
|
"loss": 0.0317, |
|
"step": 3210 |
|
}, |
|
{ |
|
"epoch": 10.733333333333333, |
|
"grad_norm": 0.06170390173792839, |
|
"learning_rate": 0.000486713400065788, |
|
"loss": 0.1632, |
|
"step": 3220 |
|
}, |
|
{ |
|
"epoch": 10.766666666666667, |
|
"grad_norm": 0.0237569622695446, |
|
"learning_rate": 0.00048655985899315516, |
|
"loss": 0.0056, |
|
"step": 3230 |
|
}, |
|
{ |
|
"epoch": 10.8, |
|
"grad_norm": 11.921058654785156, |
|
"learning_rate": 0.00048640546034420625, |
|
"loss": 0.0592, |
|
"step": 3240 |
|
}, |
|
{ |
|
"epoch": 10.833333333333334, |
|
"grad_norm": 0.023388676345348358, |
|
"learning_rate": 0.0004862502046786671, |
|
"loss": 0.0057, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 10.866666666666667, |
|
"grad_norm": 0.004828088451176882, |
|
"learning_rate": 0.0004860940925593703, |
|
"loss": 0.0587, |
|
"step": 3260 |
|
}, |
|
{ |
|
"epoch": 10.9, |
|
"grad_norm": 0.010196227580308914, |
|
"learning_rate": 0.00048593712455225304, |
|
"loss": 0.1446, |
|
"step": 3270 |
|
}, |
|
{ |
|
"epoch": 10.933333333333334, |
|
"grad_norm": 1.6788548231124878, |
|
"learning_rate": 0.0004857793012263554, |
|
"loss": 0.0254, |
|
"step": 3280 |
|
}, |
|
{ |
|
"epoch": 10.966666666666667, |
|
"grad_norm": 0.003925603814423084, |
|
"learning_rate": 0.0004856206231538184, |
|
"loss": 0.0493, |
|
"step": 3290 |
|
}, |
|
{ |
|
"epoch": 11.0, |
|
"grad_norm": 8.052026748657227, |
|
"learning_rate": 0.0004854610909098812, |
|
"loss": 0.0944, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 11.0, |
|
"eval_accuracy": 0.9975, |
|
"eval_f1": 0.9975004873018568, |
|
"eval_kappa": 0.9949698189134809, |
|
"eval_loss": 0.015911616384983063, |
|
"eval_precision": 0.9975135135135136, |
|
"eval_recall": 0.9975, |
|
"eval_runtime": 7.3757, |
|
"eval_samples_per_second": 54.232, |
|
"eval_steps_per_second": 2.305, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 11.033333333333333, |
|
"grad_norm": 2.871225357055664, |
|
"learning_rate": 0.00048530070507287994, |
|
"loss": 0.0121, |
|
"step": 3310 |
|
}, |
|
{ |
|
"epoch": 11.066666666666666, |
|
"grad_norm": 0.5825998187065125, |
|
"learning_rate": 0.00048513946622424486, |
|
"loss": 0.0307, |
|
"step": 3320 |
|
}, |
|
{ |
|
"epoch": 11.1, |
|
"grad_norm": 0.0036350239533931017, |
|
"learning_rate": 0.00048497737494849894, |
|
"loss": 0.0342, |
|
"step": 3330 |
|
}, |
|
{ |
|
"epoch": 11.133333333333333, |
|
"grad_norm": 0.008223793469369411, |
|
"learning_rate": 0.0004848144318332549, |
|
"loss": 0.023, |
|
"step": 3340 |
|
}, |
|
{ |
|
"epoch": 11.166666666666666, |
|
"grad_norm": 0.03048713505268097, |
|
"learning_rate": 0.00048465063746921396, |
|
"loss": 0.0458, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 11.2, |
|
"grad_norm": 3.248398542404175, |
|
"learning_rate": 0.000484485992450163, |
|
"loss": 0.0071, |
|
"step": 3360 |
|
}, |
|
{ |
|
"epoch": 11.233333333333333, |
|
"grad_norm": 0.0007288438500836492, |
|
"learning_rate": 0.0004843204973729729, |
|
"loss": 0.0216, |
|
"step": 3370 |
|
}, |
|
{ |
|
"epoch": 11.266666666666667, |
|
"grad_norm": 0.02933153323829174, |
|
"learning_rate": 0.000484154152837596, |
|
"loss": 0.1388, |
|
"step": 3380 |
|
}, |
|
{ |
|
"epoch": 11.3, |
|
"grad_norm": 19.944454193115234, |
|
"learning_rate": 0.00048398695944706417, |
|
"loss": 0.0199, |
|
"step": 3390 |
|
}, |
|
{ |
|
"epoch": 11.333333333333334, |
|
"grad_norm": 0.01811784878373146, |
|
"learning_rate": 0.00048381891780748665, |
|
"loss": 0.0018, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 11.366666666666667, |
|
"grad_norm": 1.3311184644699097, |
|
"learning_rate": 0.0004836500285280475, |
|
"loss": 0.0084, |
|
"step": 3410 |
|
}, |
|
{ |
|
"epoch": 11.4, |
|
"grad_norm": 0.023560378700494766, |
|
"learning_rate": 0.0004834802922210039, |
|
"loss": 0.0131, |
|
"step": 3420 |
|
}, |
|
{ |
|
"epoch": 11.433333333333334, |
|
"grad_norm": 0.14196720719337463, |
|
"learning_rate": 0.0004833097095016835, |
|
"loss": 0.0643, |
|
"step": 3430 |
|
}, |
|
{ |
|
"epoch": 11.466666666666667, |
|
"grad_norm": 0.022539904341101646, |
|
"learning_rate": 0.0004831382809884825, |
|
"loss": 0.0072, |
|
"step": 3440 |
|
}, |
|
{ |
|
"epoch": 11.5, |
|
"grad_norm": 0.002136025344952941, |
|
"learning_rate": 0.0004829660073028631, |
|
"loss": 0.0148, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 11.533333333333333, |
|
"grad_norm": 0.015343907289206982, |
|
"learning_rate": 0.0004827928890693515, |
|
"loss": 0.0686, |
|
"step": 3460 |
|
}, |
|
{ |
|
"epoch": 11.566666666666666, |
|
"grad_norm": 0.2076902538537979, |
|
"learning_rate": 0.00048261892691553573, |
|
"loss": 0.0235, |
|
"step": 3470 |
|
}, |
|
{ |
|
"epoch": 11.6, |
|
"grad_norm": 7.497281551361084, |
|
"learning_rate": 0.00048244412147206283, |
|
"loss": 0.0197, |
|
"step": 3480 |
|
}, |
|
{ |
|
"epoch": 11.633333333333333, |
|
"grad_norm": 0.543480634689331, |
|
"learning_rate": 0.0004822684733726373, |
|
"loss": 0.0415, |
|
"step": 3490 |
|
}, |
|
{ |
|
"epoch": 11.666666666666666, |
|
"grad_norm": 7.600778102874756, |
|
"learning_rate": 0.00048209198325401817, |
|
"loss": 0.0165, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 11.7, |
|
"grad_norm": 28.45496368408203, |
|
"learning_rate": 0.00048191465175601706, |
|
"loss": 0.0572, |
|
"step": 3510 |
|
}, |
|
{ |
|
"epoch": 11.733333333333333, |
|
"grad_norm": 0.8768689036369324, |
|
"learning_rate": 0.0004817364795214958, |
|
"loss": 0.0068, |
|
"step": 3520 |
|
}, |
|
{ |
|
"epoch": 11.766666666666667, |
|
"grad_norm": 0.0015293970936909318, |
|
"learning_rate": 0.00048155746719636403, |
|
"loss": 0.0524, |
|
"step": 3530 |
|
}, |
|
{ |
|
"epoch": 11.8, |
|
"grad_norm": 0.21707843244075775, |
|
"learning_rate": 0.0004813776154295767, |
|
"loss": 0.0544, |
|
"step": 3540 |
|
}, |
|
{ |
|
"epoch": 11.833333333333334, |
|
"grad_norm": 2.173311948776245, |
|
"learning_rate": 0.00048119692487313227, |
|
"loss": 0.0461, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 11.866666666666667, |
|
"grad_norm": 0.029398364946246147, |
|
"learning_rate": 0.0004810153961820697, |
|
"loss": 0.0251, |
|
"step": 3560 |
|
}, |
|
{ |
|
"epoch": 11.9, |
|
"grad_norm": 0.07431753724813461, |
|
"learning_rate": 0.00048083303001446645, |
|
"loss": 0.0162, |
|
"step": 3570 |
|
}, |
|
{ |
|
"epoch": 11.933333333333334, |
|
"grad_norm": 12.078067779541016, |
|
"learning_rate": 0.0004806498270314359, |
|
"loss": 0.0503, |
|
"step": 3580 |
|
}, |
|
{ |
|
"epoch": 11.966666666666667, |
|
"grad_norm": 1.0195358991622925, |
|
"learning_rate": 0.00048046578789712516, |
|
"loss": 0.014, |
|
"step": 3590 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"grad_norm": 0.003098301822319627, |
|
"learning_rate": 0.00048028091327871256, |
|
"loss": 0.0229, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"eval_accuracy": 0.995, |
|
"eval_f1": 0.9950018856065367, |
|
"eval_kappa": 0.9899436846339501, |
|
"eval_loss": 0.007985816337168217, |
|
"eval_precision": 0.9950537634408602, |
|
"eval_recall": 0.995, |
|
"eval_runtime": 7.4244, |
|
"eval_samples_per_second": 53.877, |
|
"eval_steps_per_second": 2.29, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 12.033333333333333, |
|
"grad_norm": 0.14159473776817322, |
|
"learning_rate": 0.00048009520384640513, |
|
"loss": 0.0303, |
|
"step": 3610 |
|
}, |
|
{ |
|
"epoch": 12.066666666666666, |
|
"grad_norm": 3.98813796043396, |
|
"learning_rate": 0.0004799086602734364, |
|
"loss": 0.0183, |
|
"step": 3620 |
|
}, |
|
{ |
|
"epoch": 12.1, |
|
"grad_norm": 0.06656892597675323, |
|
"learning_rate": 0.0004797212832360637, |
|
"loss": 0.0056, |
|
"step": 3630 |
|
}, |
|
{ |
|
"epoch": 12.133333333333333, |
|
"grad_norm": 0.39640679955482483, |
|
"learning_rate": 0.0004795330734135659, |
|
"loss": 0.0314, |
|
"step": 3640 |
|
}, |
|
{ |
|
"epoch": 12.166666666666666, |
|
"grad_norm": 0.09042102843523026, |
|
"learning_rate": 0.00047934403148824087, |
|
"loss": 0.0424, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 12.2, |
|
"grad_norm": 0.0011783058289438486, |
|
"learning_rate": 0.000479154158145403, |
|
"loss": 0.0301, |
|
"step": 3660 |
|
}, |
|
{ |
|
"epoch": 12.233333333333333, |
|
"grad_norm": 16.78108787536621, |
|
"learning_rate": 0.0004789634540733807, |
|
"loss": 0.0181, |
|
"step": 3670 |
|
}, |
|
{ |
|
"epoch": 12.266666666666667, |
|
"grad_norm": 0.0844041258096695, |
|
"learning_rate": 0.00047877191996351397, |
|
"loss": 0.0575, |
|
"step": 3680 |
|
}, |
|
{ |
|
"epoch": 12.3, |
|
"grad_norm": 0.0004439417680259794, |
|
"learning_rate": 0.00047857955651015195, |
|
"loss": 0.0118, |
|
"step": 3690 |
|
}, |
|
{ |
|
"epoch": 12.333333333333334, |
|
"grad_norm": 0.00219926075078547, |
|
"learning_rate": 0.0004783863644106502, |
|
"loss": 0.0429, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 12.366666666666667, |
|
"grad_norm": 0.04280629754066467, |
|
"learning_rate": 0.0004781923443653684, |
|
"loss": 0.0268, |
|
"step": 3710 |
|
}, |
|
{ |
|
"epoch": 12.4, |
|
"grad_norm": 0.11606118083000183, |
|
"learning_rate": 0.00047799749707766746, |
|
"loss": 0.019, |
|
"step": 3720 |
|
}, |
|
{ |
|
"epoch": 12.433333333333334, |
|
"grad_norm": 0.3587077856063843, |
|
"learning_rate": 0.0004778018232539075, |
|
"loss": 0.1508, |
|
"step": 3730 |
|
}, |
|
{ |
|
"epoch": 12.466666666666667, |
|
"grad_norm": 0.012295096181333065, |
|
"learning_rate": 0.0004776053236034449, |
|
"loss": 0.0567, |
|
"step": 3740 |
|
}, |
|
{ |
|
"epoch": 12.5, |
|
"grad_norm": 4.565114068100229e-05, |
|
"learning_rate": 0.0004774079988386296, |
|
"loss": 0.0249, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 12.533333333333333, |
|
"grad_norm": 0.003383655333891511, |
|
"learning_rate": 0.0004772098496748031, |
|
"loss": 0.0433, |
|
"step": 3760 |
|
}, |
|
{ |
|
"epoch": 12.566666666666666, |
|
"grad_norm": 0.004308935720473528, |
|
"learning_rate": 0.00047701087683029526, |
|
"loss": 0.0075, |
|
"step": 3770 |
|
}, |
|
{ |
|
"epoch": 12.6, |
|
"grad_norm": 0.03766516223549843, |
|
"learning_rate": 0.00047681108102642206, |
|
"loss": 0.0398, |
|
"step": 3780 |
|
}, |
|
{ |
|
"epoch": 12.633333333333333, |
|
"grad_norm": 1.6207733154296875, |
|
"learning_rate": 0.0004766104629874829, |
|
"loss": 0.008, |
|
"step": 3790 |
|
}, |
|
{ |
|
"epoch": 12.666666666666666, |
|
"grad_norm": 9.335482597351074, |
|
"learning_rate": 0.0004764090234407577, |
|
"loss": 0.0203, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 12.7, |
|
"grad_norm": 0.003392050275579095, |
|
"learning_rate": 0.0004762067631165049, |
|
"loss": 0.0294, |
|
"step": 3810 |
|
}, |
|
{ |
|
"epoch": 12.733333333333333, |
|
"grad_norm": 0.3824714720249176, |
|
"learning_rate": 0.0004760036827479581, |
|
"loss": 0.0055, |
|
"step": 3820 |
|
}, |
|
{ |
|
"epoch": 12.766666666666667, |
|
"grad_norm": 0.01920243538916111, |
|
"learning_rate": 0.0004757997830713239, |
|
"loss": 0.1337, |
|
"step": 3830 |
|
}, |
|
{ |
|
"epoch": 12.8, |
|
"grad_norm": 0.002765109995380044, |
|
"learning_rate": 0.00047559506482577885, |
|
"loss": 0.0725, |
|
"step": 3840 |
|
}, |
|
{ |
|
"epoch": 12.833333333333334, |
|
"grad_norm": 0.49867746233940125, |
|
"learning_rate": 0.0004753895287534673, |
|
"loss": 0.0333, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 12.866666666666667, |
|
"grad_norm": 0.5436999201774597, |
|
"learning_rate": 0.0004751831755994981, |
|
"loss": 0.0722, |
|
"step": 3860 |
|
}, |
|
{ |
|
"epoch": 12.9, |
|
"grad_norm": 0.13900534808635712, |
|
"learning_rate": 0.0004749760061119422, |
|
"loss": 0.0514, |
|
"step": 3870 |
|
}, |
|
{ |
|
"epoch": 12.933333333333334, |
|
"grad_norm": 0.5604411959648132, |
|
"learning_rate": 0.00047476802104183015, |
|
"loss": 0.0353, |
|
"step": 3880 |
|
}, |
|
{ |
|
"epoch": 12.966666666666667, |
|
"grad_norm": 18.976787567138672, |
|
"learning_rate": 0.000474559221143149, |
|
"loss": 0.0893, |
|
"step": 3890 |
|
}, |
|
{ |
|
"epoch": 13.0, |
|
"grad_norm": 0.030641691759228706, |
|
"learning_rate": 0.0004743496071728396, |
|
"loss": 0.0104, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 13.0, |
|
"eval_accuracy": 0.98, |
|
"eval_f1": 0.9799595959595959, |
|
"eval_kappa": 0.9596122778675282, |
|
"eval_loss": 0.05243048071861267, |
|
"eval_precision": 0.9807142857142856, |
|
"eval_recall": 0.98, |
|
"eval_runtime": 7.3583, |
|
"eval_samples_per_second": 54.36, |
|
"eval_steps_per_second": 2.31, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 13.033333333333333, |
|
"grad_norm": 23.265657424926758, |
|
"learning_rate": 0.00047413917989079415, |
|
"loss": 0.0245, |
|
"step": 3910 |
|
}, |
|
{ |
|
"epoch": 13.066666666666666, |
|
"grad_norm": 2.9652233123779297, |
|
"learning_rate": 0.0004739279400598532, |
|
"loss": 0.0199, |
|
"step": 3920 |
|
}, |
|
{ |
|
"epoch": 13.1, |
|
"grad_norm": 2.5520131587982178, |
|
"learning_rate": 0.00047371588844580297, |
|
"loss": 0.0785, |
|
"step": 3930 |
|
}, |
|
{ |
|
"epoch": 13.133333333333333, |
|
"grad_norm": 4.938477993011475, |
|
"learning_rate": 0.0004735030258173725, |
|
"loss": 0.1211, |
|
"step": 3940 |
|
}, |
|
{ |
|
"epoch": 13.166666666666666, |
|
"grad_norm": 0.23714496195316315, |
|
"learning_rate": 0.000473289352946231, |
|
"loss": 0.0162, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 13.2, |
|
"grad_norm": 0.4921053946018219, |
|
"learning_rate": 0.00047307487060698486, |
|
"loss": 0.0271, |
|
"step": 3960 |
|
}, |
|
{ |
|
"epoch": 13.233333333333333, |
|
"grad_norm": 3.513289451599121, |
|
"learning_rate": 0.000472859579577175, |
|
"loss": 0.0485, |
|
"step": 3970 |
|
}, |
|
{ |
|
"epoch": 13.266666666666667, |
|
"grad_norm": 1.9259859323501587, |
|
"learning_rate": 0.00047264348063727414, |
|
"loss": 0.0263, |
|
"step": 3980 |
|
}, |
|
{ |
|
"epoch": 13.3, |
|
"grad_norm": 0.00044262909796088934, |
|
"learning_rate": 0.0004724265745706836, |
|
"loss": 0.0223, |
|
"step": 3990 |
|
}, |
|
{ |
|
"epoch": 13.333333333333334, |
|
"grad_norm": 1.4673163890838623, |
|
"learning_rate": 0.0004722088621637309, |
|
"loss": 0.0069, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 13.366666666666667, |
|
"grad_norm": 0.00814584270119667, |
|
"learning_rate": 0.0004719903442056665, |
|
"loss": 0.093, |
|
"step": 4010 |
|
}, |
|
{ |
|
"epoch": 13.4, |
|
"grad_norm": 0.03399132937192917, |
|
"learning_rate": 0.00047177102148866133, |
|
"loss": 0.0224, |
|
"step": 4020 |
|
}, |
|
{ |
|
"epoch": 13.433333333333334, |
|
"grad_norm": 0.5761755704879761, |
|
"learning_rate": 0.00047155089480780364, |
|
"loss": 0.0012, |
|
"step": 4030 |
|
}, |
|
{ |
|
"epoch": 13.466666666666667, |
|
"grad_norm": 1.2075037956237793, |
|
"learning_rate": 0.00047132996496109626, |
|
"loss": 0.0198, |
|
"step": 4040 |
|
}, |
|
{ |
|
"epoch": 13.5, |
|
"grad_norm": 0.0027148097287863493, |
|
"learning_rate": 0.0004711082327494536, |
|
"loss": 0.0089, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 13.533333333333333, |
|
"grad_norm": 0.02435988560318947, |
|
"learning_rate": 0.0004708856989766988, |
|
"loss": 0.0387, |
|
"step": 4060 |
|
}, |
|
{ |
|
"epoch": 13.566666666666666, |
|
"grad_norm": 0.04581742361187935, |
|
"learning_rate": 0.0004706623644495608, |
|
"loss": 0.0237, |
|
"step": 4070 |
|
}, |
|
{ |
|
"epoch": 13.6, |
|
"grad_norm": 3.6842305660247803, |
|
"learning_rate": 0.00047043822997767145, |
|
"loss": 0.0113, |
|
"step": 4080 |
|
}, |
|
{ |
|
"epoch": 13.633333333333333, |
|
"grad_norm": 18.461259841918945, |
|
"learning_rate": 0.0004702132963735627, |
|
"loss": 0.0374, |
|
"step": 4090 |
|
}, |
|
{ |
|
"epoch": 13.666666666666666, |
|
"grad_norm": 0.03505110740661621, |
|
"learning_rate": 0.0004699875644526633, |
|
"loss": 0.0477, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 13.7, |
|
"grad_norm": 1.6540740728378296, |
|
"learning_rate": 0.00046976103503329616, |
|
"loss": 0.0137, |
|
"step": 4110 |
|
}, |
|
{ |
|
"epoch": 13.733333333333333, |
|
"grad_norm": 0.1410187929868698, |
|
"learning_rate": 0.0004695337089366754, |
|
"loss": 0.0002, |
|
"step": 4120 |
|
}, |
|
{ |
|
"epoch": 13.766666666666667, |
|
"grad_norm": 0.015506432391703129, |
|
"learning_rate": 0.00046930558698690287, |
|
"loss": 0.0578, |
|
"step": 4130 |
|
}, |
|
{ |
|
"epoch": 13.8, |
|
"grad_norm": 0.3643234372138977, |
|
"learning_rate": 0.0004690766700109659, |
|
"loss": 0.0033, |
|
"step": 4140 |
|
}, |
|
{ |
|
"epoch": 13.833333333333334, |
|
"grad_norm": 0.1073959544301033, |
|
"learning_rate": 0.0004688469588387339, |
|
"loss": 0.0412, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 13.866666666666667, |
|
"grad_norm": 0.0946379154920578, |
|
"learning_rate": 0.0004686164543029554, |
|
"loss": 0.1215, |
|
"step": 4160 |
|
}, |
|
{ |
|
"epoch": 13.9, |
|
"grad_norm": 0.3427139222621918, |
|
"learning_rate": 0.0004683851572392548, |
|
"loss": 0.0159, |
|
"step": 4170 |
|
}, |
|
{ |
|
"epoch": 13.933333333333334, |
|
"grad_norm": 2.0237042903900146, |
|
"learning_rate": 0.00046815306848612976, |
|
"loss": 0.084, |
|
"step": 4180 |
|
}, |
|
{ |
|
"epoch": 13.966666666666667, |
|
"grad_norm": 5.675958156585693, |
|
"learning_rate": 0.000467920188884948, |
|
"loss": 0.0178, |
|
"step": 4190 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"grad_norm": 1.7019257545471191, |
|
"learning_rate": 0.00046768651927994433, |
|
"loss": 0.0483, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"eval_accuracy": 0.9975, |
|
"eval_f1": 0.9974994808414773, |
|
"eval_kappa": 0.9949657672170761, |
|
"eval_loss": 0.00451456755399704, |
|
"eval_precision": 0.9975115207373273, |
|
"eval_recall": 0.9975, |
|
"eval_runtime": 7.2972, |
|
"eval_samples_per_second": 54.816, |
|
"eval_steps_per_second": 2.33, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 14.033333333333333, |
|
"grad_norm": 9.1857271194458, |
|
"learning_rate": 0.0004674520605182171, |
|
"loss": 0.0028, |
|
"step": 4210 |
|
}, |
|
{ |
|
"epoch": 14.066666666666666, |
|
"grad_norm": 5.523562867892906e-05, |
|
"learning_rate": 0.00046721681344972577, |
|
"loss": 0.0056, |
|
"step": 4220 |
|
}, |
|
{ |
|
"epoch": 14.1, |
|
"grad_norm": 3.9123904705047607, |
|
"learning_rate": 0.0004669807789272876, |
|
"loss": 0.034, |
|
"step": 4230 |
|
}, |
|
{ |
|
"epoch": 14.133333333333333, |
|
"grad_norm": 0.7227023243904114, |
|
"learning_rate": 0.00046674395780657444, |
|
"loss": 0.0115, |
|
"step": 4240 |
|
}, |
|
{ |
|
"epoch": 14.166666666666666, |
|
"grad_norm": 20.133054733276367, |
|
"learning_rate": 0.00046650635094610973, |
|
"loss": 0.0117, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 14.2, |
|
"grad_norm": 2.1840555667877197, |
|
"learning_rate": 0.0004662679592072653, |
|
"loss": 0.006, |
|
"step": 4260 |
|
}, |
|
{ |
|
"epoch": 14.233333333333333, |
|
"grad_norm": 1.3089158535003662, |
|
"learning_rate": 0.00046602878345425845, |
|
"loss": 0.0198, |
|
"step": 4270 |
|
}, |
|
{ |
|
"epoch": 14.266666666666667, |
|
"grad_norm": 0.032126154750585556, |
|
"learning_rate": 0.0004657888245541486, |
|
"loss": 0.0117, |
|
"step": 4280 |
|
}, |
|
{ |
|
"epoch": 14.3, |
|
"grad_norm": 0.1218077763915062, |
|
"learning_rate": 0.0004655480833768344, |
|
"loss": 0.0065, |
|
"step": 4290 |
|
}, |
|
{ |
|
"epoch": 14.333333333333334, |
|
"grad_norm": 0.0682288408279419, |
|
"learning_rate": 0.0004653065607950502, |
|
"loss": 0.0138, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 14.366666666666667, |
|
"grad_norm": 0.00038056381163187325, |
|
"learning_rate": 0.000465064257684363, |
|
"loss": 0.0211, |
|
"step": 4310 |
|
}, |
|
{ |
|
"epoch": 14.4, |
|
"grad_norm": 7.7468061447143555, |
|
"learning_rate": 0.0004648211749231698, |
|
"loss": 0.0092, |
|
"step": 4320 |
|
}, |
|
{ |
|
"epoch": 14.433333333333334, |
|
"grad_norm": 0.00033462975989095867, |
|
"learning_rate": 0.0004645773133926935, |
|
"loss": 0.0085, |
|
"step": 4330 |
|
}, |
|
{ |
|
"epoch": 14.466666666666667, |
|
"grad_norm": 1.2854167222976685, |
|
"learning_rate": 0.00046433267397698053, |
|
"loss": 0.0158, |
|
"step": 4340 |
|
}, |
|
{ |
|
"epoch": 14.5, |
|
"grad_norm": 0.0037089725956320763, |
|
"learning_rate": 0.00046408725756289724, |
|
"loss": 0.0002, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 14.533333333333333, |
|
"grad_norm": 0.06741482764482498, |
|
"learning_rate": 0.0004638410650401267, |
|
"loss": 0.012, |
|
"step": 4360 |
|
}, |
|
{ |
|
"epoch": 14.566666666666666, |
|
"grad_norm": 0.7089601159095764, |
|
"learning_rate": 0.0004635940973011654, |
|
"loss": 0.0509, |
|
"step": 4370 |
|
}, |
|
{ |
|
"epoch": 14.6, |
|
"grad_norm": 0.022032683715224266, |
|
"learning_rate": 0.00046334635524132047, |
|
"loss": 0.0013, |
|
"step": 4380 |
|
}, |
|
{ |
|
"epoch": 14.633333333333333, |
|
"grad_norm": 0.14006319642066956, |
|
"learning_rate": 0.0004630978397587058, |
|
"loss": 0.0015, |
|
"step": 4390 |
|
}, |
|
{ |
|
"epoch": 14.666666666666666, |
|
"grad_norm": 61.62250900268555, |
|
"learning_rate": 0.0004628485517542392, |
|
"loss": 0.0558, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 14.7, |
|
"grad_norm": 0.5041285157203674, |
|
"learning_rate": 0.0004625984921316392, |
|
"loss": 0.0144, |
|
"step": 4410 |
|
}, |
|
{ |
|
"epoch": 14.733333333333333, |
|
"grad_norm": 0.9366334080696106, |
|
"learning_rate": 0.00046234766179742117, |
|
"loss": 0.0726, |
|
"step": 4420 |
|
}, |
|
{ |
|
"epoch": 14.766666666666667, |
|
"grad_norm": 0.011175020597875118, |
|
"learning_rate": 0.0004620960616608949, |
|
"loss": 0.0056, |
|
"step": 4430 |
|
}, |
|
{ |
|
"epoch": 14.8, |
|
"grad_norm": 9.877839088439941, |
|
"learning_rate": 0.00046184369263416067, |
|
"loss": 0.0221, |
|
"step": 4440 |
|
}, |
|
{ |
|
"epoch": 14.833333333333334, |
|
"grad_norm": 0.052618566900491714, |
|
"learning_rate": 0.0004615905556321061, |
|
"loss": 0.0001, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 14.866666666666667, |
|
"grad_norm": 8.235169410705566, |
|
"learning_rate": 0.00046133665157240304, |
|
"loss": 0.0396, |
|
"step": 4460 |
|
}, |
|
{ |
|
"epoch": 14.9, |
|
"grad_norm": 0.0023794234730303288, |
|
"learning_rate": 0.00046108198137550377, |
|
"loss": 0.0047, |
|
"step": 4470 |
|
}, |
|
{ |
|
"epoch": 14.933333333333334, |
|
"grad_norm": 1.037344217300415, |
|
"learning_rate": 0.00046082654596463836, |
|
"loss": 0.0213, |
|
"step": 4480 |
|
}, |
|
{ |
|
"epoch": 14.966666666666667, |
|
"grad_norm": 0.9687237739562988, |
|
"learning_rate": 0.00046057034626581066, |
|
"loss": 0.0035, |
|
"step": 4490 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"grad_norm": 0.009436891414225101, |
|
"learning_rate": 0.0004603133832077953, |
|
"loss": 0.0364, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"eval_accuracy": 0.9875, |
|
"eval_f1": 0.9875068327898516, |
|
"eval_kappa": 0.9748693204664254, |
|
"eval_loss": 0.029378846287727356, |
|
"eval_precision": 0.987625216539881, |
|
"eval_recall": 0.9875, |
|
"eval_runtime": 7.2663, |
|
"eval_samples_per_second": 55.049, |
|
"eval_steps_per_second": 2.34, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 15.033333333333333, |
|
"grad_norm": 15.442131996154785, |
|
"learning_rate": 0.0004600556577221342, |
|
"loss": 0.0587, |
|
"step": 4510 |
|
}, |
|
{ |
|
"epoch": 15.066666666666666, |
|
"grad_norm": 2.1621975898742676, |
|
"learning_rate": 0.0004597971707431333, |
|
"loss": 0.0031, |
|
"step": 4520 |
|
}, |
|
{ |
|
"epoch": 15.1, |
|
"grad_norm": 0.09139201790094376, |
|
"learning_rate": 0.00045953792320785916, |
|
"loss": 0.0464, |
|
"step": 4530 |
|
}, |
|
{ |
|
"epoch": 15.133333333333333, |
|
"grad_norm": 10.80909252166748, |
|
"learning_rate": 0.0004592779160561352, |
|
"loss": 0.0119, |
|
"step": 4540 |
|
}, |
|
{ |
|
"epoch": 15.166666666666666, |
|
"grad_norm": 0.0028503378853201866, |
|
"learning_rate": 0.000459017150230539, |
|
"loss": 0.0284, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 15.2, |
|
"grad_norm": 0.0037527629174292088, |
|
"learning_rate": 0.00045875562667639815, |
|
"loss": 0.0052, |
|
"step": 4560 |
|
}, |
|
{ |
|
"epoch": 15.233333333333333, |
|
"grad_norm": 0.008923468180000782, |
|
"learning_rate": 0.0004584933463417874, |
|
"loss": 0.0181, |
|
"step": 4570 |
|
}, |
|
{ |
|
"epoch": 15.266666666666667, |
|
"grad_norm": 0.11511397361755371, |
|
"learning_rate": 0.00045823031017752484, |
|
"loss": 0.0012, |
|
"step": 4580 |
|
}, |
|
{ |
|
"epoch": 15.3, |
|
"grad_norm": 0.0019222634145990014, |
|
"learning_rate": 0.0004579665191371687, |
|
"loss": 0.0018, |
|
"step": 4590 |
|
}, |
|
{ |
|
"epoch": 15.333333333333334, |
|
"grad_norm": 0.02708413079380989, |
|
"learning_rate": 0.00045770197417701366, |
|
"loss": 0.0456, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 15.366666666666667, |
|
"grad_norm": 0.49283456802368164, |
|
"learning_rate": 0.00045743667625608756, |
|
"loss": 0.0086, |
|
"step": 4610 |
|
}, |
|
{ |
|
"epoch": 15.4, |
|
"grad_norm": 0.18149667978286743, |
|
"learning_rate": 0.00045717062633614795, |
|
"loss": 0.005, |
|
"step": 4620 |
|
}, |
|
{ |
|
"epoch": 15.433333333333334, |
|
"grad_norm": 0.02925139293074608, |
|
"learning_rate": 0.0004569038253816783, |
|
"loss": 0.0335, |
|
"step": 4630 |
|
}, |
|
{ |
|
"epoch": 15.466666666666667, |
|
"grad_norm": 0.025850404053926468, |
|
"learning_rate": 0.00045663627435988503, |
|
"loss": 0.0076, |
|
"step": 4640 |
|
}, |
|
{ |
|
"epoch": 15.5, |
|
"grad_norm": 0.03791815787553787, |
|
"learning_rate": 0.0004563679742406935, |
|
"loss": 0.0181, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 15.533333333333333, |
|
"grad_norm": 4.157740116119385, |
|
"learning_rate": 0.0004560989259967447, |
|
"loss": 0.0265, |
|
"step": 4660 |
|
}, |
|
{ |
|
"epoch": 15.566666666666666, |
|
"grad_norm": 31.737028121948242, |
|
"learning_rate": 0.0004558291306033919, |
|
"loss": 0.0662, |
|
"step": 4670 |
|
}, |
|
{ |
|
"epoch": 15.6, |
|
"grad_norm": 0.00034419956500642, |
|
"learning_rate": 0.00045555858903869684, |
|
"loss": 0.0033, |
|
"step": 4680 |
|
}, |
|
{ |
|
"epoch": 15.633333333333333, |
|
"grad_norm": 36.032081604003906, |
|
"learning_rate": 0.000455287302283426, |
|
"loss": 0.2059, |
|
"step": 4690 |
|
}, |
|
{ |
|
"epoch": 15.666666666666666, |
|
"grad_norm": 0.09268007427453995, |
|
"learning_rate": 0.0004550152713210478, |
|
"loss": 0.0654, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 15.7, |
|
"grad_norm": 0.003424269612878561, |
|
"learning_rate": 0.0004547424971377282, |
|
"loss": 0.011, |
|
"step": 4710 |
|
}, |
|
{ |
|
"epoch": 15.733333333333333, |
|
"grad_norm": 36.533512115478516, |
|
"learning_rate": 0.00045446898072232765, |
|
"loss": 0.0291, |
|
"step": 4720 |
|
}, |
|
{ |
|
"epoch": 15.766666666666667, |
|
"grad_norm": 0.057702332735061646, |
|
"learning_rate": 0.00045419472306639733, |
|
"loss": 0.0384, |
|
"step": 4730 |
|
}, |
|
{ |
|
"epoch": 15.8, |
|
"grad_norm": 3.593590736272745e-05, |
|
"learning_rate": 0.00045391972516417545, |
|
"loss": 0.0035, |
|
"step": 4740 |
|
}, |
|
{ |
|
"epoch": 15.833333333333334, |
|
"grad_norm": 0.017503496259450912, |
|
"learning_rate": 0.00045364398801258396, |
|
"loss": 0.09, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 15.866666666666667, |
|
"grad_norm": 0.01603321172297001, |
|
"learning_rate": 0.0004533675126112245, |
|
"loss": 0.0269, |
|
"step": 4760 |
|
}, |
|
{ |
|
"epoch": 15.9, |
|
"grad_norm": 0.109935462474823, |
|
"learning_rate": 0.00045309029996237516, |
|
"loss": 0.0097, |
|
"step": 4770 |
|
}, |
|
{ |
|
"epoch": 15.933333333333334, |
|
"grad_norm": 0.028454294428229332, |
|
"learning_rate": 0.0004528123510709867, |
|
"loss": 0.0199, |
|
"step": 4780 |
|
}, |
|
{ |
|
"epoch": 15.966666666666667, |
|
"grad_norm": 0.03414365276694298, |
|
"learning_rate": 0.0004525336669446789, |
|
"loss": 0.0007, |
|
"step": 4790 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"grad_norm": 0.0039358725771307945, |
|
"learning_rate": 0.0004522542485937369, |
|
"loss": 0.0239, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924950401511573, |
|
"eval_kappa": 0.9848851269649335, |
|
"eval_loss": 0.011240070685744286, |
|
"eval_precision": 0.9926027397260273, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.3933, |
|
"eval_samples_per_second": 54.103, |
|
"eval_steps_per_second": 2.299, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 16.033333333333335, |
|
"grad_norm": 0.003939064685255289, |
|
"learning_rate": 0.0004519740970311074, |
|
"loss": 0.056, |
|
"step": 4810 |
|
}, |
|
{ |
|
"epoch": 16.066666666666666, |
|
"grad_norm": 0.0002586791233625263, |
|
"learning_rate": 0.0004516932132723953, |
|
"loss": 0.0076, |
|
"step": 4820 |
|
}, |
|
{ |
|
"epoch": 16.1, |
|
"grad_norm": 6.035449028015137, |
|
"learning_rate": 0.00045141159833585995, |
|
"loss": 0.0043, |
|
"step": 4830 |
|
}, |
|
{ |
|
"epoch": 16.133333333333333, |
|
"grad_norm": 0.23382249474525452, |
|
"learning_rate": 0.0004511292532424111, |
|
"loss": 0.0375, |
|
"step": 4840 |
|
}, |
|
{ |
|
"epoch": 16.166666666666668, |
|
"grad_norm": 0.003644285025075078, |
|
"learning_rate": 0.00045084617901560564, |
|
"loss": 0.0067, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 16.2, |
|
"grad_norm": 0.3566889762878418, |
|
"learning_rate": 0.0004505623766816438, |
|
"loss": 0.0007, |
|
"step": 4860 |
|
}, |
|
{ |
|
"epoch": 16.233333333333334, |
|
"grad_norm": 0.0989418774843216, |
|
"learning_rate": 0.00045027784726936503, |
|
"loss": 0.0701, |
|
"step": 4870 |
|
}, |
|
{ |
|
"epoch": 16.266666666666666, |
|
"grad_norm": 4.09375, |
|
"learning_rate": 0.000449992591810245, |
|
"loss": 0.0555, |
|
"step": 4880 |
|
}, |
|
{ |
|
"epoch": 16.3, |
|
"grad_norm": 0.013414149172604084, |
|
"learning_rate": 0.00044970661133839096, |
|
"loss": 0.0026, |
|
"step": 4890 |
|
}, |
|
{ |
|
"epoch": 16.333333333333332, |
|
"grad_norm": 2.3153756956162397e-06, |
|
"learning_rate": 0.00044941990689053885, |
|
"loss": 0.0446, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 16.366666666666667, |
|
"grad_norm": 2.82499058812391e-05, |
|
"learning_rate": 0.00044913247950604905, |
|
"loss": 0.0184, |
|
"step": 4910 |
|
}, |
|
{ |
|
"epoch": 16.4, |
|
"grad_norm": 0.4367436170578003, |
|
"learning_rate": 0.00044884433022690274, |
|
"loss": 0.1106, |
|
"step": 4920 |
|
}, |
|
{ |
|
"epoch": 16.433333333333334, |
|
"grad_norm": 0.021237192675471306, |
|
"learning_rate": 0.0004485554600976981, |
|
"loss": 0.0015, |
|
"step": 4930 |
|
}, |
|
{ |
|
"epoch": 16.466666666666665, |
|
"grad_norm": 8.756088256835938, |
|
"learning_rate": 0.0004482658701656465, |
|
"loss": 0.01, |
|
"step": 4940 |
|
}, |
|
{ |
|
"epoch": 16.5, |
|
"grad_norm": 0.000679507153108716, |
|
"learning_rate": 0.0004479755614805688, |
|
"loss": 0.0281, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 16.533333333333335, |
|
"grad_norm": 4.841014385223389, |
|
"learning_rate": 0.00044768453509489136, |
|
"loss": 0.0029, |
|
"step": 4960 |
|
}, |
|
{ |
|
"epoch": 16.566666666666666, |
|
"grad_norm": 0.013903344981372356, |
|
"learning_rate": 0.0004473927920636426, |
|
"loss": 0.0137, |
|
"step": 4970 |
|
}, |
|
{ |
|
"epoch": 16.6, |
|
"grad_norm": 0.00465978542342782, |
|
"learning_rate": 0.00044710033344444856, |
|
"loss": 0.015, |
|
"step": 4980 |
|
}, |
|
{ |
|
"epoch": 16.633333333333333, |
|
"grad_norm": 0.017884723842144012, |
|
"learning_rate": 0.0004468071602975298, |
|
"loss": 0.0222, |
|
"step": 4990 |
|
}, |
|
{ |
|
"epoch": 16.666666666666668, |
|
"grad_norm": 0.10206126421689987, |
|
"learning_rate": 0.0004465132736856969, |
|
"loss": 0.0535, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 16.7, |
|
"grad_norm": 0.09528321772813797, |
|
"learning_rate": 0.00044621867467434706, |
|
"loss": 0.034, |
|
"step": 5010 |
|
}, |
|
{ |
|
"epoch": 16.733333333333334, |
|
"grad_norm": 0.0033129348885267973, |
|
"learning_rate": 0.00044592336433145995, |
|
"loss": 0.0766, |
|
"step": 5020 |
|
}, |
|
{ |
|
"epoch": 16.766666666666666, |
|
"grad_norm": 0.003946595825254917, |
|
"learning_rate": 0.0004456273437275941, |
|
"loss": 0.0879, |
|
"step": 5030 |
|
}, |
|
{ |
|
"epoch": 16.8, |
|
"grad_norm": 0.07561410218477249, |
|
"learning_rate": 0.00044533061393588284, |
|
"loss": 0.0028, |
|
"step": 5040 |
|
}, |
|
{ |
|
"epoch": 16.833333333333332, |
|
"grad_norm": 0.0002018914819927886, |
|
"learning_rate": 0.0004450331760320302, |
|
"loss": 0.0562, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 16.866666666666667, |
|
"grad_norm": 0.0016976863844320178, |
|
"learning_rate": 0.0004447350310943076, |
|
"loss": 0.0178, |
|
"step": 5060 |
|
}, |
|
{ |
|
"epoch": 16.9, |
|
"grad_norm": 0.012086511589586735, |
|
"learning_rate": 0.0004444361802035495, |
|
"loss": 0.0091, |
|
"step": 5070 |
|
}, |
|
{ |
|
"epoch": 16.933333333333334, |
|
"grad_norm": 0.003081787843257189, |
|
"learning_rate": 0.0004441366244431494, |
|
"loss": 0.0219, |
|
"step": 5080 |
|
}, |
|
{ |
|
"epoch": 16.966666666666665, |
|
"grad_norm": 18.680606842041016, |
|
"learning_rate": 0.00044383636489905636, |
|
"loss": 0.0693, |
|
"step": 5090 |
|
}, |
|
{ |
|
"epoch": 17.0, |
|
"grad_norm": 19.928892135620117, |
|
"learning_rate": 0.00044353540265977065, |
|
"loss": 0.0251, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 17.0, |
|
"eval_accuracy": 0.975, |
|
"eval_f1": 0.975034479299882, |
|
"eval_kappa": 0.9498797113071371, |
|
"eval_loss": 0.17754234373569489, |
|
"eval_precision": 0.9762886597938144, |
|
"eval_recall": 0.975, |
|
"eval_runtime": 7.2945, |
|
"eval_samples_per_second": 54.836, |
|
"eval_steps_per_second": 2.331, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 17.033333333333335, |
|
"grad_norm": 0.0158667154610157, |
|
"learning_rate": 0.0004432337388163399, |
|
"loss": 0.0169, |
|
"step": 5110 |
|
}, |
|
{ |
|
"epoch": 17.066666666666666, |
|
"grad_norm": 0.04557795822620392, |
|
"learning_rate": 0.0004429313744623552, |
|
"loss": 0.149, |
|
"step": 5120 |
|
}, |
|
{ |
|
"epoch": 17.1, |
|
"grad_norm": 11.541633605957031, |
|
"learning_rate": 0.0004426283106939473, |
|
"loss": 0.0364, |
|
"step": 5130 |
|
}, |
|
{ |
|
"epoch": 17.133333333333333, |
|
"grad_norm": 0.003035008441656828, |
|
"learning_rate": 0.00044232454860978235, |
|
"loss": 0.0135, |
|
"step": 5140 |
|
}, |
|
{ |
|
"epoch": 17.166666666666668, |
|
"grad_norm": 20.01824188232422, |
|
"learning_rate": 0.00044202008931105795, |
|
"loss": 0.0727, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 17.2, |
|
"grad_norm": 0.0038418022450059652, |
|
"learning_rate": 0.00044171493390149943, |
|
"loss": 0.0656, |
|
"step": 5160 |
|
}, |
|
{ |
|
"epoch": 17.233333333333334, |
|
"grad_norm": 0.5585111975669861, |
|
"learning_rate": 0.0004414090834873555, |
|
"loss": 0.0687, |
|
"step": 5170 |
|
}, |
|
{ |
|
"epoch": 17.266666666666666, |
|
"grad_norm": 0.40798482298851013, |
|
"learning_rate": 0.0004411025391773945, |
|
"loss": 0.0088, |
|
"step": 5180 |
|
}, |
|
{ |
|
"epoch": 17.3, |
|
"grad_norm": 0.5033943057060242, |
|
"learning_rate": 0.0004407953020829001, |
|
"loss": 0.0017, |
|
"step": 5190 |
|
}, |
|
{ |
|
"epoch": 17.333333333333332, |
|
"grad_norm": 0.006301830522716045, |
|
"learning_rate": 0.0004404873733176677, |
|
"loss": 0.0069, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 17.366666666666667, |
|
"grad_norm": 57.35346984863281, |
|
"learning_rate": 0.000440178753998, |
|
"loss": 0.057, |
|
"step": 5210 |
|
}, |
|
{ |
|
"epoch": 17.4, |
|
"grad_norm": 20.014352798461914, |
|
"learning_rate": 0.0004398694452427032, |
|
"loss": 0.057, |
|
"step": 5220 |
|
}, |
|
{ |
|
"epoch": 17.433333333333334, |
|
"grad_norm": 1.6002854108810425, |
|
"learning_rate": 0.00043955944817308264, |
|
"loss": 0.0283, |
|
"step": 5230 |
|
}, |
|
{ |
|
"epoch": 17.466666666666665, |
|
"grad_norm": 0.1630188226699829, |
|
"learning_rate": 0.0004392487639129391, |
|
"loss": 0.0149, |
|
"step": 5240 |
|
}, |
|
{ |
|
"epoch": 17.5, |
|
"grad_norm": 1.5527725219726562, |
|
"learning_rate": 0.0004389373935885646, |
|
"loss": 0.0033, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 17.533333333333335, |
|
"grad_norm": 0.08788882941007614, |
|
"learning_rate": 0.00043862533832873807, |
|
"loss": 0.0181, |
|
"step": 5260 |
|
}, |
|
{ |
|
"epoch": 17.566666666666666, |
|
"grad_norm": 18.95491600036621, |
|
"learning_rate": 0.0004383125992647217, |
|
"loss": 0.0551, |
|
"step": 5270 |
|
}, |
|
{ |
|
"epoch": 17.6, |
|
"grad_norm": 0.09805364906787872, |
|
"learning_rate": 0.0004379991775302565, |
|
"loss": 0.0016, |
|
"step": 5280 |
|
}, |
|
{ |
|
"epoch": 17.633333333333333, |
|
"grad_norm": 0.08975560963153839, |
|
"learning_rate": 0.0004376850742615582, |
|
"loss": 0.0094, |
|
"step": 5290 |
|
}, |
|
{ |
|
"epoch": 17.666666666666668, |
|
"grad_norm": 0.0001883259683381766, |
|
"learning_rate": 0.00043737029059731354, |
|
"loss": 0.0345, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 17.7, |
|
"grad_norm": 0.013120437040925026, |
|
"learning_rate": 0.0004370548276786753, |
|
"loss": 0.0012, |
|
"step": 5310 |
|
}, |
|
{ |
|
"epoch": 17.733333333333334, |
|
"grad_norm": 0.001265104510821402, |
|
"learning_rate": 0.0004367386866492593, |
|
"loss": 0.0065, |
|
"step": 5320 |
|
}, |
|
{ |
|
"epoch": 17.766666666666666, |
|
"grad_norm": 0.00024534211843274534, |
|
"learning_rate": 0.00043642186865513923, |
|
"loss": 0.059, |
|
"step": 5330 |
|
}, |
|
{ |
|
"epoch": 17.8, |
|
"grad_norm": 0.00401131808757782, |
|
"learning_rate": 0.000436104374844843, |
|
"loss": 0.013, |
|
"step": 5340 |
|
}, |
|
{ |
|
"epoch": 17.833333333333332, |
|
"grad_norm": 8.443090337095782e-05, |
|
"learning_rate": 0.00043578620636934855, |
|
"loss": 0.0187, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 17.866666666666667, |
|
"grad_norm": 3.067394495010376, |
|
"learning_rate": 0.0004354673643820796, |
|
"loss": 0.0088, |
|
"step": 5360 |
|
}, |
|
{ |
|
"epoch": 17.9, |
|
"grad_norm": 9.890982627868652, |
|
"learning_rate": 0.00043514785003890145, |
|
"loss": 0.0055, |
|
"step": 5370 |
|
}, |
|
{ |
|
"epoch": 17.933333333333334, |
|
"grad_norm": 0.06324765086174011, |
|
"learning_rate": 0.0004348276644981169, |
|
"loss": 0.0059, |
|
"step": 5380 |
|
}, |
|
{ |
|
"epoch": 17.966666666666665, |
|
"grad_norm": 1.9441681615717243e-06, |
|
"learning_rate": 0.0004345068089204618, |
|
"loss": 0.0157, |
|
"step": 5390 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"grad_norm": 0.0008120173588395119, |
|
"learning_rate": 0.00043418528446910123, |
|
"loss": 0.0176, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924950401511573, |
|
"eval_kappa": 0.9848851269649335, |
|
"eval_loss": 0.012522498145699501, |
|
"eval_precision": 0.9926027397260273, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.2697, |
|
"eval_samples_per_second": 55.023, |
|
"eval_steps_per_second": 2.338, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 18.033333333333335, |
|
"grad_norm": 2.747086763381958, |
|
"learning_rate": 0.00043386309230962494, |
|
"loss": 0.0049, |
|
"step": 5410 |
|
}, |
|
{ |
|
"epoch": 18.066666666666666, |
|
"grad_norm": 0.17824751138687134, |
|
"learning_rate": 0.00043354023361004326, |
|
"loss": 0.0055, |
|
"step": 5420 |
|
}, |
|
{ |
|
"epoch": 18.1, |
|
"grad_norm": 0.012055006809532642, |
|
"learning_rate": 0.00043321670954078295, |
|
"loss": 0.0059, |
|
"step": 5430 |
|
}, |
|
{ |
|
"epoch": 18.133333333333333, |
|
"grad_norm": 2.920243105108966e-07, |
|
"learning_rate": 0.00043289252127468275, |
|
"loss": 0.013, |
|
"step": 5440 |
|
}, |
|
{ |
|
"epoch": 18.166666666666668, |
|
"grad_norm": 0.02946869097650051, |
|
"learning_rate": 0.00043256766998698936, |
|
"loss": 0.0129, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 18.2, |
|
"grad_norm": 0.15984544157981873, |
|
"learning_rate": 0.00043224215685535287, |
|
"loss": 0.0259, |
|
"step": 5460 |
|
}, |
|
{ |
|
"epoch": 18.233333333333334, |
|
"grad_norm": 0.007439691107720137, |
|
"learning_rate": 0.00043191598305982295, |
|
"loss": 0.0071, |
|
"step": 5470 |
|
}, |
|
{ |
|
"epoch": 18.266666666666666, |
|
"grad_norm": 0.003393712919205427, |
|
"learning_rate": 0.00043158914978284413, |
|
"loss": 0.0, |
|
"step": 5480 |
|
}, |
|
{ |
|
"epoch": 18.3, |
|
"grad_norm": 0.026435252279043198, |
|
"learning_rate": 0.00043126165820925175, |
|
"loss": 0.0024, |
|
"step": 5490 |
|
}, |
|
{ |
|
"epoch": 18.333333333333332, |
|
"grad_norm": 0.058090608566999435, |
|
"learning_rate": 0.0004309335095262675, |
|
"loss": 0.0851, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 18.366666666666667, |
|
"grad_norm": 0.004093553405255079, |
|
"learning_rate": 0.00043060470492349546, |
|
"loss": 0.055, |
|
"step": 5510 |
|
}, |
|
{ |
|
"epoch": 18.4, |
|
"grad_norm": 0.006154999136924744, |
|
"learning_rate": 0.00043027524559291735, |
|
"loss": 0.0444, |
|
"step": 5520 |
|
}, |
|
{ |
|
"epoch": 18.433333333333334, |
|
"grad_norm": 1.4688598639622796e-05, |
|
"learning_rate": 0.0004299451327288884, |
|
"loss": 0.1432, |
|
"step": 5530 |
|
}, |
|
{ |
|
"epoch": 18.466666666666665, |
|
"grad_norm": 0.01573503017425537, |
|
"learning_rate": 0.00042961436752813313, |
|
"loss": 0.0567, |
|
"step": 5540 |
|
}, |
|
{ |
|
"epoch": 18.5, |
|
"grad_norm": 0.09377676993608475, |
|
"learning_rate": 0.0004292829511897409, |
|
"loss": 0.004, |
|
"step": 5550 |
|
}, |
|
{ |
|
"epoch": 18.533333333333335, |
|
"grad_norm": 0.0003030710795428604, |
|
"learning_rate": 0.00042895088491516143, |
|
"loss": 0.0109, |
|
"step": 5560 |
|
}, |
|
{ |
|
"epoch": 18.566666666666666, |
|
"grad_norm": 0.37513068318367004, |
|
"learning_rate": 0.00042861816990820087, |
|
"loss": 0.0139, |
|
"step": 5570 |
|
}, |
|
{ |
|
"epoch": 18.6, |
|
"grad_norm": 0.01114998385310173, |
|
"learning_rate": 0.00042828480737501685, |
|
"loss": 0.0121, |
|
"step": 5580 |
|
}, |
|
{ |
|
"epoch": 18.633333333333333, |
|
"grad_norm": 0.016994353383779526, |
|
"learning_rate": 0.0004279507985241146, |
|
"loss": 0.0018, |
|
"step": 5590 |
|
}, |
|
{ |
|
"epoch": 18.666666666666668, |
|
"grad_norm": 23.48972511291504, |
|
"learning_rate": 0.00042761614456634226, |
|
"loss": 0.0639, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 18.7, |
|
"grad_norm": 15.19426155090332, |
|
"learning_rate": 0.00042728084671488667, |
|
"loss": 0.0308, |
|
"step": 5610 |
|
}, |
|
{ |
|
"epoch": 18.733333333333334, |
|
"grad_norm": 0.4076824188232422, |
|
"learning_rate": 0.000426944906185269, |
|
"loss": 0.0067, |
|
"step": 5620 |
|
}, |
|
{ |
|
"epoch": 18.766666666666666, |
|
"grad_norm": 0.00021396263036876917, |
|
"learning_rate": 0.00042660832419534015, |
|
"loss": 0.0213, |
|
"step": 5630 |
|
}, |
|
{ |
|
"epoch": 18.8, |
|
"grad_norm": 0.0007938387570902705, |
|
"learning_rate": 0.00042627110196527643, |
|
"loss": 0.0027, |
|
"step": 5640 |
|
}, |
|
{ |
|
"epoch": 18.833333333333332, |
|
"grad_norm": 6.3498005867004395, |
|
"learning_rate": 0.00042593324071757513, |
|
"loss": 0.0014, |
|
"step": 5650 |
|
}, |
|
{ |
|
"epoch": 18.866666666666667, |
|
"grad_norm": 0.01834871992468834, |
|
"learning_rate": 0.00042559474167705024, |
|
"loss": 0.005, |
|
"step": 5660 |
|
}, |
|
{ |
|
"epoch": 18.9, |
|
"grad_norm": 25.21710968017578, |
|
"learning_rate": 0.0004252556060708277, |
|
"loss": 0.0112, |
|
"step": 5670 |
|
}, |
|
{ |
|
"epoch": 18.933333333333334, |
|
"grad_norm": 0.0007557334029115736, |
|
"learning_rate": 0.00042491583512834137, |
|
"loss": 0.0048, |
|
"step": 5680 |
|
}, |
|
{ |
|
"epoch": 18.966666666666665, |
|
"grad_norm": 0.0007840251782909036, |
|
"learning_rate": 0.00042457543008132803, |
|
"loss": 0.0028, |
|
"step": 5690 |
|
}, |
|
{ |
|
"epoch": 19.0, |
|
"grad_norm": 0.00020392781880218536, |
|
"learning_rate": 0.00042423439216382345, |
|
"loss": 0.004, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 19.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924950401511573, |
|
"eval_kappa": 0.9848851269649335, |
|
"eval_loss": 0.02138124778866768, |
|
"eval_precision": 0.9926027397260273, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.2724, |
|
"eval_samples_per_second": 55.002, |
|
"eval_steps_per_second": 2.338, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 19.033333333333335, |
|
"grad_norm": 3.409046257729642e-05, |
|
"learning_rate": 0.0004238927226121574, |
|
"loss": 0.0053, |
|
"step": 5710 |
|
}, |
|
{ |
|
"epoch": 19.066666666666666, |
|
"grad_norm": 5.1102761062793434e-05, |
|
"learning_rate": 0.0004235504226649499, |
|
"loss": 0.0006, |
|
"step": 5720 |
|
}, |
|
{ |
|
"epoch": 19.1, |
|
"grad_norm": 4.482835265662288e-06, |
|
"learning_rate": 0.00042320749356310585, |
|
"loss": 0.0062, |
|
"step": 5730 |
|
}, |
|
{ |
|
"epoch": 19.133333333333333, |
|
"grad_norm": 6.407644377759425e-06, |
|
"learning_rate": 0.00042286393654981117, |
|
"loss": 0.0144, |
|
"step": 5740 |
|
}, |
|
{ |
|
"epoch": 19.166666666666668, |
|
"grad_norm": 6.763396868336713e-06, |
|
"learning_rate": 0.000422519752870528, |
|
"loss": 0.0074, |
|
"step": 5750 |
|
}, |
|
{ |
|
"epoch": 19.2, |
|
"grad_norm": 0.6662626266479492, |
|
"learning_rate": 0.0004221749437729904, |
|
"loss": 0.0249, |
|
"step": 5760 |
|
}, |
|
{ |
|
"epoch": 19.233333333333334, |
|
"grad_norm": 2.1368918418884277, |
|
"learning_rate": 0.00042182951050719953, |
|
"loss": 0.0005, |
|
"step": 5770 |
|
}, |
|
{ |
|
"epoch": 19.266666666666666, |
|
"grad_norm": 0.7532082796096802, |
|
"learning_rate": 0.00042148345432541947, |
|
"loss": 0.0012, |
|
"step": 5780 |
|
}, |
|
{ |
|
"epoch": 19.3, |
|
"grad_norm": 0.0029580825939774513, |
|
"learning_rate": 0.0004211367764821722, |
|
"loss": 0.0908, |
|
"step": 5790 |
|
}, |
|
{ |
|
"epoch": 19.333333333333332, |
|
"grad_norm": 0.0024131108075380325, |
|
"learning_rate": 0.00042078947823423365, |
|
"loss": 0.0003, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 19.366666666666667, |
|
"grad_norm": 0.3826955556869507, |
|
"learning_rate": 0.0004204415608406287, |
|
"loss": 0.0017, |
|
"step": 5810 |
|
}, |
|
{ |
|
"epoch": 19.4, |
|
"grad_norm": 0.6719952821731567, |
|
"learning_rate": 0.0004200930255626267, |
|
"loss": 0.0045, |
|
"step": 5820 |
|
}, |
|
{ |
|
"epoch": 19.433333333333334, |
|
"grad_norm": 0.0007892029243521392, |
|
"learning_rate": 0.0004197438736637371, |
|
"loss": 0.0018, |
|
"step": 5830 |
|
}, |
|
{ |
|
"epoch": 19.466666666666665, |
|
"grad_norm": 0.3547203838825226, |
|
"learning_rate": 0.00041939410640970463, |
|
"loss": 0.0001, |
|
"step": 5840 |
|
}, |
|
{ |
|
"epoch": 19.5, |
|
"grad_norm": 0.0005942045827396214, |
|
"learning_rate": 0.0004190437250685049, |
|
"loss": 0.0041, |
|
"step": 5850 |
|
}, |
|
{ |
|
"epoch": 19.533333333333335, |
|
"grad_norm": 2.2738926418242045e-05, |
|
"learning_rate": 0.0004186927309103395, |
|
"loss": 0.0249, |
|
"step": 5860 |
|
}, |
|
{ |
|
"epoch": 19.566666666666666, |
|
"grad_norm": 0.2131558209657669, |
|
"learning_rate": 0.0004183411252076318, |
|
"loss": 0.0021, |
|
"step": 5870 |
|
}, |
|
{ |
|
"epoch": 19.6, |
|
"grad_norm": 5.3966072300681844e-05, |
|
"learning_rate": 0.00041798890923502196, |
|
"loss": 0.0142, |
|
"step": 5880 |
|
}, |
|
{ |
|
"epoch": 19.633333333333333, |
|
"grad_norm": 5.459845488076098e-05, |
|
"learning_rate": 0.00041763608426936285, |
|
"loss": 0.0114, |
|
"step": 5890 |
|
}, |
|
{ |
|
"epoch": 19.666666666666668, |
|
"grad_norm": 0.00019487504323478788, |
|
"learning_rate": 0.0004172826515897146, |
|
"loss": 0.0006, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 19.7, |
|
"grad_norm": 39.95808792114258, |
|
"learning_rate": 0.00041692861247734066, |
|
"loss": 0.027, |
|
"step": 5910 |
|
}, |
|
{ |
|
"epoch": 19.733333333333334, |
|
"grad_norm": 0.09292138367891312, |
|
"learning_rate": 0.000416573968215703, |
|
"loss": 0.0142, |
|
"step": 5920 |
|
}, |
|
{ |
|
"epoch": 19.766666666666666, |
|
"grad_norm": 0.4146019518375397, |
|
"learning_rate": 0.00041621872009045714, |
|
"loss": 0.0619, |
|
"step": 5930 |
|
}, |
|
{ |
|
"epoch": 19.8, |
|
"grad_norm": 0.0032702682074159384, |
|
"learning_rate": 0.00041586286938944794, |
|
"loss": 0.049, |
|
"step": 5940 |
|
}, |
|
{ |
|
"epoch": 19.833333333333332, |
|
"grad_norm": 9.901680641632993e-06, |
|
"learning_rate": 0.0004155064174027047, |
|
"loss": 0.053, |
|
"step": 5950 |
|
}, |
|
{ |
|
"epoch": 19.866666666666667, |
|
"grad_norm": 2.382656560939722e-07, |
|
"learning_rate": 0.0004151493654224362, |
|
"loss": 0.0041, |
|
"step": 5960 |
|
}, |
|
{ |
|
"epoch": 19.9, |
|
"grad_norm": 0.10070688277482986, |
|
"learning_rate": 0.0004147917147430267, |
|
"loss": 0.0002, |
|
"step": 5970 |
|
}, |
|
{ |
|
"epoch": 19.933333333333334, |
|
"grad_norm": 0.37473300099372864, |
|
"learning_rate": 0.00041443346666103075, |
|
"loss": 0.0317, |
|
"step": 5980 |
|
}, |
|
{ |
|
"epoch": 19.966666666666665, |
|
"grad_norm": 0.015777839347720146, |
|
"learning_rate": 0.0004140746224751686, |
|
"loss": 0.0049, |
|
"step": 5990 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"grad_norm": 0.06747877597808838, |
|
"learning_rate": 0.0004137151834863213, |
|
"loss": 0.0765, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9925014619055704, |
|
"eval_kappa": 0.9849094567404426, |
|
"eval_loss": 0.026282142847776413, |
|
"eval_precision": 0.9925153991200503, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 7.3526, |
|
"eval_samples_per_second": 54.403, |
|
"eval_steps_per_second": 2.312, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 20.033333333333335, |
|
"grad_norm": 7.862460915930569e-05, |
|
"learning_rate": 0.0004133551509975264, |
|
"loss": 0.0018, |
|
"step": 6010 |
|
}, |
|
{ |
|
"epoch": 20.066666666666666, |
|
"grad_norm": 0.003342132782563567, |
|
"learning_rate": 0.00041299452631397295, |
|
"loss": 0.0073, |
|
"step": 6020 |
|
}, |
|
{ |
|
"epoch": 20.1, |
|
"grad_norm": 0.0008726781816221774, |
|
"learning_rate": 0.00041263331074299674, |
|
"loss": 0.0006, |
|
"step": 6030 |
|
}, |
|
{ |
|
"epoch": 20.133333333333333, |
|
"grad_norm": 0.003774689044803381, |
|
"learning_rate": 0.0004122715055940759, |
|
"loss": 0.0142, |
|
"step": 6040 |
|
}, |
|
{ |
|
"epoch": 20.166666666666668, |
|
"grad_norm": 4.912187099456787, |
|
"learning_rate": 0.00041190911217882554, |
|
"loss": 0.0087, |
|
"step": 6050 |
|
}, |
|
{ |
|
"epoch": 20.2, |
|
"grad_norm": 0.028365733101963997, |
|
"learning_rate": 0.00041154613181099354, |
|
"loss": 0.0009, |
|
"step": 6060 |
|
}, |
|
{ |
|
"epoch": 20.233333333333334, |
|
"grad_norm": 0.5290868878364563, |
|
"learning_rate": 0.00041118256580645573, |
|
"loss": 0.0072, |
|
"step": 6070 |
|
}, |
|
{ |
|
"epoch": 20.266666666666666, |
|
"grad_norm": 1.6444475477328524e-05, |
|
"learning_rate": 0.00041081841548321063, |
|
"loss": 0.0011, |
|
"step": 6080 |
|
}, |
|
{ |
|
"epoch": 20.3, |
|
"grad_norm": 1.4104318324825726e-05, |
|
"learning_rate": 0.0004104536821613755, |
|
"loss": 0.0028, |
|
"step": 6090 |
|
}, |
|
{ |
|
"epoch": 20.333333333333332, |
|
"grad_norm": 0.0005012187757529318, |
|
"learning_rate": 0.0004100883671631806, |
|
"loss": 0.0006, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 20.366666666666667, |
|
"grad_norm": 0.0006044594920240343, |
|
"learning_rate": 0.00040972247181296517, |
|
"loss": 0.0007, |
|
"step": 6110 |
|
}, |
|
{ |
|
"epoch": 20.4, |
|
"grad_norm": 0.011126265861093998, |
|
"learning_rate": 0.00040935599743717243, |
|
"loss": 0.0, |
|
"step": 6120 |
|
}, |
|
{ |
|
"epoch": 20.433333333333334, |
|
"grad_norm": 9.391146886628121e-05, |
|
"learning_rate": 0.00040898894536434436, |
|
"loss": 0.0036, |
|
"step": 6130 |
|
}, |
|
{ |
|
"epoch": 20.466666666666665, |
|
"grad_norm": 0.0033955660182982683, |
|
"learning_rate": 0.0004086213169251175, |
|
"loss": 0.0055, |
|
"step": 6140 |
|
}, |
|
{ |
|
"epoch": 20.5, |
|
"grad_norm": 3.899128932971507e-05, |
|
"learning_rate": 0.0004082531134522176, |
|
"loss": 0.0038, |
|
"step": 6150 |
|
}, |
|
{ |
|
"epoch": 20.533333333333335, |
|
"grad_norm": 54.52496337890625, |
|
"learning_rate": 0.00040788433628045526, |
|
"loss": 0.0801, |
|
"step": 6160 |
|
}, |
|
{ |
|
"epoch": 20.566666666666666, |
|
"grad_norm": 23.238245010375977, |
|
"learning_rate": 0.0004075149867467206, |
|
"loss": 0.0054, |
|
"step": 6170 |
|
}, |
|
{ |
|
"epoch": 20.6, |
|
"grad_norm": 0.024889228865504265, |
|
"learning_rate": 0.0004071450661899789, |
|
"loss": 0.0006, |
|
"step": 6180 |
|
}, |
|
{ |
|
"epoch": 20.633333333333333, |
|
"grad_norm": 0.00033502039150334895, |
|
"learning_rate": 0.00040677457595126535, |
|
"loss": 0.0193, |
|
"step": 6190 |
|
}, |
|
{ |
|
"epoch": 20.666666666666668, |
|
"grad_norm": 1.2196564674377441, |
|
"learning_rate": 0.0004064035173736804, |
|
"loss": 0.0326, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 20.7, |
|
"grad_norm": 0.03614107146859169, |
|
"learning_rate": 0.00040603189180238487, |
|
"loss": 0.0428, |
|
"step": 6210 |
|
}, |
|
{ |
|
"epoch": 20.733333333333334, |
|
"grad_norm": 0.00015757529763504863, |
|
"learning_rate": 0.00040565970058459495, |
|
"loss": 0.0178, |
|
"step": 6220 |
|
}, |
|
{ |
|
"epoch": 20.766666666666666, |
|
"grad_norm": 31.76898956298828, |
|
"learning_rate": 0.0004052869450695776, |
|
"loss": 0.0377, |
|
"step": 6230 |
|
}, |
|
{ |
|
"epoch": 20.8, |
|
"grad_norm": 2.0460689067840576, |
|
"learning_rate": 0.0004049136266086453, |
|
"loss": 0.0018, |
|
"step": 6240 |
|
}, |
|
{ |
|
"epoch": 20.833333333333332, |
|
"grad_norm": 0.00013923767255619168, |
|
"learning_rate": 0.0004045397465551513, |
|
"loss": 0.0257, |
|
"step": 6250 |
|
}, |
|
{ |
|
"epoch": 20.866666666666667, |
|
"grad_norm": 0.0006307970033958554, |
|
"learning_rate": 0.0004041653062644849, |
|
"loss": 0.0004, |
|
"step": 6260 |
|
}, |
|
{ |
|
"epoch": 20.9, |
|
"grad_norm": 0.006992705166339874, |
|
"learning_rate": 0.0004037903070940663, |
|
"loss": 0.0184, |
|
"step": 6270 |
|
}, |
|
{ |
|
"epoch": 20.933333333333334, |
|
"grad_norm": 4.516855239868164, |
|
"learning_rate": 0.0004034147504033415, |
|
"loss": 0.0011, |
|
"step": 6280 |
|
}, |
|
{ |
|
"epoch": 20.966666666666665, |
|
"grad_norm": 2.106142282485962, |
|
"learning_rate": 0.0004030386375537781, |
|
"loss": 0.0004, |
|
"step": 6290 |
|
}, |
|
{ |
|
"epoch": 21.0, |
|
"grad_norm": 0.021997051313519478, |
|
"learning_rate": 0.00040266196990885957, |
|
"loss": 0.0031, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 21.0, |
|
"eval_accuracy": 0.995, |
|
"eval_f1": 0.9949978595351413, |
|
"eval_kappa": 0.9899274778404512, |
|
"eval_loss": 0.007627411279827356, |
|
"eval_precision": 0.9950458715596331, |
|
"eval_recall": 0.995, |
|
"eval_runtime": 7.3429, |
|
"eval_samples_per_second": 54.474, |
|
"eval_steps_per_second": 2.315, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 21.033333333333335, |
|
"grad_norm": 0.10303360223770142, |
|
"learning_rate": 0.0004022847488340806, |
|
"loss": 0.0002, |
|
"step": 6310 |
|
}, |
|
{ |
|
"epoch": 21.066666666666666, |
|
"grad_norm": 0.0006746263243257999, |
|
"learning_rate": 0.0004019069756969423, |
|
"loss": 0.0047, |
|
"step": 6320 |
|
}, |
|
{ |
|
"epoch": 21.1, |
|
"grad_norm": 0.009801504202187061, |
|
"learning_rate": 0.0004015286518669471, |
|
"loss": 0.0001, |
|
"step": 6330 |
|
}, |
|
{ |
|
"epoch": 21.133333333333333, |
|
"grad_norm": 0.0029807365499436855, |
|
"learning_rate": 0.00040114977871559375, |
|
"loss": 0.0003, |
|
"step": 6340 |
|
}, |
|
{ |
|
"epoch": 21.166666666666668, |
|
"grad_norm": 4.46964713773923e-06, |
|
"learning_rate": 0.0004007703576163724, |
|
"loss": 0.0034, |
|
"step": 6350 |
|
}, |
|
{ |
|
"epoch": 21.2, |
|
"grad_norm": 0.0006399075500667095, |
|
"learning_rate": 0.0004003903899447597, |
|
"loss": 0.0004, |
|
"step": 6360 |
|
}, |
|
{ |
|
"epoch": 21.233333333333334, |
|
"grad_norm": 3.252115493523888e-05, |
|
"learning_rate": 0.00040000987707821355, |
|
"loss": 0.001, |
|
"step": 6370 |
|
}, |
|
{ |
|
"epoch": 21.266666666666666, |
|
"grad_norm": 0.00783352367579937, |
|
"learning_rate": 0.0003996288203961686, |
|
"loss": 0.0003, |
|
"step": 6380 |
|
}, |
|
{ |
|
"epoch": 21.3, |
|
"grad_norm": 2.122505975421518e-05, |
|
"learning_rate": 0.0003992472212800307, |
|
"loss": 0.0171, |
|
"step": 6390 |
|
}, |
|
{ |
|
"epoch": 21.333333333333332, |
|
"grad_norm": 14.490923881530762, |
|
"learning_rate": 0.000398865081113172, |
|
"loss": 0.0322, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 21.366666666666667, |
|
"grad_norm": 3.637007694123895e-06, |
|
"learning_rate": 0.0003984824012809265, |
|
"loss": 0.0305, |
|
"step": 6410 |
|
}, |
|
{ |
|
"epoch": 21.4, |
|
"grad_norm": 5.9053168296813965, |
|
"learning_rate": 0.0003980991831705842, |
|
"loss": 0.0107, |
|
"step": 6420 |
|
}, |
|
{ |
|
"epoch": 21.433333333333334, |
|
"grad_norm": 0.28526216745376587, |
|
"learning_rate": 0.0003977154281713866, |
|
"loss": 0.0684, |
|
"step": 6430 |
|
}, |
|
{ |
|
"epoch": 21.466666666666665, |
|
"grad_norm": 1.392630696296692, |
|
"learning_rate": 0.00039733113767452164, |
|
"loss": 0.0005, |
|
"step": 6440 |
|
}, |
|
{ |
|
"epoch": 21.5, |
|
"grad_norm": 5.3771942475577816e-05, |
|
"learning_rate": 0.0003969463130731183, |
|
"loss": 0.0007, |
|
"step": 6450 |
|
}, |
|
{ |
|
"epoch": 21.533333333333335, |
|
"grad_norm": 0.5646133422851562, |
|
"learning_rate": 0.00039656095576224204, |
|
"loss": 0.0082, |
|
"step": 6460 |
|
}, |
|
{ |
|
"epoch": 21.566666666666666, |
|
"grad_norm": 57.72877883911133, |
|
"learning_rate": 0.0003961750671388894, |
|
"loss": 0.0146, |
|
"step": 6470 |
|
}, |
|
{ |
|
"epoch": 21.6, |
|
"grad_norm": 23.014808654785156, |
|
"learning_rate": 0.000395788648601983, |
|
"loss": 0.0442, |
|
"step": 6480 |
|
}, |
|
{ |
|
"epoch": 21.633333333333333, |
|
"grad_norm": 0.09101602435112, |
|
"learning_rate": 0.00039540170155236647, |
|
"loss": 0.0481, |
|
"step": 6490 |
|
}, |
|
{ |
|
"epoch": 21.666666666666668, |
|
"grad_norm": 0.040844641625881195, |
|
"learning_rate": 0.0003950142273927996, |
|
"loss": 0.0161, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 21.7, |
|
"grad_norm": 0.4568909704685211, |
|
"learning_rate": 0.0003946262275279527, |
|
"loss": 0.0081, |
|
"step": 6510 |
|
}, |
|
{ |
|
"epoch": 21.733333333333334, |
|
"grad_norm": 8.483947749482468e-05, |
|
"learning_rate": 0.00039423770336440234, |
|
"loss": 0.0169, |
|
"step": 6520 |
|
}, |
|
{ |
|
"epoch": 21.766666666666666, |
|
"grad_norm": 0.016545411199331284, |
|
"learning_rate": 0.00039384865631062534, |
|
"loss": 0.0074, |
|
"step": 6530 |
|
}, |
|
{ |
|
"epoch": 21.8, |
|
"grad_norm": 0.023100852966308594, |
|
"learning_rate": 0.00039345908777699436, |
|
"loss": 0.0144, |
|
"step": 6540 |
|
}, |
|
{ |
|
"epoch": 21.833333333333332, |
|
"grad_norm": 0.012311081402003765, |
|
"learning_rate": 0.00039306899917577245, |
|
"loss": 0.0004, |
|
"step": 6550 |
|
}, |
|
{ |
|
"epoch": 21.866666666666667, |
|
"grad_norm": 0.00015020677528809756, |
|
"learning_rate": 0.000392678391921108, |
|
"loss": 0.0178, |
|
"step": 6560 |
|
}, |
|
{ |
|
"epoch": 21.9, |
|
"grad_norm": 2.5779238058021292e-05, |
|
"learning_rate": 0.00039228726742902956, |
|
"loss": 0.0042, |
|
"step": 6570 |
|
}, |
|
{ |
|
"epoch": 21.933333333333334, |
|
"grad_norm": 0.0032437986228615046, |
|
"learning_rate": 0.0003918956271174409, |
|
"loss": 0.011, |
|
"step": 6580 |
|
}, |
|
{ |
|
"epoch": 21.966666666666665, |
|
"grad_norm": 0.00043358461698517203, |
|
"learning_rate": 0.0003915034724061156, |
|
"loss": 0.0977, |
|
"step": 6590 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"grad_norm": 2.70005443780974e-07, |
|
"learning_rate": 0.0003911108047166924, |
|
"loss": 0.0241, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"eval_accuracy": 0.995, |
|
"eval_f1": 0.9949978595351413, |
|
"eval_kappa": 0.9899274778404512, |
|
"eval_loss": 0.005487921182066202, |
|
"eval_precision": 0.9950458715596331, |
|
"eval_recall": 0.995, |
|
"eval_runtime": 7.6114, |
|
"eval_samples_per_second": 52.552, |
|
"eval_steps_per_second": 2.233, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 22.033333333333335, |
|
"grad_norm": 0.0010603450937196612, |
|
"learning_rate": 0.000390717625472669, |
|
"loss": 0.0413, |
|
"step": 6610 |
|
}, |
|
{ |
|
"epoch": 22.066666666666666, |
|
"grad_norm": 0.1451718658208847, |
|
"learning_rate": 0.00039032393609939823, |
|
"loss": 0.0002, |
|
"step": 6620 |
|
}, |
|
{ |
|
"epoch": 22.1, |
|
"grad_norm": 4.978695142199285e-05, |
|
"learning_rate": 0.00038992973802408186, |
|
"loss": 0.0105, |
|
"step": 6630 |
|
}, |
|
{ |
|
"epoch": 22.133333333333333, |
|
"grad_norm": 4.238208930473775e-05, |
|
"learning_rate": 0.00038953503267576616, |
|
"loss": 0.0145, |
|
"step": 6640 |
|
}, |
|
{ |
|
"epoch": 22.166666666666668, |
|
"grad_norm": 1.652227759361267, |
|
"learning_rate": 0.000389139821485336, |
|
"loss": 0.0046, |
|
"step": 6650 |
|
}, |
|
{ |
|
"epoch": 22.2, |
|
"grad_norm": 1.4371596574783325, |
|
"learning_rate": 0.0003887441058855101, |
|
"loss": 0.0048, |
|
"step": 6660 |
|
}, |
|
{ |
|
"epoch": 22.233333333333334, |
|
"grad_norm": 0.01756283827126026, |
|
"learning_rate": 0.000388347887310836, |
|
"loss": 0.0005, |
|
"step": 6670 |
|
}, |
|
{ |
|
"epoch": 22.266666666666666, |
|
"grad_norm": 0.007431345991790295, |
|
"learning_rate": 0.0003879511671976844, |
|
"loss": 0.0211, |
|
"step": 6680 |
|
}, |
|
{ |
|
"epoch": 22.3, |
|
"grad_norm": 0.05154158174991608, |
|
"learning_rate": 0.0003875539469842443, |
|
"loss": 0.0051, |
|
"step": 6690 |
|
}, |
|
{ |
|
"epoch": 22.333333333333332, |
|
"grad_norm": 17.479228973388672, |
|
"learning_rate": 0.00038715622811051755, |
|
"loss": 0.0117, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 22.366666666666667, |
|
"grad_norm": 0.0018899671267718077, |
|
"learning_rate": 0.0003867580120183137, |
|
"loss": 0.0056, |
|
"step": 6710 |
|
}, |
|
{ |
|
"epoch": 22.4, |
|
"grad_norm": 0.4511035084724426, |
|
"learning_rate": 0.000386359300151245, |
|
"loss": 0.0026, |
|
"step": 6720 |
|
}, |
|
{ |
|
"epoch": 22.433333333333334, |
|
"grad_norm": 26.481822967529297, |
|
"learning_rate": 0.000385960093954721, |
|
"loss": 0.0373, |
|
"step": 6730 |
|
}, |
|
{ |
|
"epoch": 22.466666666666665, |
|
"grad_norm": 5.34855325895478e-06, |
|
"learning_rate": 0.00038556039487594305, |
|
"loss": 0.0001, |
|
"step": 6740 |
|
}, |
|
{ |
|
"epoch": 22.5, |
|
"grad_norm": 0.846415102481842, |
|
"learning_rate": 0.0003851602043638994, |
|
"loss": 0.009, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 22.533333333333335, |
|
"grad_norm": 0.0109387943521142, |
|
"learning_rate": 0.00038475952386936, |
|
"loss": 0.0027, |
|
"step": 6760 |
|
}, |
|
{ |
|
"epoch": 22.566666666666666, |
|
"grad_norm": 0.01608428731560707, |
|
"learning_rate": 0.00038435835484487094, |
|
"loss": 0.0182, |
|
"step": 6770 |
|
}, |
|
{ |
|
"epoch": 22.6, |
|
"grad_norm": 8.210320629586931e-06, |
|
"learning_rate": 0.00038395669874474915, |
|
"loss": 0.0012, |
|
"step": 6780 |
|
}, |
|
{ |
|
"epoch": 22.633333333333333, |
|
"grad_norm": 4.5128417696105316e-05, |
|
"learning_rate": 0.0003835545570250778, |
|
"loss": 0.0017, |
|
"step": 6790 |
|
}, |
|
{ |
|
"epoch": 22.666666666666668, |
|
"grad_norm": 9.459803550271317e-05, |
|
"learning_rate": 0.00038315193114369994, |
|
"loss": 0.0702, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 22.7, |
|
"grad_norm": 0.1442583054304123, |
|
"learning_rate": 0.00038274882256021436, |
|
"loss": 0.0114, |
|
"step": 6810 |
|
}, |
|
{ |
|
"epoch": 22.733333333333334, |
|
"grad_norm": 4.343274213169934e-06, |
|
"learning_rate": 0.00038234523273596925, |
|
"loss": 0.0054, |
|
"step": 6820 |
|
}, |
|
{ |
|
"epoch": 22.766666666666666, |
|
"grad_norm": 3.1445400714874268, |
|
"learning_rate": 0.00038194116313405776, |
|
"loss": 0.0012, |
|
"step": 6830 |
|
}, |
|
{ |
|
"epoch": 22.8, |
|
"grad_norm": 2.3695269192103297e-05, |
|
"learning_rate": 0.00038153661521931215, |
|
"loss": 0.0299, |
|
"step": 6840 |
|
}, |
|
{ |
|
"epoch": 22.833333333333332, |
|
"grad_norm": 0.009363389573991299, |
|
"learning_rate": 0.00038113159045829857, |
|
"loss": 0.0171, |
|
"step": 6850 |
|
}, |
|
{ |
|
"epoch": 22.866666666666667, |
|
"grad_norm": 24.479642868041992, |
|
"learning_rate": 0.00038072609031931216, |
|
"loss": 0.0459, |
|
"step": 6860 |
|
}, |
|
{ |
|
"epoch": 22.9, |
|
"grad_norm": 0.00038373778806999326, |
|
"learning_rate": 0.00038032011627237104, |
|
"loss": 0.0467, |
|
"step": 6870 |
|
}, |
|
{ |
|
"epoch": 22.933333333333334, |
|
"grad_norm": 0.0011447573779150844, |
|
"learning_rate": 0.0003799136697892115, |
|
"loss": 0.0058, |
|
"step": 6880 |
|
}, |
|
{ |
|
"epoch": 22.966666666666665, |
|
"grad_norm": 0.0019354552496224642, |
|
"learning_rate": 0.00037950675234328256, |
|
"loss": 0.0077, |
|
"step": 6890 |
|
}, |
|
{ |
|
"epoch": 23.0, |
|
"grad_norm": 14.743107795715332, |
|
"learning_rate": 0.0003790993654097405, |
|
"loss": 0.0033, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 23.0, |
|
"eval_accuracy": 0.99, |
|
"eval_f1": 0.9899957190702827, |
|
"eval_kappa": 0.9798549556809025, |
|
"eval_loss": 0.013646052218973637, |
|
"eval_precision": 0.990041334811977, |
|
"eval_recall": 0.99, |
|
"eval_runtime": 7.3674, |
|
"eval_samples_per_second": 54.294, |
|
"eval_steps_per_second": 2.307, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 23.033333333333335, |
|
"grad_norm": 0.00013050199777353555, |
|
"learning_rate": 0.0003786915104654436, |
|
"loss": 0.0, |
|
"step": 6910 |
|
}, |
|
{ |
|
"epoch": 23.066666666666666, |
|
"grad_norm": 0.5303778648376465, |
|
"learning_rate": 0.00037828318898894665, |
|
"loss": 0.0036, |
|
"step": 6920 |
|
}, |
|
{ |
|
"epoch": 23.1, |
|
"grad_norm": 8.454459930362646e-06, |
|
"learning_rate": 0.000377874402460496, |
|
"loss": 0.0046, |
|
"step": 6930 |
|
}, |
|
{ |
|
"epoch": 23.133333333333333, |
|
"grad_norm": 0.005222962703555822, |
|
"learning_rate": 0.0003774651523620237, |
|
"loss": 0.0, |
|
"step": 6940 |
|
}, |
|
{ |
|
"epoch": 23.166666666666668, |
|
"grad_norm": 0.1712953895330429, |
|
"learning_rate": 0.0003770554401771423, |
|
"loss": 0.0041, |
|
"step": 6950 |
|
}, |
|
{ |
|
"epoch": 23.2, |
|
"grad_norm": 0.17076972126960754, |
|
"learning_rate": 0.00037664526739113955, |
|
"loss": 0.0001, |
|
"step": 6960 |
|
}, |
|
{ |
|
"epoch": 23.233333333333334, |
|
"grad_norm": 0.0013726474717259407, |
|
"learning_rate": 0.00037623463549097313, |
|
"loss": 0.0001, |
|
"step": 6970 |
|
}, |
|
{ |
|
"epoch": 23.266666666666666, |
|
"grad_norm": 2.5219618692062795e-05, |
|
"learning_rate": 0.0003758235459652649, |
|
"loss": 0.0013, |
|
"step": 6980 |
|
}, |
|
{ |
|
"epoch": 23.3, |
|
"grad_norm": 0.31080183386802673, |
|
"learning_rate": 0.0003754120003042957, |
|
"loss": 0.0033, |
|
"step": 6990 |
|
}, |
|
{ |
|
"epoch": 23.333333333333332, |
|
"grad_norm": 0.00040980897028930485, |
|
"learning_rate": 0.000375, |
|
"loss": 0.0, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 23.366666666666667, |
|
"grad_norm": 6.820825547038112e-06, |
|
"learning_rate": 0.0003745875465459606, |
|
"loss": 0.0021, |
|
"step": 7010 |
|
}, |
|
{ |
|
"epoch": 23.4, |
|
"grad_norm": 0.22616206109523773, |
|
"learning_rate": 0.0003741746414374028, |
|
"loss": 0.0021, |
|
"step": 7020 |
|
}, |
|
{ |
|
"epoch": 23.433333333333334, |
|
"grad_norm": 6.284021765168291e-06, |
|
"learning_rate": 0.0003737612861711894, |
|
"loss": 0.0005, |
|
"step": 7030 |
|
}, |
|
{ |
|
"epoch": 23.466666666666665, |
|
"grad_norm": 0.004215302877128124, |
|
"learning_rate": 0.00037334748224581506, |
|
"loss": 0.0132, |
|
"step": 7040 |
|
}, |
|
{ |
|
"epoch": 23.5, |
|
"grad_norm": 0.9243494272232056, |
|
"learning_rate": 0.000372933231161401, |
|
"loss": 0.0049, |
|
"step": 7050 |
|
}, |
|
{ |
|
"epoch": 23.533333333333335, |
|
"grad_norm": 0.0001606469159014523, |
|
"learning_rate": 0.0003725185344196892, |
|
"loss": 0.0001, |
|
"step": 7060 |
|
}, |
|
{ |
|
"epoch": 23.566666666666666, |
|
"grad_norm": 1.1334620714187622, |
|
"learning_rate": 0.0003721033935240376, |
|
"loss": 0.0027, |
|
"step": 7070 |
|
}, |
|
{ |
|
"epoch": 23.6, |
|
"grad_norm": 1.3876824378967285, |
|
"learning_rate": 0.0003716878099794141, |
|
"loss": 0.0105, |
|
"step": 7080 |
|
}, |
|
{ |
|
"epoch": 23.633333333333333, |
|
"grad_norm": 5.220254593041318e-07, |
|
"learning_rate": 0.00037127178529239123, |
|
"loss": 0.0146, |
|
"step": 7090 |
|
}, |
|
{ |
|
"epoch": 23.666666666666668, |
|
"grad_norm": 5.209434986114502, |
|
"learning_rate": 0.00037085532097114095, |
|
"loss": 0.0073, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 23.7, |
|
"grad_norm": 0.0003162418433930725, |
|
"learning_rate": 0.0003704384185254288, |
|
"loss": 0.0816, |
|
"step": 7110 |
|
}, |
|
{ |
|
"epoch": 23.733333333333334, |
|
"grad_norm": 0.3284040689468384, |
|
"learning_rate": 0.00037002107946660875, |
|
"loss": 0.0005, |
|
"step": 7120 |
|
}, |
|
{ |
|
"epoch": 23.766666666666666, |
|
"grad_norm": 0.00015756633365526795, |
|
"learning_rate": 0.00036960330530761733, |
|
"loss": 0.0046, |
|
"step": 7130 |
|
}, |
|
{ |
|
"epoch": 23.8, |
|
"grad_norm": 33.33992004394531, |
|
"learning_rate": 0.00036918509756296873, |
|
"loss": 0.0572, |
|
"step": 7140 |
|
}, |
|
{ |
|
"epoch": 23.833333333333332, |
|
"grad_norm": 0.003860224736854434, |
|
"learning_rate": 0.00036876645774874876, |
|
"loss": 0.0015, |
|
"step": 7150 |
|
}, |
|
{ |
|
"epoch": 23.866666666666667, |
|
"grad_norm": 2.565090539974335e-07, |
|
"learning_rate": 0.00036834738738260954, |
|
"loss": 0.009, |
|
"step": 7160 |
|
}, |
|
{ |
|
"epoch": 23.9, |
|
"grad_norm": 0.0023236051201820374, |
|
"learning_rate": 0.0003679278879837642, |
|
"loss": 0.0012, |
|
"step": 7170 |
|
}, |
|
{ |
|
"epoch": 23.933333333333334, |
|
"grad_norm": 21.017024993896484, |
|
"learning_rate": 0.00036750796107298106, |
|
"loss": 0.0585, |
|
"step": 7180 |
|
}, |
|
{ |
|
"epoch": 23.966666666666665, |
|
"grad_norm": 0.0037448403891175985, |
|
"learning_rate": 0.00036708760817257837, |
|
"loss": 0.0031, |
|
"step": 7190 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"grad_norm": 18.846464157104492, |
|
"learning_rate": 0.00036666683080641843, |
|
"loss": 0.0181, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"eval_accuracy": 0.9925, |
|
"eval_f1": 0.9924950401511573, |
|
"eval_kappa": 0.9848851269649335, |
|
"eval_loss": 0.013661917299032211, |
|
"eval_precision": 0.9926027397260273, |
|
"eval_recall": 0.9925, |
|
"eval_runtime": 8.9153, |
|
"eval_samples_per_second": 44.867, |
|
"eval_steps_per_second": 1.907, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 24.033333333333335, |
|
"grad_norm": 0.0003208270645700395, |
|
"learning_rate": 0.0003662456304999027, |
|
"loss": 0.0176, |
|
"step": 7210 |
|
}, |
|
{ |
|
"epoch": 24.066666666666666, |
|
"grad_norm": 0.011914746835827827, |
|
"learning_rate": 0.00036582400877996547, |
|
"loss": 0.0073, |
|
"step": 7220 |
|
}, |
|
{ |
|
"epoch": 24.1, |
|
"grad_norm": 0.362394779920578, |
|
"learning_rate": 0.000365401967175069, |
|
"loss": 0.0193, |
|
"step": 7230 |
|
}, |
|
{ |
|
"epoch": 24.133333333333333, |
|
"grad_norm": 1.1130025256989029e-07, |
|
"learning_rate": 0.0003649795072151977, |
|
"loss": 0.0026, |
|
"step": 7240 |
|
}, |
|
{ |
|
"epoch": 24.166666666666668, |
|
"grad_norm": 0.0001176462828880176, |
|
"learning_rate": 0.0003645566304318526, |
|
"loss": 0.0278, |
|
"step": 7250 |
|
}, |
|
{ |
|
"epoch": 24.2, |
|
"grad_norm": 18.362728118896484, |
|
"learning_rate": 0.0003641333383580456, |
|
"loss": 0.0113, |
|
"step": 7260 |
|
}, |
|
{ |
|
"epoch": 24.233333333333334, |
|
"grad_norm": 0.10462316870689392, |
|
"learning_rate": 0.0003637096325282945, |
|
"loss": 0.0138, |
|
"step": 7270 |
|
}, |
|
{ |
|
"epoch": 24.266666666666666, |
|
"grad_norm": 0.006980831269174814, |
|
"learning_rate": 0.0003632855144786164, |
|
"loss": 0.0073, |
|
"step": 7280 |
|
}, |
|
{ |
|
"epoch": 24.3, |
|
"grad_norm": 0.013762867078185081, |
|
"learning_rate": 0.00036286098574652353, |
|
"loss": 0.0004, |
|
"step": 7290 |
|
}, |
|
{ |
|
"epoch": 24.333333333333332, |
|
"grad_norm": 13.014883995056152, |
|
"learning_rate": 0.00036243604787101645, |
|
"loss": 0.041, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 24.366666666666667, |
|
"grad_norm": 0.011269000358879566, |
|
"learning_rate": 0.0003620107023925791, |
|
"loss": 0.0074, |
|
"step": 7310 |
|
}, |
|
{ |
|
"epoch": 24.4, |
|
"grad_norm": 0.0007277583354152739, |
|
"learning_rate": 0.000361584950853173, |
|
"loss": 0.0003, |
|
"step": 7320 |
|
}, |
|
{ |
|
"epoch": 24.433333333333334, |
|
"grad_norm": 24.452768325805664, |
|
"learning_rate": 0.00036115879479623185, |
|
"loss": 0.0162, |
|
"step": 7330 |
|
}, |
|
{ |
|
"epoch": 24.466666666666665, |
|
"grad_norm": 0.004250858910381794, |
|
"learning_rate": 0.0003607322357666557, |
|
"loss": 0.0102, |
|
"step": 7340 |
|
}, |
|
{ |
|
"epoch": 24.5, |
|
"grad_norm": 4.788829326629639, |
|
"learning_rate": 0.0003603052753108053, |
|
"loss": 0.002, |
|
"step": 7350 |
|
}, |
|
{ |
|
"epoch": 24.533333333333335, |
|
"grad_norm": 5.666919605573639e-05, |
|
"learning_rate": 0.000359877914976497, |
|
"loss": 0.0132, |
|
"step": 7360 |
|
}, |
|
{ |
|
"epoch": 24.566666666666666, |
|
"grad_norm": 0.00400648545473814, |
|
"learning_rate": 0.0003594501563129966, |
|
"loss": 0.0018, |
|
"step": 7370 |
|
}, |
|
{ |
|
"epoch": 24.6, |
|
"grad_norm": 2.8069054678780958e-05, |
|
"learning_rate": 0.00035902200087101384, |
|
"loss": 0.0168, |
|
"step": 7380 |
|
}, |
|
{ |
|
"epoch": 24.633333333333333, |
|
"grad_norm": 0.012254276312887669, |
|
"learning_rate": 0.000358593450202697, |
|
"loss": 0.0429, |
|
"step": 7390 |
|
}, |
|
{ |
|
"epoch": 24.666666666666668, |
|
"grad_norm": 7.442674387903025e-08, |
|
"learning_rate": 0.00035816450586162706, |
|
"loss": 0.0025, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 24.7, |
|
"grad_norm": 9.398029327392578, |
|
"learning_rate": 0.00035773516940281223, |
|
"loss": 0.0135, |
|
"step": 7410 |
|
}, |
|
{ |
|
"epoch": 24.733333333333334, |
|
"grad_norm": 1.0428972927911673e-05, |
|
"learning_rate": 0.00035730544238268206, |
|
"loss": 0.0181, |
|
"step": 7420 |
|
}, |
|
{ |
|
"epoch": 24.766666666666666, |
|
"grad_norm": 0.0002591295342426747, |
|
"learning_rate": 0.00035687532635908216, |
|
"loss": 0.0039, |
|
"step": 7430 |
|
}, |
|
{ |
|
"epoch": 24.8, |
|
"grad_norm": 0.00013015963486395776, |
|
"learning_rate": 0.0003564448228912682, |
|
"loss": 0.0033, |
|
"step": 7440 |
|
}, |
|
{ |
|
"epoch": 24.833333333333332, |
|
"grad_norm": 0.19798079133033752, |
|
"learning_rate": 0.00035601393353990046, |
|
"loss": 0.0, |
|
"step": 7450 |
|
}, |
|
{ |
|
"epoch": 24.866666666666667, |
|
"grad_norm": 0.18493784964084625, |
|
"learning_rate": 0.0003555826598670382, |
|
"loss": 0.0171, |
|
"step": 7460 |
|
}, |
|
{ |
|
"epoch": 24.9, |
|
"grad_norm": 0.0026060056407004595, |
|
"learning_rate": 0.0003551510034361337, |
|
"loss": 0.0366, |
|
"step": 7470 |
|
}, |
|
{ |
|
"epoch": 24.933333333333334, |
|
"grad_norm": 0.0010627699084579945, |
|
"learning_rate": 0.0003547189658120272, |
|
"loss": 0.0027, |
|
"step": 7480 |
|
}, |
|
{ |
|
"epoch": 24.966666666666665, |
|
"grad_norm": 5.541090104088653e-06, |
|
"learning_rate": 0.0003542865485609404, |
|
"loss": 0.0009, |
|
"step": 7490 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"grad_norm": 0.0014559195842593908, |
|
"learning_rate": 0.00035385375325047166, |
|
"loss": 0.0171, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 25.0, |
|
"eval_accuracy": 1.0, |
|
"eval_f1": 1.0, |
|
"eval_kappa": 1.0, |
|
"eval_loss": 0.005007035564631224, |
|
"eval_precision": 1.0, |
|
"eval_recall": 1.0, |
|
"eval_runtime": 8.9128, |
|
"eval_samples_per_second": 44.879, |
|
"eval_steps_per_second": 1.907, |
|
"step": 7500 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 18000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 60, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.89101405896704e+18, |
|
"train_batch_size": 24, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|