{ "best_metric": null, "best_model_checkpoint": null, "epoch": 96.0, "eval_steps": 25, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.32, "grad_norm": 1.6683632135391235, "learning_rate": 0.00019933333333333334, "loss": 9.4482, "step": 1 }, { "epoch": 0.64, "grad_norm": 2.1682562828063965, "learning_rate": 0.00019866666666666668, "loss": 9.3638, "step": 2 }, { "epoch": 0.96, "grad_norm": 2.862727642059326, "learning_rate": 0.00019800000000000002, "loss": 8.8996, "step": 3 }, { "epoch": 1.28, "grad_norm": 2.116269111633301, "learning_rate": 0.00019733333333333335, "loss": 8.4274, "step": 4 }, { "epoch": 1.6, "grad_norm": 1.6066012382507324, "learning_rate": 0.00019666666666666666, "loss": 8.1555, "step": 5 }, { "epoch": 1.92, "grad_norm": 1.0474973917007446, "learning_rate": 0.000196, "loss": 7.9886, "step": 6 }, { "epoch": 2.24, "grad_norm": 0.8487308621406555, "learning_rate": 0.00019533333333333336, "loss": 7.8356, "step": 7 }, { "epoch": 2.56, "grad_norm": 0.6988046765327454, "learning_rate": 0.0001946666666666667, "loss": 7.7446, "step": 8 }, { "epoch": 2.88, "grad_norm": 0.679674506187439, "learning_rate": 0.000194, "loss": 7.6687, "step": 9 }, { "epoch": 3.2, "grad_norm": 0.7611989974975586, "learning_rate": 0.00019333333333333333, "loss": 7.6535, "step": 10 }, { "epoch": 3.52, "grad_norm": 0.7022913694381714, "learning_rate": 0.0001926666666666667, "loss": 7.6484, "step": 11 }, { "epoch": 3.84, "grad_norm": 0.5670737624168396, "learning_rate": 0.000192, "loss": 7.5513, "step": 12 }, { "epoch": 4.16, "grad_norm": 0.5052419900894165, "learning_rate": 0.00019133333333333334, "loss": 7.5395, "step": 13 }, { "epoch": 4.48, "grad_norm": 0.4930964410305023, "learning_rate": 0.00019066666666666668, "loss": 7.5, "step": 14 }, { "epoch": 4.8, "grad_norm": 0.3738355338573456, "learning_rate": 0.00019, "loss": 7.516, "step": 15 }, { "epoch": 5.12, "grad_norm": 0.4098713994026184, "learning_rate": 0.00018933333333333335, "loss": 7.493, "step": 16 }, { "epoch": 5.44, "grad_norm": 0.6889079809188843, "learning_rate": 0.00018866666666666668, "loss": 7.4045, "step": 17 }, { "epoch": 5.76, "grad_norm": 0.323447585105896, "learning_rate": 0.000188, "loss": 7.4881, "step": 18 }, { "epoch": 6.08, "grad_norm": 0.35135868191719055, "learning_rate": 0.00018733333333333335, "loss": 7.4652, "step": 19 }, { "epoch": 6.4, "grad_norm": 0.3387809693813324, "learning_rate": 0.0001866666666666667, "loss": 7.3972, "step": 20 }, { "epoch": 6.72, "grad_norm": 0.29421865940093994, "learning_rate": 0.00018600000000000002, "loss": 7.4372, "step": 21 }, { "epoch": 7.04, "grad_norm": 0.2511671781539917, "learning_rate": 0.00018533333333333333, "loss": 7.363, "step": 22 }, { "epoch": 7.36, "grad_norm": 0.25551798939704895, "learning_rate": 0.00018466666666666666, "loss": 7.3739, "step": 23 }, { "epoch": 7.68, "grad_norm": 0.27732208371162415, "learning_rate": 0.00018400000000000003, "loss": 7.3852, "step": 24 }, { "epoch": 8.0, "grad_norm": 0.3708743453025818, "learning_rate": 0.00018333333333333334, "loss": 7.317, "step": 25 }, { "epoch": 8.0, "eval_clap": 0.06789032369852066, "eval_loss": 7.1357221603393555, "eval_runtime": 136.0982, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 25 }, { "epoch": 8.32, "grad_norm": 0.19446749985218048, "learning_rate": 0.00018266666666666667, "loss": 7.3618, "step": 26 }, { "epoch": 8.64, "grad_norm": 0.2430403083562851, "learning_rate": 0.000182, "loss": 7.3367, "step": 27 }, { "epoch": 8.96, "grad_norm": 0.22890672087669373, "learning_rate": 0.00018133333333333334, "loss": 7.3717, "step": 28 }, { "epoch": 9.28, "grad_norm": 0.3734652101993561, "learning_rate": 0.00018066666666666668, "loss": 7.3754, "step": 29 }, { "epoch": 9.6, "grad_norm": 0.2538997232913971, "learning_rate": 0.00018, "loss": 7.3731, "step": 30 }, { "epoch": 9.92, "grad_norm": 0.2537391781806946, "learning_rate": 0.00017933333333333332, "loss": 7.3164, "step": 31 }, { "epoch": 10.24, "grad_norm": 0.360113263130188, "learning_rate": 0.00017866666666666668, "loss": 7.247, "step": 32 }, { "epoch": 10.56, "grad_norm": 0.20007725059986115, "learning_rate": 0.00017800000000000002, "loss": 7.3767, "step": 33 }, { "epoch": 10.88, "grad_norm": 0.21972504258155823, "learning_rate": 0.00017733333333333335, "loss": 7.2909, "step": 34 }, { "epoch": 11.2, "grad_norm": 0.20536483824253082, "learning_rate": 0.00017666666666666666, "loss": 7.3349, "step": 35 }, { "epoch": 11.52, "grad_norm": 0.22909294068813324, "learning_rate": 0.00017600000000000002, "loss": 7.3191, "step": 36 }, { "epoch": 11.84, "grad_norm": 0.34534749388694763, "learning_rate": 0.00017533333333333336, "loss": 7.2315, "step": 37 }, { "epoch": 12.16, "grad_norm": 0.19759266078472137, "learning_rate": 0.00017466666666666667, "loss": 7.2948, "step": 38 }, { "epoch": 12.48, "grad_norm": 0.25605055689811707, "learning_rate": 0.000174, "loss": 7.3243, "step": 39 }, { "epoch": 12.8, "grad_norm": 0.29761838912963867, "learning_rate": 0.00017333333333333334, "loss": 7.1981, "step": 40 }, { "epoch": 13.12, "grad_norm": 0.30346959829330444, "learning_rate": 0.00017266666666666667, "loss": 7.3422, "step": 41 }, { "epoch": 13.44, "grad_norm": 0.19417926669120789, "learning_rate": 0.000172, "loss": 7.2737, "step": 42 }, { "epoch": 13.76, "grad_norm": 0.23542876541614532, "learning_rate": 0.00017133333333333334, "loss": 7.2944, "step": 43 }, { "epoch": 14.08, "grad_norm": 0.25514674186706543, "learning_rate": 0.00017066666666666668, "loss": 7.2715, "step": 44 }, { "epoch": 14.4, "grad_norm": 0.2833520174026489, "learning_rate": 0.00017, "loss": 7.2014, "step": 45 }, { "epoch": 14.72, "grad_norm": 0.20149561762809753, "learning_rate": 0.00016933333333333335, "loss": 7.3088, "step": 46 }, { "epoch": 15.04, "grad_norm": 0.21219302713871002, "learning_rate": 0.00016866666666666668, "loss": 7.2949, "step": 47 }, { "epoch": 15.36, "grad_norm": 0.23375821113586426, "learning_rate": 0.000168, "loss": 7.2888, "step": 48 }, { "epoch": 15.68, "grad_norm": 0.21792426705360413, "learning_rate": 0.00016733333333333335, "loss": 7.2483, "step": 49 }, { "epoch": 16.0, "grad_norm": 0.19120004773139954, "learning_rate": 0.0001666666666666667, "loss": 7.2825, "step": 50 }, { "epoch": 16.0, "eval_clap": 0.07548777759075165, "eval_loss": 7.080169200897217, "eval_runtime": 134.9309, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 50 }, { "epoch": 16.32, "grad_norm": 0.21363769471645355, "learning_rate": 0.000166, "loss": 7.2329, "step": 51 }, { "epoch": 16.64, "grad_norm": 0.16386957466602325, "learning_rate": 0.00016533333333333333, "loss": 7.2955, "step": 52 }, { "epoch": 16.96, "grad_norm": 0.1577311009168625, "learning_rate": 0.00016466666666666667, "loss": 7.248, "step": 53 }, { "epoch": 17.28, "grad_norm": 0.21565888822078705, "learning_rate": 0.000164, "loss": 7.2464, "step": 54 }, { "epoch": 17.6, "grad_norm": 0.27145129442214966, "learning_rate": 0.00016333333333333334, "loss": 7.2461, "step": 55 }, { "epoch": 17.92, "grad_norm": 0.2673998475074768, "learning_rate": 0.00016266666666666667, "loss": 7.2779, "step": 56 }, { "epoch": 18.24, "grad_norm": 0.29183390736579895, "learning_rate": 0.000162, "loss": 7.2001, "step": 57 }, { "epoch": 18.56, "grad_norm": 0.20004913210868835, "learning_rate": 0.00016133333333333334, "loss": 7.2103, "step": 58 }, { "epoch": 18.88, "grad_norm": 0.28497615456581116, "learning_rate": 0.00016066666666666668, "loss": 7.3056, "step": 59 }, { "epoch": 19.2, "grad_norm": 0.2540966868400574, "learning_rate": 0.00016, "loss": 7.2591, "step": 60 }, { "epoch": 19.52, "grad_norm": 0.370432049036026, "learning_rate": 0.00015933333333333332, "loss": 7.3505, "step": 61 }, { "epoch": 19.84, "grad_norm": 0.3191507160663605, "learning_rate": 0.00015866666666666668, "loss": 7.1707, "step": 62 }, { "epoch": 20.16, "grad_norm": 0.5413910746574402, "learning_rate": 0.00015800000000000002, "loss": 7.1405, "step": 63 }, { "epoch": 20.48, "grad_norm": 0.2303798645734787, "learning_rate": 0.00015733333333333333, "loss": 7.2141, "step": 64 }, { "epoch": 20.8, "grad_norm": 0.20501984655857086, "learning_rate": 0.00015666666666666666, "loss": 7.2201, "step": 65 }, { "epoch": 21.12, "grad_norm": 0.2755655348300934, "learning_rate": 0.00015600000000000002, "loss": 7.276, "step": 66 }, { "epoch": 21.44, "grad_norm": 0.3554082214832306, "learning_rate": 0.00015533333333333333, "loss": 7.2921, "step": 67 }, { "epoch": 21.76, "grad_norm": 0.251579225063324, "learning_rate": 0.00015466666666666667, "loss": 7.2545, "step": 68 }, { "epoch": 22.08, "grad_norm": 0.3270656168460846, "learning_rate": 0.000154, "loss": 7.159, "step": 69 }, { "epoch": 22.4, "grad_norm": 0.2507319152355194, "learning_rate": 0.00015333333333333334, "loss": 7.2586, "step": 70 }, { "epoch": 22.72, "grad_norm": 0.2141207903623581, "learning_rate": 0.00015266666666666667, "loss": 7.1975, "step": 71 }, { "epoch": 23.04, "grad_norm": 0.5677863955497742, "learning_rate": 0.000152, "loss": 7.1095, "step": 72 }, { "epoch": 23.36, "grad_norm": 0.2293558269739151, "learning_rate": 0.00015133333333333334, "loss": 7.2346, "step": 73 }, { "epoch": 23.68, "grad_norm": 0.19917689263820648, "learning_rate": 0.00015066666666666668, "loss": 7.205, "step": 74 }, { "epoch": 24.0, "grad_norm": 0.519916832447052, "learning_rate": 0.00015000000000000001, "loss": 7.1042, "step": 75 }, { "epoch": 24.0, "eval_clap": 0.05497421696782112, "eval_loss": 6.906433582305908, "eval_runtime": 135.1936, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 75 }, { "epoch": 24.32, "grad_norm": 0.2467987984418869, "learning_rate": 0.00014933333333333335, "loss": 7.1484, "step": 76 }, { "epoch": 24.64, "grad_norm": 0.40156108140945435, "learning_rate": 0.00014866666666666666, "loss": 7.3006, "step": 77 }, { "epoch": 24.96, "grad_norm": 0.3527941405773163, "learning_rate": 0.000148, "loss": 7.1451, "step": 78 }, { "epoch": 25.28, "grad_norm": 0.3112771809101105, "learning_rate": 0.00014733333333333335, "loss": 7.1427, "step": 79 }, { "epoch": 25.6, "grad_norm": 0.2851181626319885, "learning_rate": 0.00014666666666666666, "loss": 7.1679, "step": 80 }, { "epoch": 25.92, "grad_norm": 0.28447166085243225, "learning_rate": 0.000146, "loss": 7.1942, "step": 81 }, { "epoch": 26.24, "grad_norm": 0.27783018350601196, "learning_rate": 0.00014533333333333333, "loss": 7.1726, "step": 82 }, { "epoch": 26.56, "grad_norm": 0.5695661902427673, "learning_rate": 0.0001446666666666667, "loss": 7.0438, "step": 83 }, { "epoch": 26.88, "grad_norm": 0.3723052442073822, "learning_rate": 0.000144, "loss": 7.145, "step": 84 }, { "epoch": 27.2, "grad_norm": 0.4382816553115845, "learning_rate": 0.00014333333333333334, "loss": 6.9554, "step": 85 }, { "epoch": 27.52, "grad_norm": 0.3433331847190857, "learning_rate": 0.00014266666666666667, "loss": 7.1927, "step": 86 }, { "epoch": 27.84, "grad_norm": 0.4673261046409607, "learning_rate": 0.000142, "loss": 7.1284, "step": 87 }, { "epoch": 28.16, "grad_norm": 0.4776053726673126, "learning_rate": 0.00014133333333333334, "loss": 7.0711, "step": 88 }, { "epoch": 28.48, "grad_norm": 0.3748451769351959, "learning_rate": 0.00014066666666666668, "loss": 7.1578, "step": 89 }, { "epoch": 28.8, "grad_norm": 0.3615866005420685, "learning_rate": 0.00014, "loss": 7.0148, "step": 90 }, { "epoch": 29.12, "grad_norm": 0.3310900032520294, "learning_rate": 0.00013933333333333335, "loss": 7.0298, "step": 91 }, { "epoch": 29.44, "grad_norm": 0.22606706619262695, "learning_rate": 0.00013866666666666669, "loss": 7.2279, "step": 92 }, { "epoch": 29.76, "grad_norm": 0.22855545580387115, "learning_rate": 0.000138, "loss": 7.0929, "step": 93 }, { "epoch": 30.08, "grad_norm": 0.2980823218822479, "learning_rate": 0.00013733333333333333, "loss": 6.9887, "step": 94 }, { "epoch": 30.4, "grad_norm": 0.2923685312271118, "learning_rate": 0.00013666666666666666, "loss": 7.1163, "step": 95 }, { "epoch": 30.72, "grad_norm": 0.3465331196784973, "learning_rate": 0.00013600000000000003, "loss": 7.169, "step": 96 }, { "epoch": 31.04, "grad_norm": 0.55702805519104, "learning_rate": 0.00013533333333333333, "loss": 6.5558, "step": 97 }, { "epoch": 31.36, "grad_norm": 0.42496222257614136, "learning_rate": 0.00013466666666666667, "loss": 6.9326, "step": 98 }, { "epoch": 31.68, "grad_norm": 0.22283001244068146, "learning_rate": 0.000134, "loss": 7.1738, "step": 99 }, { "epoch": 32.0, "grad_norm": 0.23974306881427765, "learning_rate": 0.00013333333333333334, "loss": 7.0441, "step": 100 }, { "epoch": 32.0, "eval_clap": 0.10635647177696228, "eval_loss": 6.8616838455200195, "eval_runtime": 136.3895, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 100 }, { "epoch": 32.32, "grad_norm": 0.2159024178981781, "learning_rate": 0.00013266666666666667, "loss": 7.0378, "step": 101 }, { "epoch": 32.64, "grad_norm": 0.34279248118400574, "learning_rate": 0.000132, "loss": 6.9701, "step": 102 }, { "epoch": 32.96, "grad_norm": 0.2793212831020355, "learning_rate": 0.00013133333333333332, "loss": 7.0861, "step": 103 }, { "epoch": 33.28, "grad_norm": 0.20994018018245697, "learning_rate": 0.00013066666666666668, "loss": 7.0923, "step": 104 }, { "epoch": 33.6, "grad_norm": 0.2946266531944275, "learning_rate": 0.00013000000000000002, "loss": 6.9404, "step": 105 }, { "epoch": 33.92, "grad_norm": 0.22306962311267853, "learning_rate": 0.00012933333333333332, "loss": 7.1071, "step": 106 }, { "epoch": 34.24, "grad_norm": 0.4290503263473511, "learning_rate": 0.00012866666666666666, "loss": 6.8975, "step": 107 }, { "epoch": 34.56, "grad_norm": 0.37515199184417725, "learning_rate": 0.00012800000000000002, "loss": 6.7624, "step": 108 }, { "epoch": 34.88, "grad_norm": 0.29289448261260986, "learning_rate": 0.00012733333333333336, "loss": 7.0897, "step": 109 }, { "epoch": 35.2, "grad_norm": 0.2470962107181549, "learning_rate": 0.00012666666666666666, "loss": 7.2233, "step": 110 }, { "epoch": 35.52, "grad_norm": 0.31346985697746277, "learning_rate": 0.000126, "loss": 6.9721, "step": 111 }, { "epoch": 35.84, "grad_norm": 0.2653011083602905, "learning_rate": 0.00012533333333333334, "loss": 6.9523, "step": 112 }, { "epoch": 36.16, "grad_norm": 0.3087577521800995, "learning_rate": 0.00012466666666666667, "loss": 6.9256, "step": 113 }, { "epoch": 36.48, "grad_norm": 0.22156448662281036, "learning_rate": 0.000124, "loss": 7.0439, "step": 114 }, { "epoch": 36.8, "grad_norm": 0.22839891910552979, "learning_rate": 0.00012333333333333334, "loss": 6.9379, "step": 115 }, { "epoch": 37.12, "grad_norm": 0.20402106642723083, "learning_rate": 0.00012266666666666668, "loss": 7.0673, "step": 116 }, { "epoch": 37.44, "grad_norm": 0.26979488134384155, "learning_rate": 0.000122, "loss": 6.964, "step": 117 }, { "epoch": 37.76, "grad_norm": 0.24161088466644287, "learning_rate": 0.00012133333333333335, "loss": 7.0688, "step": 118 }, { "epoch": 38.08, "grad_norm": 0.20534715056419373, "learning_rate": 0.00012066666666666668, "loss": 7.055, "step": 119 }, { "epoch": 38.4, "grad_norm": 0.1627223789691925, "learning_rate": 0.00012, "loss": 7.0459, "step": 120 }, { "epoch": 38.72, "grad_norm": 0.218263640999794, "learning_rate": 0.00011933333333333334, "loss": 6.8831, "step": 121 }, { "epoch": 39.04, "grad_norm": 0.2108282446861267, "learning_rate": 0.00011866666666666669, "loss": 7.0605, "step": 122 }, { "epoch": 39.36, "grad_norm": 0.24155791103839874, "learning_rate": 0.000118, "loss": 7.0808, "step": 123 }, { "epoch": 39.68, "grad_norm": 0.21054844558238983, "learning_rate": 0.00011733333333333334, "loss": 6.9903, "step": 124 }, { "epoch": 40.0, "grad_norm": 0.2591877579689026, "learning_rate": 0.00011666666666666668, "loss": 6.8774, "step": 125 }, { "epoch": 40.0, "eval_clap": 0.08953113853931427, "eval_loss": 6.826145648956299, "eval_runtime": 134.0443, "eval_samples_per_second": 0.06, "eval_steps_per_second": 0.06, "step": 125 }, { "epoch": 40.32, "grad_norm": 0.19766099750995636, "learning_rate": 0.000116, "loss": 7.0329, "step": 126 }, { "epoch": 40.64, "grad_norm": 0.20144084095954895, "learning_rate": 0.00011533333333333334, "loss": 7.0215, "step": 127 }, { "epoch": 40.96, "grad_norm": 0.2762785851955414, "learning_rate": 0.00011466666666666667, "loss": 6.7436, "step": 128 }, { "epoch": 41.28, "grad_norm": 0.41591876745224, "learning_rate": 0.00011399999999999999, "loss": 7.0114, "step": 129 }, { "epoch": 41.6, "grad_norm": 0.19946487247943878, "learning_rate": 0.00011333333333333334, "loss": 6.8638, "step": 130 }, { "epoch": 41.92, "grad_norm": 0.21176694333553314, "learning_rate": 0.00011266666666666668, "loss": 6.9558, "step": 131 }, { "epoch": 42.24, "grad_norm": 0.25887367129325867, "learning_rate": 0.00011200000000000001, "loss": 7.0577, "step": 132 }, { "epoch": 42.56, "grad_norm": 0.20762751996517181, "learning_rate": 0.00011133333333333333, "loss": 6.9193, "step": 133 }, { "epoch": 42.88, "grad_norm": 0.23250330984592438, "learning_rate": 0.00011066666666666667, "loss": 7.0265, "step": 134 }, { "epoch": 43.2, "grad_norm": 0.23344852030277252, "learning_rate": 0.00011000000000000002, "loss": 6.8651, "step": 135 }, { "epoch": 43.52, "grad_norm": 0.19347435235977173, "learning_rate": 0.00010933333333333333, "loss": 7.0227, "step": 136 }, { "epoch": 43.84, "grad_norm": 0.20325195789337158, "learning_rate": 0.00010866666666666667, "loss": 7.0634, "step": 137 }, { "epoch": 44.16, "grad_norm": 0.2032117247581482, "learning_rate": 0.00010800000000000001, "loss": 7.0748, "step": 138 }, { "epoch": 44.48, "grad_norm": 0.20369456708431244, "learning_rate": 0.00010733333333333333, "loss": 6.9276, "step": 139 }, { "epoch": 44.8, "grad_norm": 0.26763466000556946, "learning_rate": 0.00010666666666666667, "loss": 6.8855, "step": 140 }, { "epoch": 45.12, "grad_norm": 0.23843225836753845, "learning_rate": 0.00010600000000000002, "loss": 6.9545, "step": 141 }, { "epoch": 45.44, "grad_norm": 0.19162800908088684, "learning_rate": 0.00010533333333333332, "loss": 7.0271, "step": 142 }, { "epoch": 45.76, "grad_norm": 0.23976649343967438, "learning_rate": 0.00010466666666666667, "loss": 7.0332, "step": 143 }, { "epoch": 46.08, "grad_norm": 0.2280128002166748, "learning_rate": 0.00010400000000000001, "loss": 6.9251, "step": 144 }, { "epoch": 46.4, "grad_norm": 0.20056234300136566, "learning_rate": 0.00010333333333333334, "loss": 6.9076, "step": 145 }, { "epoch": 46.72, "grad_norm": 0.20636948943138123, "learning_rate": 0.00010266666666666666, "loss": 6.9673, "step": 146 }, { "epoch": 47.04, "grad_norm": 0.1940995454788208, "learning_rate": 0.00010200000000000001, "loss": 7.0236, "step": 147 }, { "epoch": 47.36, "grad_norm": 0.19615836441516876, "learning_rate": 0.00010133333333333335, "loss": 6.9282, "step": 148 }, { "epoch": 47.68, "grad_norm": 0.2913321554660797, "learning_rate": 0.00010066666666666667, "loss": 7.0427, "step": 149 }, { "epoch": 48.0, "grad_norm": 0.27524253726005554, "learning_rate": 0.0001, "loss": 6.9014, "step": 150 }, { "epoch": 48.0, "eval_clap": 0.07983032613992691, "eval_loss": 6.851788520812988, "eval_runtime": 134.3414, "eval_samples_per_second": 0.06, "eval_steps_per_second": 0.06, "step": 150 }, { "epoch": 48.32, "grad_norm": 0.17565707862377167, "learning_rate": 9.933333333333334e-05, "loss": 6.9637, "step": 151 }, { "epoch": 48.64, "grad_norm": 0.21315057575702667, "learning_rate": 9.866666666666668e-05, "loss": 6.9275, "step": 152 }, { "epoch": 48.96, "grad_norm": 0.2567092180252075, "learning_rate": 9.8e-05, "loss": 6.9075, "step": 153 }, { "epoch": 49.28, "grad_norm": 0.2144940197467804, "learning_rate": 9.733333333333335e-05, "loss": 7.0192, "step": 154 }, { "epoch": 49.6, "grad_norm": 0.19650296866893768, "learning_rate": 9.666666666666667e-05, "loss": 6.8081, "step": 155 }, { "epoch": 49.92, "grad_norm": 0.3488261103630066, "learning_rate": 9.6e-05, "loss": 7.0313, "step": 156 }, { "epoch": 50.24, "grad_norm": 0.24722012877464294, "learning_rate": 9.533333333333334e-05, "loss": 7.0769, "step": 157 }, { "epoch": 50.56, "grad_norm": 0.16449204087257385, "learning_rate": 9.466666666666667e-05, "loss": 7.0539, "step": 158 }, { "epoch": 50.88, "grad_norm": 0.3687060475349426, "learning_rate": 9.4e-05, "loss": 6.8257, "step": 159 }, { "epoch": 51.2, "grad_norm": 0.20042240619659424, "learning_rate": 9.333333333333334e-05, "loss": 6.8647, "step": 160 }, { "epoch": 51.52, "grad_norm": 0.26894885301589966, "learning_rate": 9.266666666666666e-05, "loss": 6.6582, "step": 161 }, { "epoch": 51.84, "grad_norm": 0.23671694099903107, "learning_rate": 9.200000000000001e-05, "loss": 7.0927, "step": 162 }, { "epoch": 52.16, "grad_norm": 0.2635565996170044, "learning_rate": 9.133333333333334e-05, "loss": 6.8098, "step": 163 }, { "epoch": 52.48, "grad_norm": 0.2673339545726776, "learning_rate": 9.066666666666667e-05, "loss": 6.953, "step": 164 }, { "epoch": 52.8, "grad_norm": 0.23842185735702515, "learning_rate": 9e-05, "loss": 7.0825, "step": 165 }, { "epoch": 53.12, "grad_norm": 0.29405054450035095, "learning_rate": 8.933333333333334e-05, "loss": 6.6955, "step": 166 }, { "epoch": 53.44, "grad_norm": 0.22257141768932343, "learning_rate": 8.866666666666668e-05, "loss": 6.8635, "step": 167 }, { "epoch": 53.76, "grad_norm": 0.22679895162582397, "learning_rate": 8.800000000000001e-05, "loss": 7.0, "step": 168 }, { "epoch": 54.08, "grad_norm": 0.26071757078170776, "learning_rate": 8.733333333333333e-05, "loss": 6.8054, "step": 169 }, { "epoch": 54.4, "grad_norm": 0.2066843956708908, "learning_rate": 8.666666666666667e-05, "loss": 7.0114, "step": 170 }, { "epoch": 54.72, "grad_norm": 0.2785058319568634, "learning_rate": 8.6e-05, "loss": 6.9627, "step": 171 }, { "epoch": 55.04, "grad_norm": 0.2420412003993988, "learning_rate": 8.533333333333334e-05, "loss": 6.9166, "step": 172 }, { "epoch": 55.36, "grad_norm": 0.184980571269989, "learning_rate": 8.466666666666667e-05, "loss": 6.9763, "step": 173 }, { "epoch": 55.68, "grad_norm": 0.25099173188209534, "learning_rate": 8.4e-05, "loss": 6.7784, "step": 174 }, { "epoch": 56.0, "grad_norm": 0.3113076984882355, "learning_rate": 8.333333333333334e-05, "loss": 7.0709, "step": 175 }, { "epoch": 56.0, "eval_clap": 0.045835964381694794, "eval_loss": 6.8744659423828125, "eval_runtime": 134.0056, "eval_samples_per_second": 0.06, "eval_steps_per_second": 0.06, "step": 175 }, { "epoch": 56.32, "grad_norm": 0.1998237520456314, "learning_rate": 8.266666666666667e-05, "loss": 6.9853, "step": 176 }, { "epoch": 56.64, "grad_norm": 0.19230717420578003, "learning_rate": 8.2e-05, "loss": 6.7187, "step": 177 }, { "epoch": 56.96, "grad_norm": 0.20907418429851532, "learning_rate": 8.133333333333334e-05, "loss": 7.0254, "step": 178 }, { "epoch": 57.28, "grad_norm": 0.24263373017311096, "learning_rate": 8.066666666666667e-05, "loss": 7.0215, "step": 179 }, { "epoch": 57.6, "grad_norm": 0.2273831069469452, "learning_rate": 8e-05, "loss": 6.9082, "step": 180 }, { "epoch": 57.92, "grad_norm": 0.2610955834388733, "learning_rate": 7.933333333333334e-05, "loss": 6.8793, "step": 181 }, { "epoch": 58.24, "grad_norm": 0.28763657808303833, "learning_rate": 7.866666666666666e-05, "loss": 6.8458, "step": 182 }, { "epoch": 58.56, "grad_norm": 0.2956106662750244, "learning_rate": 7.800000000000001e-05, "loss": 6.8355, "step": 183 }, { "epoch": 58.88, "grad_norm": 0.23731613159179688, "learning_rate": 7.733333333333333e-05, "loss": 6.978, "step": 184 }, { "epoch": 59.2, "grad_norm": 0.2779642343521118, "learning_rate": 7.666666666666667e-05, "loss": 6.967, "step": 185 }, { "epoch": 59.52, "grad_norm": 0.30202949047088623, "learning_rate": 7.6e-05, "loss": 6.9157, "step": 186 }, { "epoch": 59.84, "grad_norm": 0.23862633109092712, "learning_rate": 7.533333333333334e-05, "loss": 6.9478, "step": 187 }, { "epoch": 60.16, "grad_norm": 0.25933969020843506, "learning_rate": 7.466666666666667e-05, "loss": 6.979, "step": 188 }, { "epoch": 60.48, "grad_norm": 0.2394740879535675, "learning_rate": 7.4e-05, "loss": 6.897, "step": 189 }, { "epoch": 60.8, "grad_norm": 0.1908213347196579, "learning_rate": 7.333333333333333e-05, "loss": 6.8422, "step": 190 }, { "epoch": 61.12, "grad_norm": 0.26108992099761963, "learning_rate": 7.266666666666667e-05, "loss": 7.0873, "step": 191 }, { "epoch": 61.44, "grad_norm": 0.338616281747818, "learning_rate": 7.2e-05, "loss": 6.9752, "step": 192 }, { "epoch": 61.76, "grad_norm": 0.21794290840625763, "learning_rate": 7.133333333333334e-05, "loss": 6.9106, "step": 193 }, { "epoch": 62.08, "grad_norm": 0.3236982524394989, "learning_rate": 7.066666666666667e-05, "loss": 6.8506, "step": 194 }, { "epoch": 62.4, "grad_norm": 0.2932833433151245, "learning_rate": 7e-05, "loss": 6.9273, "step": 195 }, { "epoch": 62.72, "grad_norm": 0.1730615496635437, "learning_rate": 6.933333333333334e-05, "loss": 7.004, "step": 196 }, { "epoch": 63.04, "grad_norm": 0.36074626445770264, "learning_rate": 6.866666666666666e-05, "loss": 6.4197, "step": 197 }, { "epoch": 63.36, "grad_norm": 0.18060831725597382, "learning_rate": 6.800000000000001e-05, "loss": 6.8792, "step": 198 }, { "epoch": 63.68, "grad_norm": 0.17196445167064667, "learning_rate": 6.733333333333333e-05, "loss": 7.0094, "step": 199 }, { "epoch": 64.0, "grad_norm": 0.23665176331996918, "learning_rate": 6.666666666666667e-05, "loss": 6.8413, "step": 200 }, { "epoch": 64.0, "eval_clap": 0.038681816309690475, "eval_loss": 6.884893417358398, "eval_runtime": 135.5327, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 200 }, { "epoch": 64.32, "grad_norm": 0.23033128678798676, "learning_rate": 6.6e-05, "loss": 6.603, "step": 201 }, { "epoch": 64.64, "grad_norm": 0.2611420750617981, "learning_rate": 6.533333333333334e-05, "loss": 6.9209, "step": 202 }, { "epoch": 64.96, "grad_norm": 0.25133243203163147, "learning_rate": 6.466666666666666e-05, "loss": 6.9875, "step": 203 }, { "epoch": 65.28, "grad_norm": 0.20293930172920227, "learning_rate": 6.400000000000001e-05, "loss": 6.9061, "step": 204 }, { "epoch": 65.6, "grad_norm": 0.23003217577934265, "learning_rate": 6.333333333333333e-05, "loss": 6.9289, "step": 205 }, { "epoch": 65.92, "grad_norm": 0.20595434308052063, "learning_rate": 6.266666666666667e-05, "loss": 6.896, "step": 206 }, { "epoch": 66.24, "grad_norm": 0.26464059948921204, "learning_rate": 6.2e-05, "loss": 6.9399, "step": 207 }, { "epoch": 66.56, "grad_norm": 0.2586626708507538, "learning_rate": 6.133333333333334e-05, "loss": 7.0101, "step": 208 }, { "epoch": 66.88, "grad_norm": 0.33113348484039307, "learning_rate": 6.066666666666667e-05, "loss": 6.9379, "step": 209 }, { "epoch": 67.2, "grad_norm": 0.35679078102111816, "learning_rate": 6e-05, "loss": 6.6498, "step": 210 }, { "epoch": 67.52, "grad_norm": 0.25175514817237854, "learning_rate": 5.9333333333333343e-05, "loss": 6.9036, "step": 211 }, { "epoch": 67.84, "grad_norm": 0.20598991215229034, "learning_rate": 5.866666666666667e-05, "loss": 6.9485, "step": 212 }, { "epoch": 68.16, "grad_norm": 0.3204483985900879, "learning_rate": 5.8e-05, "loss": 6.7133, "step": 213 }, { "epoch": 68.48, "grad_norm": 0.19971367716789246, "learning_rate": 5.7333333333333336e-05, "loss": 6.9365, "step": 214 }, { "epoch": 68.8, "grad_norm": 0.32582300901412964, "learning_rate": 5.666666666666667e-05, "loss": 6.902, "step": 215 }, { "epoch": 69.12, "grad_norm": 0.3089292049407959, "learning_rate": 5.6000000000000006e-05, "loss": 6.9996, "step": 216 }, { "epoch": 69.44, "grad_norm": 0.19020797312259674, "learning_rate": 5.5333333333333334e-05, "loss": 6.9901, "step": 217 }, { "epoch": 69.76, "grad_norm": 0.23994866013526917, "learning_rate": 5.466666666666666e-05, "loss": 6.7032, "step": 218 }, { "epoch": 70.08, "grad_norm": 0.2522318661212921, "learning_rate": 5.4000000000000005e-05, "loss": 6.9847, "step": 219 }, { "epoch": 70.4, "grad_norm": 0.26551997661590576, "learning_rate": 5.333333333333333e-05, "loss": 6.973, "step": 220 }, { "epoch": 70.72, "grad_norm": 0.27997300028800964, "learning_rate": 5.266666666666666e-05, "loss": 6.7786, "step": 221 }, { "epoch": 71.04, "grad_norm": 0.27488794922828674, "learning_rate": 5.2000000000000004e-05, "loss": 6.9615, "step": 222 }, { "epoch": 71.36, "grad_norm": 0.2785004675388336, "learning_rate": 5.133333333333333e-05, "loss": 6.8345, "step": 223 }, { "epoch": 71.68, "grad_norm": 0.29756563901901245, "learning_rate": 5.0666666666666674e-05, "loss": 6.9091, "step": 224 }, { "epoch": 72.0, "grad_norm": 0.20768436789512634, "learning_rate": 5e-05, "loss": 6.9145, "step": 225 }, { "epoch": 72.0, "eval_clap": 0.060088254511356354, "eval_loss": 6.875311374664307, "eval_runtime": 134.7247, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 225 }, { "epoch": 72.32, "grad_norm": 0.20562250912189484, "learning_rate": 4.933333333333334e-05, "loss": 6.9109, "step": 226 }, { "epoch": 72.64, "grad_norm": 0.24746154248714447, "learning_rate": 4.866666666666667e-05, "loss": 7.0489, "step": 227 }, { "epoch": 72.96, "grad_norm": 0.2672075629234314, "learning_rate": 4.8e-05, "loss": 6.546, "step": 228 }, { "epoch": 73.28, "grad_norm": 0.31758585572242737, "learning_rate": 4.7333333333333336e-05, "loss": 6.9999, "step": 229 }, { "epoch": 73.6, "grad_norm": 0.22248242795467377, "learning_rate": 4.666666666666667e-05, "loss": 6.898, "step": 230 }, { "epoch": 73.92, "grad_norm": 0.241860494017601, "learning_rate": 4.600000000000001e-05, "loss": 6.6478, "step": 231 }, { "epoch": 74.24, "grad_norm": 0.26167288422584534, "learning_rate": 4.5333333333333335e-05, "loss": 6.9651, "step": 232 }, { "epoch": 74.56, "grad_norm": 0.2521307170391083, "learning_rate": 4.466666666666667e-05, "loss": 6.9193, "step": 233 }, { "epoch": 74.88, "grad_norm": 0.2989499568939209, "learning_rate": 4.4000000000000006e-05, "loss": 6.7996, "step": 234 }, { "epoch": 75.2, "grad_norm": 0.3191698491573334, "learning_rate": 4.3333333333333334e-05, "loss": 6.9447, "step": 235 }, { "epoch": 75.52, "grad_norm": 0.2952893376350403, "learning_rate": 4.266666666666667e-05, "loss": 6.7176, "step": 236 }, { "epoch": 75.84, "grad_norm": 0.27887699007987976, "learning_rate": 4.2e-05, "loss": 6.937, "step": 237 }, { "epoch": 76.16, "grad_norm": 0.3343954384326935, "learning_rate": 4.133333333333333e-05, "loss": 7.0076, "step": 238 }, { "epoch": 76.48, "grad_norm": 0.2325616329908371, "learning_rate": 4.066666666666667e-05, "loss": 6.6277, "step": 239 }, { "epoch": 76.8, "grad_norm": 0.2327420562505722, "learning_rate": 4e-05, "loss": 6.9352, "step": 240 }, { "epoch": 77.12, "grad_norm": 0.35272374749183655, "learning_rate": 3.933333333333333e-05, "loss": 6.6621, "step": 241 }, { "epoch": 77.44, "grad_norm": 0.28441712260246277, "learning_rate": 3.866666666666667e-05, "loss": 6.7944, "step": 242 }, { "epoch": 77.76, "grad_norm": 0.3055993318557739, "learning_rate": 3.8e-05, "loss": 6.665, "step": 243 }, { "epoch": 78.08, "grad_norm": 0.5231341123580933, "learning_rate": 3.733333333333334e-05, "loss": 6.8914, "step": 244 }, { "epoch": 78.4, "grad_norm": 0.32790327072143555, "learning_rate": 3.6666666666666666e-05, "loss": 6.7542, "step": 245 }, { "epoch": 78.72, "grad_norm": 0.23085571825504303, "learning_rate": 3.6e-05, "loss": 6.9587, "step": 246 }, { "epoch": 79.04, "grad_norm": 0.3628631830215454, "learning_rate": 3.5333333333333336e-05, "loss": 6.8893, "step": 247 }, { "epoch": 79.36, "grad_norm": 0.2164786458015442, "learning_rate": 3.466666666666667e-05, "loss": 6.9032, "step": 248 }, { "epoch": 79.68, "grad_norm": 0.23754926025867462, "learning_rate": 3.4000000000000007e-05, "loss": 6.8248, "step": 249 }, { "epoch": 80.0, "grad_norm": 0.44520848989486694, "learning_rate": 3.3333333333333335e-05, "loss": 6.7884, "step": 250 }, { "epoch": 80.0, "eval_clap": 0.030136138200759888, "eval_loss": 6.89333438873291, "eval_runtime": 134.3576, "eval_samples_per_second": 0.06, "eval_steps_per_second": 0.06, "step": 250 }, { "epoch": 80.32, "grad_norm": 0.24849092960357666, "learning_rate": 3.266666666666667e-05, "loss": 6.6811, "step": 251 }, { "epoch": 80.64, "grad_norm": 0.2928939461708069, "learning_rate": 3.2000000000000005e-05, "loss": 6.924, "step": 252 }, { "epoch": 80.96, "grad_norm": 0.3306042551994324, "learning_rate": 3.1333333333333334e-05, "loss": 6.8529, "step": 253 }, { "epoch": 81.28, "grad_norm": 0.4894237220287323, "learning_rate": 3.066666666666667e-05, "loss": 6.8217, "step": 254 }, { "epoch": 81.6, "grad_norm": 0.19919753074645996, "learning_rate": 3e-05, "loss": 6.8936, "step": 255 }, { "epoch": 81.92, "grad_norm": 0.2523089051246643, "learning_rate": 2.9333333333333336e-05, "loss": 6.893, "step": 256 }, { "epoch": 82.24, "grad_norm": 0.32805877923965454, "learning_rate": 2.8666666666666668e-05, "loss": 6.9103, "step": 257 }, { "epoch": 82.56, "grad_norm": 0.3531396687030792, "learning_rate": 2.8000000000000003e-05, "loss": 6.8738, "step": 258 }, { "epoch": 82.88, "grad_norm": 0.24928686022758484, "learning_rate": 2.733333333333333e-05, "loss": 6.904, "step": 259 }, { "epoch": 83.2, "grad_norm": 0.2684423327445984, "learning_rate": 2.6666666666666667e-05, "loss": 6.7875, "step": 260 }, { "epoch": 83.52, "grad_norm": 0.3166234791278839, "learning_rate": 2.6000000000000002e-05, "loss": 6.912, "step": 261 }, { "epoch": 83.84, "grad_norm": 0.3247949481010437, "learning_rate": 2.5333333333333337e-05, "loss": 6.8424, "step": 262 }, { "epoch": 84.16, "grad_norm": 0.3366314470767975, "learning_rate": 2.466666666666667e-05, "loss": 6.9313, "step": 263 }, { "epoch": 84.48, "grad_norm": 0.3224945366382599, "learning_rate": 2.4e-05, "loss": 6.4157, "step": 264 }, { "epoch": 84.8, "grad_norm": 0.21994070708751678, "learning_rate": 2.3333333333333336e-05, "loss": 6.9858, "step": 265 }, { "epoch": 85.12, "grad_norm": 0.29425758123397827, "learning_rate": 2.2666666666666668e-05, "loss": 6.8313, "step": 266 }, { "epoch": 85.44, "grad_norm": 0.27505239844322205, "learning_rate": 2.2000000000000003e-05, "loss": 6.6019, "step": 267 }, { "epoch": 85.76, "grad_norm": 0.28663650155067444, "learning_rate": 2.1333333333333335e-05, "loss": 6.9485, "step": 268 }, { "epoch": 86.08, "grad_norm": 0.24525445699691772, "learning_rate": 2.0666666666666666e-05, "loss": 6.9881, "step": 269 }, { "epoch": 86.4, "grad_norm": 0.287568598985672, "learning_rate": 2e-05, "loss": 6.6525, "step": 270 }, { "epoch": 86.72, "grad_norm": 0.27775782346725464, "learning_rate": 1.9333333333333333e-05, "loss": 6.9163, "step": 271 }, { "epoch": 87.04, "grad_norm": 0.34429267048835754, "learning_rate": 1.866666666666667e-05, "loss": 6.946, "step": 272 }, { "epoch": 87.36, "grad_norm": 0.25098660588264465, "learning_rate": 1.8e-05, "loss": 6.8002, "step": 273 }, { "epoch": 87.68, "grad_norm": 0.38572391867637634, "learning_rate": 1.7333333333333336e-05, "loss": 6.9101, "step": 274 }, { "epoch": 88.0, "grad_norm": 0.3887104094028473, "learning_rate": 1.6666666666666667e-05, "loss": 6.827, "step": 275 }, { "epoch": 88.0, "eval_clap": 0.040258340537548065, "eval_loss": 6.855799674987793, "eval_runtime": 133.3815, "eval_samples_per_second": 0.06, "eval_steps_per_second": 0.06, "step": 275 }, { "epoch": 88.32, "grad_norm": 0.19003379344940186, "learning_rate": 1.6000000000000003e-05, "loss": 7.0101, "step": 276 }, { "epoch": 88.64, "grad_norm": 0.20078812539577484, "learning_rate": 1.5333333333333334e-05, "loss": 6.6439, "step": 277 }, { "epoch": 88.96, "grad_norm": 0.3061939775943756, "learning_rate": 1.4666666666666668e-05, "loss": 6.8438, "step": 278 }, { "epoch": 89.28, "grad_norm": 0.3286401629447937, "learning_rate": 1.4000000000000001e-05, "loss": 6.9421, "step": 279 }, { "epoch": 89.6, "grad_norm": 0.23420895636081696, "learning_rate": 1.3333333333333333e-05, "loss": 6.8237, "step": 280 }, { "epoch": 89.92, "grad_norm": 0.41902750730514526, "learning_rate": 1.2666666666666668e-05, "loss": 6.911, "step": 281 }, { "epoch": 90.24, "grad_norm": 0.2631544768810272, "learning_rate": 1.2e-05, "loss": 6.635, "step": 282 }, { "epoch": 90.56, "grad_norm": 0.2064095437526703, "learning_rate": 1.1333333333333334e-05, "loss": 6.9659, "step": 283 }, { "epoch": 90.88, "grad_norm": 0.23568947613239288, "learning_rate": 1.0666666666666667e-05, "loss": 6.8865, "step": 284 }, { "epoch": 91.2, "grad_norm": 0.3474428653717041, "learning_rate": 1e-05, "loss": 6.6739, "step": 285 }, { "epoch": 91.52, "grad_norm": 0.3581945598125458, "learning_rate": 9.333333333333334e-06, "loss": 6.8917, "step": 286 }, { "epoch": 91.84, "grad_norm": 0.3007957935333252, "learning_rate": 8.666666666666668e-06, "loss": 6.8773, "step": 287 }, { "epoch": 92.16, "grad_norm": 0.3932383358478546, "learning_rate": 8.000000000000001e-06, "loss": 6.8458, "step": 288 }, { "epoch": 92.48, "grad_norm": 0.24342194199562073, "learning_rate": 7.333333333333334e-06, "loss": 6.7863, "step": 289 }, { "epoch": 92.8, "grad_norm": 0.2581452429294586, "learning_rate": 6.666666666666667e-06, "loss": 6.9605, "step": 290 }, { "epoch": 93.12, "grad_norm": 0.22125321626663208, "learning_rate": 6e-06, "loss": 6.8853, "step": 291 }, { "epoch": 93.44, "grad_norm": 0.2505747377872467, "learning_rate": 5.333333333333334e-06, "loss": 6.7369, "step": 292 }, { "epoch": 93.76, "grad_norm": 0.2498222291469574, "learning_rate": 4.666666666666667e-06, "loss": 6.8869, "step": 293 }, { "epoch": 94.08, "grad_norm": 0.21589802205562592, "learning_rate": 4.000000000000001e-06, "loss": 6.8991, "step": 294 }, { "epoch": 94.4, "grad_norm": 0.24404552578926086, "learning_rate": 3.3333333333333333e-06, "loss": 6.9614, "step": 295 }, { "epoch": 94.72, "grad_norm": 0.25962963700294495, "learning_rate": 2.666666666666667e-06, "loss": 6.7497, "step": 296 }, { "epoch": 95.04, "grad_norm": 0.28752872347831726, "learning_rate": 2.0000000000000003e-06, "loss": 6.9074, "step": 297 }, { "epoch": 95.36, "grad_norm": 0.26390671730041504, "learning_rate": 1.3333333333333334e-06, "loss": 6.8569, "step": 298 }, { "epoch": 95.68, "grad_norm": 0.31729447841644287, "learning_rate": 6.666666666666667e-07, "loss": 6.6868, "step": 299 }, { "epoch": 96.0, "grad_norm": 0.21429355442523956, "learning_rate": 0.0, "loss": 6.9368, "step": 300 }, { "epoch": 96.0, "eval_clap": 0.043407466262578964, "eval_loss": 6.859947204589844, "eval_runtime": 136.6076, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.059, "step": 300 }, { "epoch": 96.0, "step": 300, "total_flos": 95943536978688.0, "train_loss": 7.054300208091735, "train_runtime": 2800.3256, "train_samples_per_second": 1.75, "train_steps_per_second": 0.107 } ], "logging_steps": 1.0, "max_steps": 300, "num_input_tokens_seen": 0, "num_train_epochs": 100, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 95943536978688.0, "train_batch_size": 2, "trial_name": null, "trial_params": null }