zaydzuhri
/

transformer-8192-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:420221a0e3c5e417cd02501959d8875ba01d6f387f1a9ac1768339fb74f9af6d
 size 49826824

 version https://git-lfs.github.com/spec/v1
+oid sha256:e13d370a53948e97727651bd2415c07febec81df48a1e88351734bf77bc569cc
 size 49826824

trainer_log.jsonl CHANGED Viewed

@@ -546,3 +546,81 @@
 {"current_steps": 17472, "total_steps": 20000, "loss": 3.2801, "eval_loss": null, "predict_loss": null, "learning_rate": 4.071511215869974e-05, "epoch": 0.9951586261889844, "percentage": 87.36}
 {"current_steps": 17504, "total_steps": 20000, "loss": 3.3016, "eval_loss": null, "predict_loss": null, "learning_rate": 4.044909340302465e-05, "epoch": 0.9969812610354845, "percentage": 87.52}
 {"current_steps": 17536, "total_steps": 20000, "loss": 3.2638, "eval_loss": null, "predict_loss": null, "learning_rate": 4.018628546233774e-05, "epoch": 0.9988038958819844, "percentage": 87.68}

 {"current_steps": 17472, "total_steps": 20000, "loss": 3.2801, "eval_loss": null, "predict_loss": null, "learning_rate": 4.071511215869974e-05, "epoch": 0.9951586261889844, "percentage": 87.36}
 {"current_steps": 17504, "total_steps": 20000, "loss": 3.3016, "eval_loss": null, "predict_loss": null, "learning_rate": 4.044909340302465e-05, "epoch": 0.9969812610354845, "percentage": 87.52}
 {"current_steps": 17536, "total_steps": 20000, "loss": 3.2638, "eval_loss": null, "predict_loss": null, "learning_rate": 4.018628546233774e-05, "epoch": 0.9988038958819844, "percentage": 87.68}
+{"current_steps": 17568, "total_steps": 20000, "loss": 3.533, "eval_loss": null, "predict_loss": null, "learning_rate": 3.992669511160111e-05, "epoch": 1.0006265307284843, "percentage": 87.84}
+{"current_steps": 17600, "total_steps": 20000, "loss": 3.2613, "eval_loss": null, "predict_loss": null, "learning_rate": 3.9670329042830205e-05, "epoch": 1.0024491655749843, "percentage": 88.0}
+{"current_steps": 17632, "total_steps": 20000, "loss": 3.484, "eval_loss": null, "predict_loss": null, "learning_rate": 3.941719386492123e-05, "epoch": 1.0042718004214843, "percentage": 88.16}
+{"current_steps": 17664, "total_steps": 20000, "loss": 3.2604, "eval_loss": null, "predict_loss": null, "learning_rate": 3.916729610348085e-05, "epoch": 1.0060944352679844, "percentage": 88.32}
+{"current_steps": 17696, "total_steps": 20000, "loss": 3.4028, "eval_loss": null, "predict_loss": null, "learning_rate": 3.89206422006579e-05, "epoch": 1.0079170701144842, "percentage": 88.48}
+{"current_steps": 17728, "total_steps": 20000, "loss": 3.3969, "eval_loss": null, "predict_loss": null, "learning_rate": 3.8677238514977316e-05, "epoch": 1.0097397049609842, "percentage": 88.64}
+{"current_steps": 17760, "total_steps": 20000, "loss": 3.4418, "eval_loss": null, "predict_loss": null, "learning_rate": 3.843709132117625e-05, "epoch": 1.0115623398074842, "percentage": 88.8}
+{"current_steps": 17792, "total_steps": 20000, "loss": 3.1845, "eval_loss": null, "predict_loss": null, "learning_rate": 3.8200206810042385e-05, "epoch": 1.0133849746539842, "percentage": 88.96}
+{"current_steps": 17824, "total_steps": 20000, "loss": 3.5594, "eval_loss": null, "predict_loss": null, "learning_rate": 3.7966591088254076e-05, "epoch": 1.015207609500484, "percentage": 89.12}
+{"current_steps": 17856, "total_steps": 20000, "loss": 3.3188, "eval_loss": null, "predict_loss": null, "learning_rate": 3.7736250178223284e-05, "epoch": 1.017030244346984, "percentage": 89.28}
+{"current_steps": 17888, "total_steps": 20000, "loss": 3.2784, "eval_loss": null, "predict_loss": null, "learning_rate": 3.7509190017940066e-05, "epoch": 1.018852879193484, "percentage": 89.44}
+{"current_steps": 17920, "total_steps": 20000, "loss": 3.2204, "eval_loss": null, "predict_loss": null, "learning_rate": 3.728541646081958e-05, "epoch": 1.0206755140399841, "percentage": 89.6}
+{"current_steps": 17952, "total_steps": 20000, "loss": 3.2125, "eval_loss": null, "predict_loss": null, "learning_rate": 3.7064935275551196e-05, "epoch": 1.022498148886484, "percentage": 89.76}
+{"current_steps": 17984, "total_steps": 20000, "loss": 3.3255, "eval_loss": null, "predict_loss": null, "learning_rate": 3.6847752145949786e-05, "epoch": 1.024320783732984, "percentage": 89.92}
+{"current_steps": 18016, "total_steps": 20000, "loss": 3.3118, "eval_loss": null, "predict_loss": null, "learning_rate": 3.66338726708092e-05, "epoch": 1.026143418579484, "percentage": 90.08}
+{"current_steps": 18048, "total_steps": 20000, "loss": 3.4108, "eval_loss": null, "predict_loss": null, "learning_rate": 3.642330236375788e-05, "epoch": 1.027966053425984, "percentage": 90.24}
+{"current_steps": 18080, "total_steps": 20000, "loss": 3.3578, "eval_loss": null, "predict_loss": null, "learning_rate": 3.6216046653116795e-05, "epoch": 1.0297886882724838, "percentage": 90.4}
+{"current_steps": 18112, "total_steps": 20000, "loss": 3.4629, "eval_loss": null, "predict_loss": null, "learning_rate": 3.601211088175948e-05, "epoch": 1.0316113231189838, "percentage": 90.56}
+{"current_steps": 18144, "total_steps": 20000, "loss": 3.3069, "eval_loss": null, "predict_loss": null, "learning_rate": 3.581150030697432e-05, "epoch": 1.0334339579654839, "percentage": 90.72}
+{"current_steps": 18176, "total_steps": 20000, "loss": 3.3297, "eval_loss": null, "predict_loss": null, "learning_rate": 3.561422010032892e-05, "epoch": 1.035256592811984, "percentage": 90.88}
+{"current_steps": 18208, "total_steps": 20000, "loss": 3.3708, "eval_loss": null, "predict_loss": null, "learning_rate": 3.5420275347536976e-05, "epoch": 1.0370792276584837, "percentage": 91.04}
+{"current_steps": 18240, "total_steps": 20000, "loss": 3.4097, "eval_loss": null, "predict_loss": null, "learning_rate": 3.522967104832694e-05, "epoch": 1.0389018625049837, "percentage": 91.2}
+{"current_steps": 18272, "total_steps": 20000, "loss": 3.3742, "eval_loss": null, "predict_loss": null, "learning_rate": 3.504241211631338e-05, "epoch": 1.0407244973514838, "percentage": 91.36}
+{"current_steps": 18304, "total_steps": 20000, "loss": 3.1914, "eval_loss": null, "predict_loss": null, "learning_rate": 3.485850337887007e-05, "epoch": 1.0425471321979838, "percentage": 91.52}
+{"current_steps": 18336, "total_steps": 20000, "loss": 3.3076, "eval_loss": null, "predict_loss": null, "learning_rate": 3.467794957700573e-05, "epoch": 1.0443697670444836, "percentage": 91.68}
+{"current_steps": 18368, "total_steps": 20000, "loss": 3.3821, "eval_loss": null, "predict_loss": null, "learning_rate": 3.450075536524166e-05, "epoch": 1.0461924018909836, "percentage": 91.84}
+{"current_steps": 18400, "total_steps": 20000, "loss": 3.3944, "eval_loss": null, "predict_loss": null, "learning_rate": 3.432692531149191e-05, "epoch": 1.0480150367374836, "percentage": 92.0}
+{"current_steps": 18432, "total_steps": 20000, "loss": 3.2519, "eval_loss": null, "predict_loss": null, "learning_rate": 3.4156463896945356e-05, "epoch": 1.0498376715839837, "percentage": 92.16}
+{"current_steps": 18464, "total_steps": 20000, "loss": 3.3614, "eval_loss": null, "predict_loss": null, "learning_rate": 3.398937551595037e-05, "epoch": 1.0516603064304835, "percentage": 92.32}
+{"current_steps": 18496, "total_steps": 20000, "loss": 3.2746, "eval_loss": null, "predict_loss": null, "learning_rate": 3.382566447590126e-05, "epoch": 1.0534829412769835, "percentage": 92.48}
+{"current_steps": 18528, "total_steps": 20000, "loss": 3.2593, "eval_loss": null, "predict_loss": null, "learning_rate": 3.366533499712757e-05, "epoch": 1.0553055761234835, "percentage": 92.64}
+{"current_steps": 18560, "total_steps": 20000, "loss": 3.4592, "eval_loss": null, "predict_loss": null, "learning_rate": 3.3508391212784984e-05, "epoch": 1.0571282109699836, "percentage": 92.8}
+{"current_steps": 18592, "total_steps": 20000, "loss": 3.255, "eval_loss": null, "predict_loss": null, "learning_rate": 3.3354837168748956e-05, "epoch": 1.0589508458164834, "percentage": 92.96}
+{"current_steps": 18624, "total_steps": 20000, "loss": 3.1441, "eval_loss": null, "predict_loss": null, "learning_rate": 3.32046768235104e-05, "epoch": 1.0607734806629834, "percentage": 93.12}
+{"current_steps": 18656, "total_steps": 20000, "loss": 3.4337, "eval_loss": null, "predict_loss": null, "learning_rate": 3.305791404807349e-05, "epoch": 1.0625961155094834, "percentage": 93.28}
+{"current_steps": 18688, "total_steps": 20000, "loss": 3.4064, "eval_loss": null, "predict_loss": null, "learning_rate": 3.291455262585608e-05, "epoch": 1.0644187503559834, "percentage": 93.44}
+{"current_steps": 18720, "total_steps": 20000, "loss": 3.3228, "eval_loss": null, "predict_loss": null, "learning_rate": 3.277459625259199e-05, "epoch": 1.0662413852024832, "percentage": 93.6}
+{"current_steps": 18752, "total_steps": 20000, "loss": 3.3079, "eval_loss": null, "predict_loss": null, "learning_rate": 3.2638048536235925e-05, "epoch": 1.0680640200489833, "percentage": 93.76}
+{"current_steps": 18784, "total_steps": 20000, "loss": 3.3057, "eval_loss": null, "predict_loss": null, "learning_rate": 3.2504912996870223e-05, "epoch": 1.0698866548954833, "percentage": 93.92}
+{"current_steps": 18816, "total_steps": 20000, "loss": 3.1894, "eval_loss": null, "predict_loss": null, "learning_rate": 3.237519306661436e-05, "epoch": 1.0717092897419833, "percentage": 94.08}
+{"current_steps": 18848, "total_steps": 20000, "loss": 3.3885, "eval_loss": null, "predict_loss": null, "learning_rate": 3.224889208953625e-05, "epoch": 1.0735319245884831, "percentage": 94.24}
+{"current_steps": 18880, "total_steps": 20000, "loss": 3.4863, "eval_loss": null, "predict_loss": null, "learning_rate": 3.21260133215662e-05, "epoch": 1.0753545594349831, "percentage": 94.4}
+{"current_steps": 18912, "total_steps": 20000, "loss": 3.3887, "eval_loss": null, "predict_loss": null, "learning_rate": 3.200655993041291e-05, "epoch": 1.0771771942814832, "percentage": 94.56}
+{"current_steps": 18944, "total_steps": 20000, "loss": 3.4815, "eval_loss": null, "predict_loss": null, "learning_rate": 3.1890534995481836e-05, "epoch": 1.0789998291279832, "percentage": 94.72}
+{"current_steps": 18976, "total_steps": 20000, "loss": 3.322, "eval_loss": null, "predict_loss": null, "learning_rate": 3.177794150779575e-05, "epoch": 1.0808224639744832, "percentage": 94.88}
+{"current_steps": 19008, "total_steps": 20000, "loss": 3.2297, "eval_loss": null, "predict_loss": null, "learning_rate": 3.166878236991767e-05, "epoch": 1.082645098820983, "percentage": 95.04}
+{"current_steps": 19040, "total_steps": 20000, "loss": 3.1521, "eval_loss": null, "predict_loss": null, "learning_rate": 3.1563060395876074e-05, "epoch": 1.084467733667483, "percentage": 95.2}
+{"current_steps": 19072, "total_steps": 20000, "loss": 3.289, "eval_loss": null, "predict_loss": null, "learning_rate": 3.1460778311092306e-05, "epoch": 1.086290368513983, "percentage": 95.36}
+{"current_steps": 19104, "total_steps": 20000, "loss": 3.2968, "eval_loss": null, "predict_loss": null, "learning_rate": 3.136193875231033e-05, "epoch": 1.0881130033604829, "percentage": 95.52}
+{"current_steps": 19136, "total_steps": 20000, "loss": 3.278, "eval_loss": null, "predict_loss": null, "learning_rate": 3.1266544267528746e-05, "epoch": 1.089935638206983, "percentage": 95.68}
+{"current_steps": 19168, "total_steps": 20000, "loss": 3.2662, "eval_loss": null, "predict_loss": null, "learning_rate": 3.117459731593514e-05, "epoch": 1.091758273053483, "percentage": 95.84}
+{"current_steps": 19200, "total_steps": 20000, "loss": 3.305, "eval_loss": null, "predict_loss": null, "learning_rate": 3.1086100267842626e-05, "epoch": 1.093580907899983, "percentage": 96.0}
+{"current_steps": 19232, "total_steps": 20000, "loss": 3.3092, "eval_loss": null, "predict_loss": null, "learning_rate": 3.1001055404628825e-05, "epoch": 1.095403542746483, "percentage": 96.16}
+{"current_steps": 19264, "total_steps": 20000, "loss": 3.3532, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0919464918676995e-05, "epoch": 1.0972261775929828, "percentage": 96.32}
+{"current_steps": 19296, "total_steps": 20000, "loss": 3.3003, "eval_loss": null, "predict_loss": null, "learning_rate": 3.084133091331949e-05, "epoch": 1.0990488124394828, "percentage": 96.48}
+{"current_steps": 19328, "total_steps": 20000, "loss": 3.3035, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0766655402783616e-05, "epoch": 1.1008714472859829, "percentage": 96.64}
+{"current_steps": 19360, "total_steps": 20000, "loss": 3.3652, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0695440312139664e-05, "epoch": 1.1026940821324827, "percentage": 96.8}
+{"current_steps": 19392, "total_steps": 20000, "loss": 3.3741, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0627687477251264e-05, "epoch": 1.1045167169789827, "percentage": 96.96}
+{"current_steps": 19424, "total_steps": 20000, "loss": 3.4161, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0563398644728066e-05, "epoch": 1.1063393518254827, "percentage": 97.12}
+{"current_steps": 19456, "total_steps": 20000, "loss": 3.3532, "eval_loss": null, "predict_loss": null, "learning_rate": 3.050257547188077e-05, "epoch": 1.1081619866719827, "percentage": 97.28}
+{"current_steps": 19488, "total_steps": 20000, "loss": 3.2554, "eval_loss": null, "predict_loss": null, "learning_rate": 3.044521952667833e-05, "epoch": 1.1099846215184828, "percentage": 97.44}
+{"current_steps": 19520, "total_steps": 20000, "loss": 3.2747, "eval_loss": null, "predict_loss": null, "learning_rate": 3.039133228770754e-05, "epoch": 1.1118072563649826, "percentage": 97.6}
+{"current_steps": 19552, "total_steps": 20000, "loss": 3.379, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0340915144134993e-05, "epoch": 1.1136298912114826, "percentage": 97.76}
+{"current_steps": 19584, "total_steps": 20000, "loss": 3.2245, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0293969395671157e-05, "epoch": 1.1154525260579826, "percentage": 97.92}
+{"current_steps": 19616, "total_steps": 20000, "loss": 3.3332, "eval_loss": null, "predict_loss": null, "learning_rate": 3.025049625253697e-05, "epoch": 1.1172751609044826, "percentage": 98.08}
+{"current_steps": 19648, "total_steps": 20000, "loss": 3.373, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0210496835432564e-05, "epoch": 1.1190977957509824, "percentage": 98.24}
+{"current_steps": 19680, "total_steps": 20000, "loss": 3.5304, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0173972175508445e-05, "epoch": 1.1209204305974825, "percentage": 98.4}
+{"current_steps": 19712, "total_steps": 20000, "loss": 3.5012, "eval_loss": null, "predict_loss": null, "learning_rate": 3.014092321433883e-05, "epoch": 1.1227430654439825, "percentage": 98.56}
+{"current_steps": 19744, "total_steps": 20000, "loss": 3.2433, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0111350803897467e-05, "epoch": 1.1245657002904825, "percentage": 98.72}
+{"current_steps": 19776, "total_steps": 20000, "loss": 3.216, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0085255706535594e-05, "epoch": 1.1263883351369823, "percentage": 98.88}
+{"current_steps": 19808, "total_steps": 20000, "loss": 3.2591, "eval_loss": null, "predict_loss": null, "learning_rate": 3.006263859496231e-05, "epoch": 1.1282109699834824, "percentage": 99.04}
+{"current_steps": 19840, "total_steps": 20000, "loss": 3.2864, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0043500052227267e-05, "epoch": 1.1300336048299824, "percentage": 99.2}
+{"current_steps": 19872, "total_steps": 20000, "loss": 3.2918, "eval_loss": null, "predict_loss": null, "learning_rate": 3.002784057170561e-05, "epoch": 1.1318562396764824, "percentage": 99.36}
+{"current_steps": 19904, "total_steps": 20000, "loss": 3.1914, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0015660557085206e-05, "epoch": 1.1336788745229822, "percentage": 99.52}
+{"current_steps": 19936, "total_steps": 20000, "loss": 3.2511, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0006960322356355e-05, "epoch": 1.1355015093694822, "percentage": 99.68}
+{"current_steps": 19968, "total_steps": 20000, "loss": 3.3102, "eval_loss": null, "predict_loss": null, "learning_rate": 3.0001740091803596e-05, "epoch": 1.1373241442159823, "percentage": 99.84}
+{"current_steps": 20000, "total_steps": 20000, "loss": 3.394, "eval_loss": null, "predict_loss": null, "learning_rate": 2.9999999999999997e-05, "epoch": 1.1391467790624823, "percentage": 100.0}
+{"current_steps": 20000, "total_steps": 20000, "loss": null, "eval_loss": null, "predict_loss": null, "learning_rate": null, "epoch": 1.1391467790624823, "percentage": 100.0}