zaydzuhri
/

transformer-8192-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0434af353a8ae3d2544c2a3b777914d571493bd7ca3f244eed036fd874e4516
 size 49826824

 version https://git-lfs.github.com/spec/v1
+oid sha256:420221a0e3c5e417cd02501959d8875ba01d6f387f1a9ac1768339fb74f9af6d
 size 49826824

trainer_log.jsonl CHANGED Viewed

@@ -470,3 +470,79 @@
 {"current_steps": 15040, "total_steps": 20000, "loss": 3.4652, "eval_loss": null, "predict_loss": null, "learning_rate": 6.969216655409388e-05, "epoch": 0.8566383778549866, "percentage": 75.2}
 {"current_steps": 15072, "total_steps": 20000, "loss": 3.3907, "eval_loss": null, "predict_loss": null, "learning_rate": 6.92079505675697e-05, "epoch": 0.8584610127014866, "percentage": 75.36}
 {"current_steps": 15104, "total_steps": 20000, "loss": 3.3981, "eval_loss": null, "predict_loss": null, "learning_rate": 6.872620401749094e-05, "epoch": 0.8602836475479866, "percentage": 75.52}

 {"current_steps": 15040, "total_steps": 20000, "loss": 3.4652, "eval_loss": null, "predict_loss": null, "learning_rate": 6.969216655409388e-05, "epoch": 0.8566383778549866, "percentage": 75.2}
 {"current_steps": 15072, "total_steps": 20000, "loss": 3.3907, "eval_loss": null, "predict_loss": null, "learning_rate": 6.92079505675697e-05, "epoch": 0.8584610127014866, "percentage": 75.36}
 {"current_steps": 15104, "total_steps": 20000, "loss": 3.3981, "eval_loss": null, "predict_loss": null, "learning_rate": 6.872620401749094e-05, "epoch": 0.8602836475479866, "percentage": 75.52}
+{"current_steps": 15136, "total_steps": 20000, "loss": 3.6027, "eval_loss": null, "predict_loss": null, "learning_rate": 6.824693932286834e-05, "epoch": 0.8621062823944865, "percentage": 75.68}
+{"current_steps": 15168, "total_steps": 20000, "loss": 3.4507, "eval_loss": null, "predict_loss": null, "learning_rate": 6.777016883873253e-05, "epoch": 0.8639289172409865, "percentage": 75.84}
+{"current_steps": 15200, "total_steps": 20000, "loss": 3.4501, "eval_loss": null, "predict_loss": null, "learning_rate": 6.729590485581552e-05, "epoch": 0.8657515520874864, "percentage": 76.0}
+{"current_steps": 15232, "total_steps": 20000, "loss": 3.4464, "eval_loss": null, "predict_loss": null, "learning_rate": 6.68241596002339e-05, "epoch": 0.8675741869339865, "percentage": 76.16}
+{"current_steps": 15264, "total_steps": 20000, "loss": 3.4268, "eval_loss": null, "predict_loss": null, "learning_rate": 6.63549452331737e-05, "epoch": 0.8693968217804864, "percentage": 76.32}
+{"current_steps": 15296, "total_steps": 20000, "loss": 3.5604, "eval_loss": null, "predict_loss": null, "learning_rate": 6.588827385057663e-05, "epoch": 0.8712194566269864, "percentage": 76.48}
+{"current_steps": 15328, "total_steps": 20000, "loss": 3.595, "eval_loss": null, "predict_loss": null, "learning_rate": 6.542415748282867e-05, "epoch": 0.8730420914734863, "percentage": 76.64}
+{"current_steps": 15360, "total_steps": 20000, "loss": 3.3765, "eval_loss": null, "predict_loss": null, "learning_rate": 6.496260809444961e-05, "epoch": 0.8748647263199864, "percentage": 76.8}
+{"current_steps": 15392, "total_steps": 20000, "loss": 3.2804, "eval_loss": null, "predict_loss": null, "learning_rate": 6.45036375837848e-05, "epoch": 0.8766873611664863, "percentage": 76.96}
+{"current_steps": 15424, "total_steps": 20000, "loss": 3.5249, "eval_loss": null, "predict_loss": null, "learning_rate": 6.404725778269821e-05, "epoch": 0.8785099960129863, "percentage": 77.12}
+{"current_steps": 15456, "total_steps": 20000, "loss": 3.3314, "eval_loss": null, "predict_loss": null, "learning_rate": 6.359348045626768e-05, "epoch": 0.8803326308594862, "percentage": 77.28}
+{"current_steps": 15488, "total_steps": 20000, "loss": 3.3959, "eval_loss": null, "predict_loss": null, "learning_rate": 6.314231730248144e-05, "epoch": 0.8821552657059862, "percentage": 77.44}
+{"current_steps": 15520, "total_steps": 20000, "loss": 3.2723, "eval_loss": null, "predict_loss": null, "learning_rate": 6.269377995193662e-05, "epoch": 0.8839779005524862, "percentage": 77.6}
+{"current_steps": 15552, "total_steps": 20000, "loss": 3.3634, "eval_loss": null, "predict_loss": null, "learning_rate": 6.224787996753946e-05, "epoch": 0.8858005353989862, "percentage": 77.76}
+{"current_steps": 15584, "total_steps": 20000, "loss": 3.5432, "eval_loss": null, "predict_loss": null, "learning_rate": 6.180462884420702e-05, "epoch": 0.8876231702454861, "percentage": 77.92}
+{"current_steps": 15616, "total_steps": 20000, "loss": 3.4279, "eval_loss": null, "predict_loss": null, "learning_rate": 6.136403800857113e-05, "epoch": 0.8894458050919861, "percentage": 78.08}
+{"current_steps": 15648, "total_steps": 20000, "loss": 3.3444, "eval_loss": null, "predict_loss": null, "learning_rate": 6.092611881868369e-05, "epoch": 0.891268439938486, "percentage": 78.24}
+{"current_steps": 15680, "total_steps": 20000, "loss": 3.2575, "eval_loss": null, "predict_loss": null, "learning_rate": 6.049088256372386e-05, "epoch": 0.8930910747849861, "percentage": 78.4}
+{"current_steps": 15712, "total_steps": 20000, "loss": 3.1619, "eval_loss": null, "predict_loss": null, "learning_rate": 6.005834046370704e-05, "epoch": 0.894913709631486, "percentage": 78.56}
+{"current_steps": 15744, "total_steps": 20000, "loss": 3.4806, "eval_loss": null, "predict_loss": null, "learning_rate": 5.962850366919566e-05, "epoch": 0.896736344477986, "percentage": 78.72}
+{"current_steps": 15776, "total_steps": 20000, "loss": 3.3673, "eval_loss": null, "predict_loss": null, "learning_rate": 5.9201383261011636e-05, "epoch": 0.8985589793244859, "percentage": 78.88}
+{"current_steps": 15808, "total_steps": 20000, "loss": 3.3109, "eval_loss": null, "predict_loss": null, "learning_rate": 5.877699024995088e-05, "epoch": 0.9003816141709859, "percentage": 79.04}
+{"current_steps": 15840, "total_steps": 20000, "loss": 3.3335, "eval_loss": null, "predict_loss": null, "learning_rate": 5.835533557649932e-05, "epoch": 0.9022042490174859, "percentage": 79.2}
+{"current_steps": 15872, "total_steps": 20000, "loss": 3.3958, "eval_loss": null, "predict_loss": null, "learning_rate": 5.793643011055091e-05, "epoch": 0.9040268838639859, "percentage": 79.36}
+{"current_steps": 15904, "total_steps": 20000, "loss": 3.2641, "eval_loss": null, "predict_loss": null, "learning_rate": 5.752028465112736e-05, "epoch": 0.9058495187104858, "percentage": 79.52}
+{"current_steps": 15936, "total_steps": 20000, "loss": 3.3877, "eval_loss": null, "predict_loss": null, "learning_rate": 5.710690992609983e-05, "epoch": 0.9076721535569858, "percentage": 79.68}
+{"current_steps": 15968, "total_steps": 20000, "loss": 3.3199, "eval_loss": null, "predict_loss": null, "learning_rate": 5.6696316591912355e-05, "epoch": 0.9094947884034857, "percentage": 79.84}
+{"current_steps": 16000, "total_steps": 20000, "loss": 3.3811, "eval_loss": null, "predict_loss": null, "learning_rate": 5.628851523330708e-05, "epoch": 0.9113174232499858, "percentage": 80.0}
+{"current_steps": 16032, "total_steps": 20000, "loss": 3.4942, "eval_loss": null, "predict_loss": null, "learning_rate": 5.588351636305146e-05, "epoch": 0.9131400580964857, "percentage": 80.16}
+{"current_steps": 16064, "total_steps": 20000, "loss": 3.328, "eval_loss": null, "predict_loss": null, "learning_rate": 5.548133042166714e-05, "epoch": 0.9149626929429857, "percentage": 80.32}
+{"current_steps": 16096, "total_steps": 20000, "loss": 3.5363, "eval_loss": null, "predict_loss": null, "learning_rate": 5.5081967777161005e-05, "epoch": 0.9167853277894856, "percentage": 80.48}
+{"current_steps": 16128, "total_steps": 20000, "loss": 3.5356, "eval_loss": null, "predict_loss": null, "learning_rate": 5.468543872475766e-05, "epoch": 0.9186079626359857, "percentage": 80.64}
+{"current_steps": 16160, "total_steps": 20000, "loss": 3.3574, "eval_loss": null, "predict_loss": null, "learning_rate": 5.42917534866342e-05, "epoch": 0.9204305974824856, "percentage": 80.8}
+{"current_steps": 16192, "total_steps": 20000, "loss": 3.3641, "eval_loss": null, "predict_loss": null, "learning_rate": 5.390092221165669e-05, "epoch": 0.9222532323289856, "percentage": 80.96}
+{"current_steps": 16224, "total_steps": 20000, "loss": 3.2683, "eval_loss": null, "predict_loss": null, "learning_rate": 5.3512954975118384e-05, "epoch": 0.9240758671754855, "percentage": 81.12}
+{"current_steps": 16256, "total_steps": 20000, "loss": 3.4966, "eval_loss": null, "predict_loss": null, "learning_rate": 5.3127861778480155e-05, "epoch": 0.9258985020219855, "percentage": 81.28}
+{"current_steps": 16288, "total_steps": 20000, "loss": 3.6079, "eval_loss": null, "predict_loss": null, "learning_rate": 5.274565254911261e-05, "epoch": 0.9277211368684855, "percentage": 81.44}
+{"current_steps": 16320, "total_steps": 20000, "loss": 3.5604, "eval_loss": null, "predict_loss": null, "learning_rate": 5.236633714004014e-05, "epoch": 0.9295437717149855, "percentage": 81.6}
+{"current_steps": 16352, "total_steps": 20000, "loss": 3.3423, "eval_loss": null, "predict_loss": null, "learning_rate": 5.1989925329686985e-05, "epoch": 0.9313664065614854, "percentage": 81.76}
+{"current_steps": 16384, "total_steps": 20000, "loss": 3.3109, "eval_loss": null, "predict_loss": null, "learning_rate": 5.161642682162506e-05, "epoch": 0.9331890414079854, "percentage": 81.92}
+{"current_steps": 16416, "total_steps": 20000, "loss": 3.4777, "eval_loss": null, "predict_loss": null, "learning_rate": 5.1245851244323926e-05, "epoch": 0.9350116762544853, "percentage": 82.08}
+{"current_steps": 16448, "total_steps": 20000, "loss": 3.4493, "eval_loss": null, "predict_loss": null, "learning_rate": 5.087820815090239e-05, "epoch": 0.9368343111009854, "percentage": 82.24}
+{"current_steps": 16480, "total_steps": 20000, "loss": 3.3607, "eval_loss": null, "predict_loss": null, "learning_rate": 5.0513507018882495e-05, "epoch": 0.9386569459474854, "percentage": 82.4}
+{"current_steps": 16512, "total_steps": 20000, "loss": 3.3759, "eval_loss": null, "predict_loss": null, "learning_rate": 5.015175724994498e-05, "epoch": 0.9404795807939853, "percentage": 82.56}
+{"current_steps": 16544, "total_steps": 20000, "loss": 3.5364, "eval_loss": null, "predict_loss": null, "learning_rate": 4.979296816968697e-05, "epoch": 0.9423022156404853, "percentage": 82.72}
+{"current_steps": 16576, "total_steps": 20000, "loss": 3.3132, "eval_loss": null, "predict_loss": null, "learning_rate": 4.943714902738163e-05, "epoch": 0.9441248504869852, "percentage": 82.88}
+{"current_steps": 16608, "total_steps": 20000, "loss": 3.5673, "eval_loss": null, "predict_loss": null, "learning_rate": 4.908430899573967e-05, "epoch": 0.9459474853334853, "percentage": 83.04}
+{"current_steps": 16640, "total_steps": 20000, "loss": 3.4356, "eval_loss": null, "predict_loss": null, "learning_rate": 4.873445717067292e-05, "epoch": 0.9477701201799852, "percentage": 83.2}
+{"current_steps": 16672, "total_steps": 20000, "loss": 3.3143, "eval_loss": null, "predict_loss": null, "learning_rate": 4.838760257105979e-05, "epoch": 0.9495927550264852, "percentage": 83.36}
+{"current_steps": 16704, "total_steps": 20000, "loss": 3.5084, "eval_loss": null, "predict_loss": null, "learning_rate": 4.8043754138512794e-05, "epoch": 0.9514153898729851, "percentage": 83.52}
+{"current_steps": 16736, "total_steps": 20000, "loss": 3.3382, "eval_loss": null, "predict_loss": null, "learning_rate": 4.770292073714807e-05, "epoch": 0.9532380247194852, "percentage": 83.68}
+{"current_steps": 16768, "total_steps": 20000, "loss": 3.1503, "eval_loss": null, "predict_loss": null, "learning_rate": 4.73651111533569e-05, "epoch": 0.9550606595659851, "percentage": 83.84}
+{"current_steps": 16800, "total_steps": 20000, "loss": 3.4448, "eval_loss": null, "predict_loss": null, "learning_rate": 4.703033409557903e-05, "epoch": 0.9568832944124851, "percentage": 84.0}
+{"current_steps": 16832, "total_steps": 20000, "loss": 3.2959, "eval_loss": null, "predict_loss": null, "learning_rate": 4.669859819407844e-05, "epoch": 0.958705929258985, "percentage": 84.16}
+{"current_steps": 16864, "total_steps": 20000, "loss": 3.3042, "eval_loss": null, "predict_loss": null, "learning_rate": 4.63699120007206e-05, "epoch": 0.960528564105485, "percentage": 84.32}
+{"current_steps": 16896, "total_steps": 20000, "loss": 3.3773, "eval_loss": null, "predict_loss": null, "learning_rate": 4.6044283988752214e-05, "epoch": 0.962351198951985, "percentage": 84.48}
+{"current_steps": 16928, "total_steps": 20000, "loss": 3.511, "eval_loss": null, "predict_loss": null, "learning_rate": 4.572172255258268e-05, "epoch": 0.964173833798485, "percentage": 84.64}
+{"current_steps": 16960, "total_steps": 20000, "loss": 3.4194, "eval_loss": null, "predict_loss": null, "learning_rate": 4.540223600756775e-05, "epoch": 0.9659964686449849, "percentage": 84.8}
+{"current_steps": 16992, "total_steps": 20000, "loss": 3.3175, "eval_loss": null, "predict_loss": null, "learning_rate": 4.508583258979507e-05, "epoch": 0.9678191034914849, "percentage": 84.96}
+{"current_steps": 17024, "total_steps": 20000, "loss": 3.407, "eval_loss": null, "predict_loss": null, "learning_rate": 4.4772520455871974e-05, "epoch": 0.9696417383379848, "percentage": 85.12}
+{"current_steps": 17056, "total_steps": 20000, "loss": 3.2908, "eval_loss": null, "predict_loss": null, "learning_rate": 4.446230768271513e-05, "epoch": 0.9714643731844849, "percentage": 85.28}
+{"current_steps": 17088, "total_steps": 20000, "loss": 3.4567, "eval_loss": null, "predict_loss": null, "learning_rate": 4.415520226734242e-05, "epoch": 0.9732870080309848, "percentage": 85.44}
+{"current_steps": 17120, "total_steps": 20000, "loss": 3.4349, "eval_loss": null, "predict_loss": null, "learning_rate": 4.385121212666663e-05, "epoch": 0.9751096428774848, "percentage": 85.6}
+{"current_steps": 17152, "total_steps": 20000, "loss": 3.3015, "eval_loss": null, "predict_loss": null, "learning_rate": 4.355034509729152e-05, "epoch": 0.9769322777239847, "percentage": 85.76}
+{"current_steps": 17184, "total_steps": 20000, "loss": 3.3702, "eval_loss": null, "predict_loss": null, "learning_rate": 4.325260893530965e-05, "epoch": 0.9787549125704847, "percentage": 85.92}
+{"current_steps": 17216, "total_steps": 20000, "loss": 3.4142, "eval_loss": null, "predict_loss": null, "learning_rate": 4.295801131610265e-05, "epoch": 0.9805775474169847, "percentage": 86.08}
+{"current_steps": 17248, "total_steps": 20000, "loss": 3.1584, "eval_loss": null, "predict_loss": null, "learning_rate": 4.266655983414312e-05, "epoch": 0.9824001822634847, "percentage": 86.24}
+{"current_steps": 17280, "total_steps": 20000, "loss": 3.3601, "eval_loss": null, "predict_loss": null, "learning_rate": 4.237826200279898e-05, "epoch": 0.9842228171099846, "percentage": 86.4}
+{"current_steps": 17312, "total_steps": 20000, "loss": 3.3902, "eval_loss": null, "predict_loss": null, "learning_rate": 4.209312525413978e-05, "epoch": 0.9860454519564846, "percentage": 86.56}
+{"current_steps": 17344, "total_steps": 20000, "loss": 3.3125, "eval_loss": null, "predict_loss": null, "learning_rate": 4.1811156938745036e-05, "epoch": 0.9878680868029845, "percentage": 86.72}
+{"current_steps": 17376, "total_steps": 20000, "loss": 3.3201, "eval_loss": null, "predict_loss": null, "learning_rate": 4.153236432551488e-05, "epoch": 0.9896907216494846, "percentage": 86.88}
+{"current_steps": 17408, "total_steps": 20000, "loss": 3.5218, "eval_loss": null, "predict_loss": null, "learning_rate": 4.125675460148243e-05, "epoch": 0.9915133564959845, "percentage": 87.04}
+{"current_steps": 17440, "total_steps": 20000, "loss": 3.3612, "eval_loss": null, "predict_loss": null, "learning_rate": 4.09843348716288e-05, "epoch": 0.9933359913424845, "percentage": 87.2}
+{"current_steps": 17472, "total_steps": 20000, "loss": 3.2801, "eval_loss": null, "predict_loss": null, "learning_rate": 4.071511215869974e-05, "epoch": 0.9951586261889844, "percentage": 87.36}
+{"current_steps": 17504, "total_steps": 20000, "loss": 3.3016, "eval_loss": null, "predict_loss": null, "learning_rate": 4.044909340302465e-05, "epoch": 0.9969812610354845, "percentage": 87.52}
+{"current_steps": 17536, "total_steps": 20000, "loss": 3.2638, "eval_loss": null, "predict_loss": null, "learning_rate": 4.018628546233774e-05, "epoch": 0.9988038958819844, "percentage": 87.68}