oh-dcft-v3.1-llama-3.1-8b-qwen / trainer_state.json

End of training

b2df411 verified about 1 month ago

85.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9991537376586743,
	"eval_steps": 500,
	"global_step": 5316,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005641748942172073,
	"grad_norm": 0.8860281773045255,
	"learning_rate": 5e-06,
	"loss": 0.5781,
	"step": 10
	},
	{
	"epoch": 0.011283497884344146,
	"grad_norm": 0.9275466531112635,
	"learning_rate": 5e-06,
	"loss": 0.5493,
	"step": 20
	},
	{
	"epoch": 0.01692524682651622,
	"grad_norm": 0.9785057374089036,
	"learning_rate": 5e-06,
	"loss": 0.5144,
	"step": 30
	},
	{
	"epoch": 0.022566995768688293,
	"grad_norm": 0.9445832962940219,
	"learning_rate": 5e-06,
	"loss": 0.5132,
	"step": 40
	},
	{
	"epoch": 0.028208744710860368,
	"grad_norm": 0.8794347209187481,
	"learning_rate": 5e-06,
	"loss": 0.4958,
	"step": 50
	},
	{
	"epoch": 0.03385049365303244,
	"grad_norm": 0.8768425701561404,
	"learning_rate": 5e-06,
	"loss": 0.5032,
	"step": 60
	},
	{
	"epoch": 0.039492242595204514,
	"grad_norm": 0.7246974546492897,
	"learning_rate": 5e-06,
	"loss": 0.4798,
	"step": 70
	},
	{
	"epoch": 0.045133991537376586,
	"grad_norm": 0.554012169044732,
	"learning_rate": 5e-06,
	"loss": 0.4888,
	"step": 80
	},
	{
	"epoch": 0.05077574047954866,
	"grad_norm": 0.5618297520336772,
	"learning_rate": 5e-06,
	"loss": 0.4811,
	"step": 90
	},
	{
	"epoch": 0.056417489421720736,
	"grad_norm": 0.5213657220782494,
	"learning_rate": 5e-06,
	"loss": 0.468,
	"step": 100
	},
	{
	"epoch": 0.06205923836389281,
	"grad_norm": 0.509393805640559,
	"learning_rate": 5e-06,
	"loss": 0.4829,
	"step": 110
	},
	{
	"epoch": 0.06770098730606489,
	"grad_norm": 0.543532182255718,
	"learning_rate": 5e-06,
	"loss": 0.4737,
	"step": 120
	},
	{
	"epoch": 0.07334273624823695,
	"grad_norm": 0.5016209370031858,
	"learning_rate": 5e-06,
	"loss": 0.4787,
	"step": 130
	},
	{
	"epoch": 0.07898448519040903,
	"grad_norm": 0.5209031521531445,
	"learning_rate": 5e-06,
	"loss": 0.4848,
	"step": 140
	},
	{
	"epoch": 0.0846262341325811,
	"grad_norm": 0.47470655842824117,
	"learning_rate": 5e-06,
	"loss": 0.4776,
	"step": 150
	},
	{
	"epoch": 0.09026798307475317,
	"grad_norm": 0.5098693274003744,
	"learning_rate": 5e-06,
	"loss": 0.4765,
	"step": 160
	},
	{
	"epoch": 0.09590973201692525,
	"grad_norm": 0.5148841472543283,
	"learning_rate": 5e-06,
	"loss": 0.4744,
	"step": 170
	},
	{
	"epoch": 0.10155148095909731,
	"grad_norm": 0.5303116836505042,
	"learning_rate": 5e-06,
	"loss": 0.4789,
	"step": 180
	},
	{
	"epoch": 0.1071932299012694,
	"grad_norm": 0.5035762913816794,
	"learning_rate": 5e-06,
	"loss": 0.4763,
	"step": 190
	},
	{
	"epoch": 0.11283497884344147,
	"grad_norm": 0.5096690168519262,
	"learning_rate": 5e-06,
	"loss": 0.4687,
	"step": 200
	},
	{
	"epoch": 0.11847672778561354,
	"grad_norm": 0.50737809697083,
	"learning_rate": 5e-06,
	"loss": 0.4615,
	"step": 210
	},
	{
	"epoch": 0.12411847672778561,
	"grad_norm": 0.4961749979329462,
	"learning_rate": 5e-06,
	"loss": 0.4713,
	"step": 220
	},
	{
	"epoch": 0.12976022566995768,
	"grad_norm": 0.47944422939763603,
	"learning_rate": 5e-06,
	"loss": 0.475,
	"step": 230
	},
	{
	"epoch": 0.13540197461212977,
	"grad_norm": 0.49717123601985425,
	"learning_rate": 5e-06,
	"loss": 0.4739,
	"step": 240
	},
	{
	"epoch": 0.14104372355430184,
	"grad_norm": 0.47611353329941747,
	"learning_rate": 5e-06,
	"loss": 0.4649,
	"step": 250
	},
	{
	"epoch": 0.1466854724964739,
	"grad_norm": 0.4894294603649133,
	"learning_rate": 5e-06,
	"loss": 0.4917,
	"step": 260
	},
	{
	"epoch": 0.152327221438646,
	"grad_norm": 0.48373950578804115,
	"learning_rate": 5e-06,
	"loss": 0.4493,
	"step": 270
	},
	{
	"epoch": 0.15796897038081806,
	"grad_norm": 0.522789579136924,
	"learning_rate": 5e-06,
	"loss": 0.4664,
	"step": 280
	},
	{
	"epoch": 0.16361071932299012,
	"grad_norm": 0.4789421152666509,
	"learning_rate": 5e-06,
	"loss": 0.459,
	"step": 290
	},
	{
	"epoch": 0.1692524682651622,
	"grad_norm": 0.5012557865235248,
	"learning_rate": 5e-06,
	"loss": 0.4552,
	"step": 300
	},
	{
	"epoch": 0.17489421720733428,
	"grad_norm": 0.4624585048654735,
	"learning_rate": 5e-06,
	"loss": 0.4596,
	"step": 310
	},
	{
	"epoch": 0.18053596614950634,
	"grad_norm": 0.47502867235282875,
	"learning_rate": 5e-06,
	"loss": 0.4782,
	"step": 320
	},
	{
	"epoch": 0.1861777150916784,
	"grad_norm": 0.48965795082153923,
	"learning_rate": 5e-06,
	"loss": 0.4645,
	"step": 330
	},
	{
	"epoch": 0.1918194640338505,
	"grad_norm": 0.48242874081163245,
	"learning_rate": 5e-06,
	"loss": 0.4647,
	"step": 340
	},
	{
	"epoch": 0.19746121297602257,
	"grad_norm": 0.5121876755000992,
	"learning_rate": 5e-06,
	"loss": 0.4665,
	"step": 350
	},
	{
	"epoch": 0.20310296191819463,
	"grad_norm": 0.49770668244489025,
	"learning_rate": 5e-06,
	"loss": 0.4707,
	"step": 360
	},
	{
	"epoch": 0.20874471086036672,
	"grad_norm": 0.5159796946721876,
	"learning_rate": 5e-06,
	"loss": 0.4626,
	"step": 370
	},
	{
	"epoch": 0.2143864598025388,
	"grad_norm": 0.48687862998047,
	"learning_rate": 5e-06,
	"loss": 0.4605,
	"step": 380
	},
	{
	"epoch": 0.22002820874471085,
	"grad_norm": 0.5040230352920434,
	"learning_rate": 5e-06,
	"loss": 0.4582,
	"step": 390
	},
	{
	"epoch": 0.22566995768688294,
	"grad_norm": 0.4841608785680818,
	"learning_rate": 5e-06,
	"loss": 0.4655,
	"step": 400
	},
	{
	"epoch": 0.231311706629055,
	"grad_norm": 0.49039176099743137,
	"learning_rate": 5e-06,
	"loss": 0.4495,
	"step": 410
	},
	{
	"epoch": 0.23695345557122707,
	"grad_norm": 0.5040217827748269,
	"learning_rate": 5e-06,
	"loss": 0.4529,
	"step": 420
	},
	{
	"epoch": 0.24259520451339917,
	"grad_norm": 0.47120041333093315,
	"learning_rate": 5e-06,
	"loss": 0.4569,
	"step": 430
	},
	{
	"epoch": 0.24823695345557123,
	"grad_norm": 0.4890234120450319,
	"learning_rate": 5e-06,
	"loss": 0.4613,
	"step": 440
	},
	{
	"epoch": 0.2538787023977433,
	"grad_norm": 0.48217359915393404,
	"learning_rate": 5e-06,
	"loss": 0.4472,
	"step": 450
	},
	{
	"epoch": 0.25952045133991536,
	"grad_norm": 0.467804639174959,
	"learning_rate": 5e-06,
	"loss": 0.448,
	"step": 460
	},
	{
	"epoch": 0.2651622002820874,
	"grad_norm": 0.48164716949150344,
	"learning_rate": 5e-06,
	"loss": 0.4502,
	"step": 470
	},
	{
	"epoch": 0.27080394922425954,
	"grad_norm": 0.5145780661011983,
	"learning_rate": 5e-06,
	"loss": 0.4572,
	"step": 480
	},
	{
	"epoch": 0.2764456981664316,
	"grad_norm": 0.5207011942621447,
	"learning_rate": 5e-06,
	"loss": 0.4616,
	"step": 490
	},
	{
	"epoch": 0.2820874471086037,
	"grad_norm": 0.4935510238242219,
	"learning_rate": 5e-06,
	"loss": 0.4659,
	"step": 500
	},
	{
	"epoch": 0.28772919605077574,
	"grad_norm": 0.5079417454565434,
	"learning_rate": 5e-06,
	"loss": 0.4582,
	"step": 510
	},
	{
	"epoch": 0.2933709449929478,
	"grad_norm": 0.5314525886288128,
	"learning_rate": 5e-06,
	"loss": 0.4628,
	"step": 520
	},
	{
	"epoch": 0.29901269393511987,
	"grad_norm": 0.5053611809759164,
	"learning_rate": 5e-06,
	"loss": 0.4478,
	"step": 530
	},
	{
	"epoch": 0.304654442877292,
	"grad_norm": 0.4794058313719111,
	"learning_rate": 5e-06,
	"loss": 0.4451,
	"step": 540
	},
	{
	"epoch": 0.31029619181946405,
	"grad_norm": 0.48888977415025386,
	"learning_rate": 5e-06,
	"loss": 0.4702,
	"step": 550
	},
	{
	"epoch": 0.3159379407616361,
	"grad_norm": 0.4849302874069741,
	"learning_rate": 5e-06,
	"loss": 0.4561,
	"step": 560
	},
	{
	"epoch": 0.3215796897038082,
	"grad_norm": 0.47972377135392075,
	"learning_rate": 5e-06,
	"loss": 0.4457,
	"step": 570
	},
	{
	"epoch": 0.32722143864598024,
	"grad_norm": 0.4869264334442687,
	"learning_rate": 5e-06,
	"loss": 0.4498,
	"step": 580
	},
	{
	"epoch": 0.3328631875881523,
	"grad_norm": 0.5030426273166695,
	"learning_rate": 5e-06,
	"loss": 0.4698,
	"step": 590
	},
	{
	"epoch": 0.3385049365303244,
	"grad_norm": 0.4792385544239688,
	"learning_rate": 5e-06,
	"loss": 0.4524,
	"step": 600
	},
	{
	"epoch": 0.3441466854724965,
	"grad_norm": 0.4757776685745222,
	"learning_rate": 5e-06,
	"loss": 0.4481,
	"step": 610
	},
	{
	"epoch": 0.34978843441466856,
	"grad_norm": 0.5141080166869366,
	"learning_rate": 5e-06,
	"loss": 0.4522,
	"step": 620
	},
	{
	"epoch": 0.3554301833568406,
	"grad_norm": 0.521030094448152,
	"learning_rate": 5e-06,
	"loss": 0.4529,
	"step": 630
	},
	{
	"epoch": 0.3610719322990127,
	"grad_norm": 0.49616684223591123,
	"learning_rate": 5e-06,
	"loss": 0.4585,
	"step": 640
	},
	{
	"epoch": 0.36671368124118475,
	"grad_norm": 0.5224973873990862,
	"learning_rate": 5e-06,
	"loss": 0.4531,
	"step": 650
	},
	{
	"epoch": 0.3723554301833568,
	"grad_norm": 0.46606976454004667,
	"learning_rate": 5e-06,
	"loss": 0.4499,
	"step": 660
	},
	{
	"epoch": 0.37799717912552894,
	"grad_norm": 0.4631578950745994,
	"learning_rate": 5e-06,
	"loss": 0.4591,
	"step": 670
	},
	{
	"epoch": 0.383638928067701,
	"grad_norm": 0.463696350712983,
	"learning_rate": 5e-06,
	"loss": 0.4617,
	"step": 680
	},
	{
	"epoch": 0.38928067700987307,
	"grad_norm": 0.49700726007271695,
	"learning_rate": 5e-06,
	"loss": 0.4419,
	"step": 690
	},
	{
	"epoch": 0.39492242595204513,
	"grad_norm": 0.5047528462302425,
	"learning_rate": 5e-06,
	"loss": 0.4546,
	"step": 700
	},
	{
	"epoch": 0.4005641748942172,
	"grad_norm": 0.4881338305694489,
	"learning_rate": 5e-06,
	"loss": 0.4415,
	"step": 710
	},
	{
	"epoch": 0.40620592383638926,
	"grad_norm": 0.4950088901214604,
	"learning_rate": 5e-06,
	"loss": 0.4467,
	"step": 720
	},
	{
	"epoch": 0.4118476727785614,
	"grad_norm": 0.48800943523969437,
	"learning_rate": 5e-06,
	"loss": 0.4617,
	"step": 730
	},
	{
	"epoch": 0.41748942172073344,
	"grad_norm": 0.4761347013711521,
	"learning_rate": 5e-06,
	"loss": 0.4455,
	"step": 740
	},
	{
	"epoch": 0.4231311706629055,
	"grad_norm": 0.4811571918715123,
	"learning_rate": 5e-06,
	"loss": 0.4752,
	"step": 750
	},
	{
	"epoch": 0.4287729196050776,
	"grad_norm": 0.4785173629798188,
	"learning_rate": 5e-06,
	"loss": 0.4312,
	"step": 760
	},
	{
	"epoch": 0.43441466854724964,
	"grad_norm": 0.499757446583109,
	"learning_rate": 5e-06,
	"loss": 0.4522,
	"step": 770
	},
	{
	"epoch": 0.4400564174894217,
	"grad_norm": 0.5007042680003394,
	"learning_rate": 5e-06,
	"loss": 0.4547,
	"step": 780
	},
	{
	"epoch": 0.44569816643159377,
	"grad_norm": 0.4832215616215704,
	"learning_rate": 5e-06,
	"loss": 0.4328,
	"step": 790
	},
	{
	"epoch": 0.4513399153737659,
	"grad_norm": 0.4556785539804432,
	"learning_rate": 5e-06,
	"loss": 0.4526,
	"step": 800
	},
	{
	"epoch": 0.45698166431593795,
	"grad_norm": 0.4583262040596829,
	"learning_rate": 5e-06,
	"loss": 0.4543,
	"step": 810
	},
	{
	"epoch": 0.46262341325811,
	"grad_norm": 0.47568673401701195,
	"learning_rate": 5e-06,
	"loss": 0.4489,
	"step": 820
	},
	{
	"epoch": 0.4682651622002821,
	"grad_norm": 0.5099408600605224,
	"learning_rate": 5e-06,
	"loss": 0.4635,
	"step": 830
	},
	{
	"epoch": 0.47390691114245415,
	"grad_norm": 0.48286512485005056,
	"learning_rate": 5e-06,
	"loss": 0.4414,
	"step": 840
	},
	{
	"epoch": 0.4795486600846262,
	"grad_norm": 0.4662493732462359,
	"learning_rate": 5e-06,
	"loss": 0.4702,
	"step": 850
	},
	{
	"epoch": 0.48519040902679833,
	"grad_norm": 0.4688957523663092,
	"learning_rate": 5e-06,
	"loss": 0.452,
	"step": 860
	},
	{
	"epoch": 0.4908321579689704,
	"grad_norm": 0.5020197782038716,
	"learning_rate": 5e-06,
	"loss": 0.4401,
	"step": 870
	},
	{
	"epoch": 0.49647390691114246,
	"grad_norm": 0.5293932494261749,
	"learning_rate": 5e-06,
	"loss": 0.4594,
	"step": 880
	},
	{
	"epoch": 0.5021156558533145,
	"grad_norm": 0.5071632389201434,
	"learning_rate": 5e-06,
	"loss": 0.4445,
	"step": 890
	},
	{
	"epoch": 0.5077574047954866,
	"grad_norm": 0.4878558607219793,
	"learning_rate": 5e-06,
	"loss": 0.4419,
	"step": 900
	},
	{
	"epoch": 0.5133991537376587,
	"grad_norm": 0.463852809384172,
	"learning_rate": 5e-06,
	"loss": 0.4476,
	"step": 910
	},
	{
	"epoch": 0.5190409026798307,
	"grad_norm": 0.4552138421616773,
	"learning_rate": 5e-06,
	"loss": 0.4477,
	"step": 920
	},
	{
	"epoch": 0.5246826516220028,
	"grad_norm": 0.4451067953129034,
	"learning_rate": 5e-06,
	"loss": 0.4602,
	"step": 930
	},
	{
	"epoch": 0.5303244005641748,
	"grad_norm": 0.4892614287238877,
	"learning_rate": 5e-06,
	"loss": 0.4463,
	"step": 940
	},
	{
	"epoch": 0.535966149506347,
	"grad_norm": 0.5203275452886463,
	"learning_rate": 5e-06,
	"loss": 0.4481,
	"step": 950
	},
	{
	"epoch": 0.5416078984485191,
	"grad_norm": 0.4993491544629748,
	"learning_rate": 5e-06,
	"loss": 0.4547,
	"step": 960
	},
	{
	"epoch": 0.5472496473906912,
	"grad_norm": 0.4530550836722553,
	"learning_rate": 5e-06,
	"loss": 0.4342,
	"step": 970
	},
	{
	"epoch": 0.5528913963328632,
	"grad_norm": 0.47205399956664723,
	"learning_rate": 5e-06,
	"loss": 0.4391,
	"step": 980
	},
	{
	"epoch": 0.5585331452750353,
	"grad_norm": 0.5288042301017725,
	"learning_rate": 5e-06,
	"loss": 0.4477,
	"step": 990
	},
	{
	"epoch": 0.5641748942172073,
	"grad_norm": 0.5024574538810612,
	"learning_rate": 5e-06,
	"loss": 0.4644,
	"step": 1000
	},
	{
	"epoch": 0.5698166431593794,
	"grad_norm": 0.46444873871572295,
	"learning_rate": 5e-06,
	"loss": 0.442,
	"step": 1010
	},
	{
	"epoch": 0.5754583921015515,
	"grad_norm": 0.48362451913417076,
	"learning_rate": 5e-06,
	"loss": 0.4363,
	"step": 1020
	},
	{
	"epoch": 0.5811001410437235,
	"grad_norm": 0.48683768680972256,
	"learning_rate": 5e-06,
	"loss": 0.4523,
	"step": 1030
	},
	{
	"epoch": 0.5867418899858956,
	"grad_norm": 0.4753500530255471,
	"learning_rate": 5e-06,
	"loss": 0.4452,
	"step": 1040
	},
	{
	"epoch": 0.5923836389280677,
	"grad_norm": 0.494982125586109,
	"learning_rate": 5e-06,
	"loss": 0.4504,
	"step": 1050
	},
	{
	"epoch": 0.5980253878702397,
	"grad_norm": 0.4658594939623635,
	"learning_rate": 5e-06,
	"loss": 0.4414,
	"step": 1060
	},
	{
	"epoch": 0.6036671368124118,
	"grad_norm": 0.4576854005593855,
	"learning_rate": 5e-06,
	"loss": 0.4336,
	"step": 1070
	},
	{
	"epoch": 0.609308885754584,
	"grad_norm": 0.47667736492718527,
	"learning_rate": 5e-06,
	"loss": 0.4446,
	"step": 1080
	},
	{
	"epoch": 0.614950634696756,
	"grad_norm": 0.49049704641298675,
	"learning_rate": 5e-06,
	"loss": 0.452,
	"step": 1090
	},
	{
	"epoch": 0.6205923836389281,
	"grad_norm": 0.47137093184915657,
	"learning_rate": 5e-06,
	"loss": 0.4756,
	"step": 1100
	},
	{
	"epoch": 0.6262341325811002,
	"grad_norm": 0.48219417585137514,
	"learning_rate": 5e-06,
	"loss": 0.4427,
	"step": 1110
	},
	{
	"epoch": 0.6318758815232722,
	"grad_norm": 0.453987324341643,
	"learning_rate": 5e-06,
	"loss": 0.4323,
	"step": 1120
	},
	{
	"epoch": 0.6375176304654443,
	"grad_norm": 0.5092221096631693,
	"learning_rate": 5e-06,
	"loss": 0.4488,
	"step": 1130
	},
	{
	"epoch": 0.6431593794076164,
	"grad_norm": 0.5005212580369779,
	"learning_rate": 5e-06,
	"loss": 0.4611,
	"step": 1140
	},
	{
	"epoch": 0.6488011283497884,
	"grad_norm": 0.5259263069942747,
	"learning_rate": 5e-06,
	"loss": 0.4438,
	"step": 1150
	},
	{
	"epoch": 0.6544428772919605,
	"grad_norm": 0.4915487101147822,
	"learning_rate": 5e-06,
	"loss": 0.4452,
	"step": 1160
	},
	{
	"epoch": 0.6600846262341326,
	"grad_norm": 0.4636364534332318,
	"learning_rate": 5e-06,
	"loss": 0.4397,
	"step": 1170
	},
	{
	"epoch": 0.6657263751763046,
	"grad_norm": 0.4698556111548417,
	"learning_rate": 5e-06,
	"loss": 0.4417,
	"step": 1180
	},
	{
	"epoch": 0.6713681241184767,
	"grad_norm": 0.5329347792411113,
	"learning_rate": 5e-06,
	"loss": 0.4539,
	"step": 1190
	},
	{
	"epoch": 0.6770098730606487,
	"grad_norm": 0.5126424852624655,
	"learning_rate": 5e-06,
	"loss": 0.4429,
	"step": 1200
	},
	{
	"epoch": 0.6826516220028209,
	"grad_norm": 0.4600428689947934,
	"learning_rate": 5e-06,
	"loss": 0.4481,
	"step": 1210
	},
	{
	"epoch": 0.688293370944993,
	"grad_norm": 0.4918232014874478,
	"learning_rate": 5e-06,
	"loss": 0.44,
	"step": 1220
	},
	{
	"epoch": 0.693935119887165,
	"grad_norm": 0.5091072490058565,
	"learning_rate": 5e-06,
	"loss": 0.443,
	"step": 1230
	},
	{
	"epoch": 0.6995768688293371,
	"grad_norm": 0.5086478162333048,
	"learning_rate": 5e-06,
	"loss": 0.4439,
	"step": 1240
	},
	{
	"epoch": 0.7052186177715092,
	"grad_norm": 0.47954449181032316,
	"learning_rate": 5e-06,
	"loss": 0.4252,
	"step": 1250
	},
	{
	"epoch": 0.7108603667136812,
	"grad_norm": 0.46596459050514427,
	"learning_rate": 5e-06,
	"loss": 0.4482,
	"step": 1260
	},
	{
	"epoch": 0.7165021156558533,
	"grad_norm": 0.46248125242410526,
	"learning_rate": 5e-06,
	"loss": 0.4402,
	"step": 1270
	},
	{
	"epoch": 0.7221438645980254,
	"grad_norm": 0.49235084627255177,
	"learning_rate": 5e-06,
	"loss": 0.4368,
	"step": 1280
	},
	{
	"epoch": 0.7277856135401974,
	"grad_norm": 0.4864015478165713,
	"learning_rate": 5e-06,
	"loss": 0.4577,
	"step": 1290
	},
	{
	"epoch": 0.7334273624823695,
	"grad_norm": 0.5066841927831519,
	"learning_rate": 5e-06,
	"loss": 0.4527,
	"step": 1300
	},
	{
	"epoch": 0.7390691114245416,
	"grad_norm": 0.4767296270599191,
	"learning_rate": 5e-06,
	"loss": 0.4421,
	"step": 1310
	},
	{
	"epoch": 0.7447108603667136,
	"grad_norm": 0.4770443766109164,
	"learning_rate": 5e-06,
	"loss": 0.4548,
	"step": 1320
	},
	{
	"epoch": 0.7503526093088858,
	"grad_norm": 0.4792819993673282,
	"learning_rate": 5e-06,
	"loss": 0.4349,
	"step": 1330
	},
	{
	"epoch": 0.7559943582510579,
	"grad_norm": 0.48987632661924885,
	"learning_rate": 5e-06,
	"loss": 0.4378,
	"step": 1340
	},
	{
	"epoch": 0.7616361071932299,
	"grad_norm": 0.4896409271912306,
	"learning_rate": 5e-06,
	"loss": 0.4408,
	"step": 1350
	},
	{
	"epoch": 0.767277856135402,
	"grad_norm": 0.5370347277468178,
	"learning_rate": 5e-06,
	"loss": 0.4456,
	"step": 1360
	},
	{
	"epoch": 0.7729196050775741,
	"grad_norm": 0.5032968949454037,
	"learning_rate": 5e-06,
	"loss": 0.4473,
	"step": 1370
	},
	{
	"epoch": 0.7785613540197461,
	"grad_norm": 0.48685319139056404,
	"learning_rate": 5e-06,
	"loss": 0.4434,
	"step": 1380
	},
	{
	"epoch": 0.7842031029619182,
	"grad_norm": 0.49748304716726394,
	"learning_rate": 5e-06,
	"loss": 0.4296,
	"step": 1390
	},
	{
	"epoch": 0.7898448519040903,
	"grad_norm": 0.48733408476356,
	"learning_rate": 5e-06,
	"loss": 0.4447,
	"step": 1400
	},
	{
	"epoch": 0.7954866008462623,
	"grad_norm": 0.5053450525255075,
	"learning_rate": 5e-06,
	"loss": 0.437,
	"step": 1410
	},
	{
	"epoch": 0.8011283497884344,
	"grad_norm": 0.5051373461963963,
	"learning_rate": 5e-06,
	"loss": 0.4517,
	"step": 1420
	},
	{
	"epoch": 0.8067700987306065,
	"grad_norm": 0.5031702066693102,
	"learning_rate": 5e-06,
	"loss": 0.4458,
	"step": 1430
	},
	{
	"epoch": 0.8124118476727785,
	"grad_norm": 0.5185876273657516,
	"learning_rate": 5e-06,
	"loss": 0.4542,
	"step": 1440
	},
	{
	"epoch": 0.8180535966149506,
	"grad_norm": 0.49124261927260193,
	"learning_rate": 5e-06,
	"loss": 0.4405,
	"step": 1450
	},
	{
	"epoch": 0.8236953455571228,
	"grad_norm": 0.49751086570325753,
	"learning_rate": 5e-06,
	"loss": 0.4357,
	"step": 1460
	},
	{
	"epoch": 0.8293370944992948,
	"grad_norm": 0.4707406079652606,
	"learning_rate": 5e-06,
	"loss": 0.4404,
	"step": 1470
	},
	{
	"epoch": 0.8349788434414669,
	"grad_norm": 0.4611322469678821,
	"learning_rate": 5e-06,
	"loss": 0.4291,
	"step": 1480
	},
	{
	"epoch": 0.840620592383639,
	"grad_norm": 0.46796161325249325,
	"learning_rate": 5e-06,
	"loss": 0.4446,
	"step": 1490
	},
	{
	"epoch": 0.846262341325811,
	"grad_norm": 0.5039127016141375,
	"learning_rate": 5e-06,
	"loss": 0.442,
	"step": 1500
	},
	{
	"epoch": 0.8519040902679831,
	"grad_norm": 0.4882929849367327,
	"learning_rate": 5e-06,
	"loss": 0.4427,
	"step": 1510
	},
	{
	"epoch": 0.8575458392101551,
	"grad_norm": 0.46485028595629135,
	"learning_rate": 5e-06,
	"loss": 0.4493,
	"step": 1520
	},
	{
	"epoch": 0.8631875881523272,
	"grad_norm": 0.5261718908487378,
	"learning_rate": 5e-06,
	"loss": 0.4425,
	"step": 1530
	},
	{
	"epoch": 0.8688293370944993,
	"grad_norm": 0.5030638236696873,
	"learning_rate": 5e-06,
	"loss": 0.453,
	"step": 1540
	},
	{
	"epoch": 0.8744710860366713,
	"grad_norm": 0.47397319099408175,
	"learning_rate": 5e-06,
	"loss": 0.4667,
	"step": 1550
	},
	{
	"epoch": 0.8801128349788434,
	"grad_norm": 0.45947257613776293,
	"learning_rate": 5e-06,
	"loss": 0.4408,
	"step": 1560
	},
	{
	"epoch": 0.8857545839210155,
	"grad_norm": 0.4886106451240436,
	"learning_rate": 5e-06,
	"loss": 0.4323,
	"step": 1570
	},
	{
	"epoch": 0.8913963328631875,
	"grad_norm": 0.46842609789012146,
	"learning_rate": 5e-06,
	"loss": 0.4385,
	"step": 1580
	},
	{
	"epoch": 0.8970380818053597,
	"grad_norm": 0.49975332721542237,
	"learning_rate": 5e-06,
	"loss": 0.4398,
	"step": 1590
	},
	{
	"epoch": 0.9026798307475318,
	"grad_norm": 0.48527328135804326,
	"learning_rate": 5e-06,
	"loss": 0.4484,
	"step": 1600
	},
	{
	"epoch": 0.9083215796897038,
	"grad_norm": 0.49172287584389185,
	"learning_rate": 5e-06,
	"loss": 0.4463,
	"step": 1610
	},
	{
	"epoch": 0.9139633286318759,
	"grad_norm": 0.508732362088126,
	"learning_rate": 5e-06,
	"loss": 0.4395,
	"step": 1620
	},
	{
	"epoch": 0.919605077574048,
	"grad_norm": 0.47225307145651074,
	"learning_rate": 5e-06,
	"loss": 0.4548,
	"step": 1630
	},
	{
	"epoch": 0.92524682651622,
	"grad_norm": 0.46028374293695373,
	"learning_rate": 5e-06,
	"loss": 0.4402,
	"step": 1640
	},
	{
	"epoch": 0.9308885754583921,
	"grad_norm": 0.4887795142703319,
	"learning_rate": 5e-06,
	"loss": 0.4524,
	"step": 1650
	},
	{
	"epoch": 0.9365303244005642,
	"grad_norm": 0.48414776958913036,
	"learning_rate": 5e-06,
	"loss": 0.4388,
	"step": 1660
	},
	{
	"epoch": 0.9421720733427362,
	"grad_norm": 0.47408507089480434,
	"learning_rate": 5e-06,
	"loss": 0.4373,
	"step": 1670
	},
	{
	"epoch": 0.9478138222849083,
	"grad_norm": 0.4755919436355295,
	"learning_rate": 5e-06,
	"loss": 0.4521,
	"step": 1680
	},
	{
	"epoch": 0.9534555712270804,
	"grad_norm": 0.48600199903202446,
	"learning_rate": 5e-06,
	"loss": 0.4387,
	"step": 1690
	},
	{
	"epoch": 0.9590973201692524,
	"grad_norm": 0.4826408864245463,
	"learning_rate": 5e-06,
	"loss": 0.4474,
	"step": 1700
	},
	{
	"epoch": 0.9647390691114246,
	"grad_norm": 0.5360459005214712,
	"learning_rate": 5e-06,
	"loss": 0.4402,
	"step": 1710
	},
	{
	"epoch": 0.9703808180535967,
	"grad_norm": 0.5267429044967258,
	"learning_rate": 5e-06,
	"loss": 0.448,
	"step": 1720
	},
	{
	"epoch": 0.9760225669957687,
	"grad_norm": 0.487975885463895,
	"learning_rate": 5e-06,
	"loss": 0.4527,
	"step": 1730
	},
	{
	"epoch": 0.9816643159379408,
	"grad_norm": 0.4656913505732415,
	"learning_rate": 5e-06,
	"loss": 0.4458,
	"step": 1740
	},
	{
	"epoch": 0.9873060648801129,
	"grad_norm": 0.48356320486134374,
	"learning_rate": 5e-06,
	"loss": 0.4565,
	"step": 1750
	},
	{
	"epoch": 0.9929478138222849,
	"grad_norm": 0.5106136347337831,
	"learning_rate": 5e-06,
	"loss": 0.4481,
	"step": 1760
	},
	{
	"epoch": 0.998589562764457,
	"grad_norm": 0.481310325218027,
	"learning_rate": 5e-06,
	"loss": 0.4318,
	"step": 1770
	},
	{
	"epoch": 0.9997179125528914,
	"eval_loss": 0.4379998743534088,
	"eval_runtime": 445.9549,
	"eval_samples_per_second": 26.77,
	"eval_steps_per_second": 0.419,
	"step": 1772
	},
	{
	"epoch": 1.004231311706629,
	"grad_norm": 0.5560347360599398,
	"learning_rate": 5e-06,
	"loss": 0.4228,
	"step": 1780
	},
	{
	"epoch": 1.0098730606488011,
	"grad_norm": 0.43343321808918617,
	"learning_rate": 5e-06,
	"loss": 0.3888,
	"step": 1790
	},
	{
	"epoch": 1.0155148095909732,
	"grad_norm": 0.49193958815688976,
	"learning_rate": 5e-06,
	"loss": 0.4081,
	"step": 1800
	},
	{
	"epoch": 1.0211565585331452,
	"grad_norm": 0.44261196562739774,
	"learning_rate": 5e-06,
	"loss": 0.4083,
	"step": 1810
	},
	{
	"epoch": 1.0267983074753173,
	"grad_norm": 0.48715391428811605,
	"learning_rate": 5e-06,
	"loss": 0.403,
	"step": 1820
	},
	{
	"epoch": 1.0324400564174894,
	"grad_norm": 0.45617321287848667,
	"learning_rate": 5e-06,
	"loss": 0.3984,
	"step": 1830
	},
	{
	"epoch": 1.0380818053596614,
	"grad_norm": 0.46951380049994146,
	"learning_rate": 5e-06,
	"loss": 0.3908,
	"step": 1840
	},
	{
	"epoch": 1.0437235543018335,
	"grad_norm": 0.4606776177243496,
	"learning_rate": 5e-06,
	"loss": 0.3944,
	"step": 1850
	},
	{
	"epoch": 1.0493653032440056,
	"grad_norm": 0.46717676409843034,
	"learning_rate": 5e-06,
	"loss": 0.3888,
	"step": 1860
	},
	{
	"epoch": 1.0550070521861776,
	"grad_norm": 0.4602516664423018,
	"learning_rate": 5e-06,
	"loss": 0.3936,
	"step": 1870
	},
	{
	"epoch": 1.0606488011283497,
	"grad_norm": 0.42788829282622504,
	"learning_rate": 5e-06,
	"loss": 0.3881,
	"step": 1880
	},
	{
	"epoch": 1.0662905500705218,
	"grad_norm": 0.45508688226916866,
	"learning_rate": 5e-06,
	"loss": 0.3997,
	"step": 1890
	},
	{
	"epoch": 1.071932299012694,
	"grad_norm": 0.45167507963707426,
	"learning_rate": 5e-06,
	"loss": 0.3945,
	"step": 1900
	},
	{
	"epoch": 1.077574047954866,
	"grad_norm": 0.4638857492654454,
	"learning_rate": 5e-06,
	"loss": 0.393,
	"step": 1910
	},
	{
	"epoch": 1.0832157968970382,
	"grad_norm": 0.4565491666336401,
	"learning_rate": 5e-06,
	"loss": 0.3905,
	"step": 1920
	},
	{
	"epoch": 1.0888575458392102,
	"grad_norm": 0.4468567209212458,
	"learning_rate": 5e-06,
	"loss": 0.3945,
	"step": 1930
	},
	{
	"epoch": 1.0944992947813823,
	"grad_norm": 0.4451125923550269,
	"learning_rate": 5e-06,
	"loss": 0.3888,
	"step": 1940
	},
	{
	"epoch": 1.1001410437235544,
	"grad_norm": 0.4700452714699321,
	"learning_rate": 5e-06,
	"loss": 0.3889,
	"step": 1950
	},
	{
	"epoch": 1.1057827926657264,
	"grad_norm": 0.4650898761163617,
	"learning_rate": 5e-06,
	"loss": 0.3883,
	"step": 1960
	},
	{
	"epoch": 1.1114245416078985,
	"grad_norm": 0.4707832390036078,
	"learning_rate": 5e-06,
	"loss": 0.4015,
	"step": 1970
	},
	{
	"epoch": 1.1170662905500706,
	"grad_norm": 0.4743179184075093,
	"learning_rate": 5e-06,
	"loss": 0.391,
	"step": 1980
	},
	{
	"epoch": 1.1227080394922426,
	"grad_norm": 0.4823902906366835,
	"learning_rate": 5e-06,
	"loss": 0.3933,
	"step": 1990
	},
	{
	"epoch": 1.1283497884344147,
	"grad_norm": 0.4929422166855442,
	"learning_rate": 5e-06,
	"loss": 0.4033,
	"step": 2000
	},
	{
	"epoch": 1.1339915373765868,
	"grad_norm": 0.46931415950586963,
	"learning_rate": 5e-06,
	"loss": 0.3962,
	"step": 2010
	},
	{
	"epoch": 1.1396332863187588,
	"grad_norm": 0.4716793144119691,
	"learning_rate": 5e-06,
	"loss": 0.3843,
	"step": 2020
	},
	{
	"epoch": 1.1452750352609309,
	"grad_norm": 0.46214625180030394,
	"learning_rate": 5e-06,
	"loss": 0.3896,
	"step": 2030
	},
	{
	"epoch": 1.150916784203103,
	"grad_norm": 0.4478869441665965,
	"learning_rate": 5e-06,
	"loss": 0.3903,
	"step": 2040
	},
	{
	"epoch": 1.156558533145275,
	"grad_norm": 0.47404105806443103,
	"learning_rate": 5e-06,
	"loss": 0.3923,
	"step": 2050
	},
	{
	"epoch": 1.162200282087447,
	"grad_norm": 0.4815826404229114,
	"learning_rate": 5e-06,
	"loss": 0.4137,
	"step": 2060
	},
	{
	"epoch": 1.1678420310296191,
	"grad_norm": 0.47653645240601855,
	"learning_rate": 5e-06,
	"loss": 0.3952,
	"step": 2070
	},
	{
	"epoch": 1.1734837799717912,
	"grad_norm": 0.49644988829819037,
	"learning_rate": 5e-06,
	"loss": 0.3981,
	"step": 2080
	},
	{
	"epoch": 1.1791255289139633,
	"grad_norm": 0.46657331353149667,
	"learning_rate": 5e-06,
	"loss": 0.397,
	"step": 2090
	},
	{
	"epoch": 1.1847672778561353,
	"grad_norm": 0.4713649930891489,
	"learning_rate": 5e-06,
	"loss": 0.3987,
	"step": 2100
	},
	{
	"epoch": 1.1904090267983074,
	"grad_norm": 0.4988957090347967,
	"learning_rate": 5e-06,
	"loss": 0.3913,
	"step": 2110
	},
	{
	"epoch": 1.1960507757404795,
	"grad_norm": 0.4644112960714002,
	"learning_rate": 5e-06,
	"loss": 0.4001,
	"step": 2120
	},
	{
	"epoch": 1.2016925246826515,
	"grad_norm": 0.4707333720355816,
	"learning_rate": 5e-06,
	"loss": 0.3968,
	"step": 2130
	},
	{
	"epoch": 1.2073342736248236,
	"grad_norm": 0.47608463008729884,
	"learning_rate": 5e-06,
	"loss": 0.4022,
	"step": 2140
	},
	{
	"epoch": 1.2129760225669957,
	"grad_norm": 0.45996551421943505,
	"learning_rate": 5e-06,
	"loss": 0.4083,
	"step": 2150
	},
	{
	"epoch": 1.2186177715091677,
	"grad_norm": 0.45343813144247014,
	"learning_rate": 5e-06,
	"loss": 0.379,
	"step": 2160
	},
	{
	"epoch": 1.22425952045134,
	"grad_norm": 0.44526573844484096,
	"learning_rate": 5e-06,
	"loss": 0.397,
	"step": 2170
	},
	{
	"epoch": 1.229901269393512,
	"grad_norm": 0.48779112035480804,
	"learning_rate": 5e-06,
	"loss": 0.3988,
	"step": 2180
	},
	{
	"epoch": 1.2355430183356841,
	"grad_norm": 0.4487329859304139,
	"learning_rate": 5e-06,
	"loss": 0.3802,
	"step": 2190
	},
	{
	"epoch": 1.2411847672778562,
	"grad_norm": 0.47886286342692885,
	"learning_rate": 5e-06,
	"loss": 0.3966,
	"step": 2200
	},
	{
	"epoch": 1.2468265162200283,
	"grad_norm": 0.45776874778870136,
	"learning_rate": 5e-06,
	"loss": 0.3955,
	"step": 2210
	},
	{
	"epoch": 1.2524682651622003,
	"grad_norm": 0.47257007534396295,
	"learning_rate": 5e-06,
	"loss": 0.3888,
	"step": 2220
	},
	{
	"epoch": 1.2581100141043724,
	"grad_norm": 0.46751284003891047,
	"learning_rate": 5e-06,
	"loss": 0.3969,
	"step": 2230
	},
	{
	"epoch": 1.2637517630465445,
	"grad_norm": 0.4661158831574023,
	"learning_rate": 5e-06,
	"loss": 0.4088,
	"step": 2240
	},
	{
	"epoch": 1.2693935119887165,
	"grad_norm": 0.4394915987852524,
	"learning_rate": 5e-06,
	"loss": 0.3935,
	"step": 2250
	},
	{
	"epoch": 1.2750352609308886,
	"grad_norm": 0.45334151132727485,
	"learning_rate": 5e-06,
	"loss": 0.3944,
	"step": 2260
	},
	{
	"epoch": 1.2806770098730607,
	"grad_norm": 0.5078200971616262,
	"learning_rate": 5e-06,
	"loss": 0.3905,
	"step": 2270
	},
	{
	"epoch": 1.2863187588152327,
	"grad_norm": 0.4713106460600115,
	"learning_rate": 5e-06,
	"loss": 0.3955,
	"step": 2280
	},
	{
	"epoch": 1.2919605077574048,
	"grad_norm": 0.4635282807772546,
	"learning_rate": 5e-06,
	"loss": 0.4013,
	"step": 2290
	},
	{
	"epoch": 1.2976022566995769,
	"grad_norm": 0.48334074568481694,
	"learning_rate": 5e-06,
	"loss": 0.4005,
	"step": 2300
	},
	{
	"epoch": 1.303244005641749,
	"grad_norm": 0.48456675280641903,
	"learning_rate": 5e-06,
	"loss": 0.3933,
	"step": 2310
	},
	{
	"epoch": 1.308885754583921,
	"grad_norm": 0.46200542060106936,
	"learning_rate": 5e-06,
	"loss": 0.3835,
	"step": 2320
	},
	{
	"epoch": 1.314527503526093,
	"grad_norm": 0.4815654441432598,
	"learning_rate": 5e-06,
	"loss": 0.4045,
	"step": 2330
	},
	{
	"epoch": 1.320169252468265,
	"grad_norm": 0.48826822709991896,
	"learning_rate": 5e-06,
	"loss": 0.4009,
	"step": 2340
	},
	{
	"epoch": 1.3258110014104372,
	"grad_norm": 0.4716440781629598,
	"learning_rate": 5e-06,
	"loss": 0.3938,
	"step": 2350
	},
	{
	"epoch": 1.3314527503526092,
	"grad_norm": 0.4602369354038975,
	"learning_rate": 5e-06,
	"loss": 0.3928,
	"step": 2360
	},
	{
	"epoch": 1.3370944992947813,
	"grad_norm": 0.49648382398328583,
	"learning_rate": 5e-06,
	"loss": 0.4033,
	"step": 2370
	},
	{
	"epoch": 1.3427362482369536,
	"grad_norm": 0.46739455409641245,
	"learning_rate": 5e-06,
	"loss": 0.3972,
	"step": 2380
	},
	{
	"epoch": 1.3483779971791257,
	"grad_norm": 0.443323801929617,
	"learning_rate": 5e-06,
	"loss": 0.3968,
	"step": 2390
	},
	{
	"epoch": 1.3540197461212977,
	"grad_norm": 0.4539331304987661,
	"learning_rate": 5e-06,
	"loss": 0.3924,
	"step": 2400
	},
	{
	"epoch": 1.3596614950634698,
	"grad_norm": 0.47781406684365874,
	"learning_rate": 5e-06,
	"loss": 0.4117,
	"step": 2410
	},
	{
	"epoch": 1.3653032440056418,
	"grad_norm": 0.45421508901943547,
	"learning_rate": 5e-06,
	"loss": 0.39,
	"step": 2420
	},
	{
	"epoch": 1.370944992947814,
	"grad_norm": 0.4630026357905712,
	"learning_rate": 5e-06,
	"loss": 0.4,
	"step": 2430
	},
	{
	"epoch": 1.376586741889986,
	"grad_norm": 0.4523702465470941,
	"learning_rate": 5e-06,
	"loss": 0.4077,
	"step": 2440
	},
	{
	"epoch": 1.382228490832158,
	"grad_norm": 0.45782219911496075,
	"learning_rate": 5e-06,
	"loss": 0.3959,
	"step": 2450
	},
	{
	"epoch": 1.38787023977433,
	"grad_norm": 0.5117871130526895,
	"learning_rate": 5e-06,
	"loss": 0.4016,
	"step": 2460
	},
	{
	"epoch": 1.3935119887165022,
	"grad_norm": 0.5315155467795695,
	"learning_rate": 5e-06,
	"loss": 0.3973,
	"step": 2470
	},
	{
	"epoch": 1.3991537376586742,
	"grad_norm": 0.46939820177172814,
	"learning_rate": 5e-06,
	"loss": 0.3942,
	"step": 2480
	},
	{
	"epoch": 1.4047954866008463,
	"grad_norm": 0.4543328677593474,
	"learning_rate": 5e-06,
	"loss": 0.3998,
	"step": 2490
	},
	{
	"epoch": 1.4104372355430184,
	"grad_norm": 0.4496789872069011,
	"learning_rate": 5e-06,
	"loss": 0.3963,
	"step": 2500
	},
	{
	"epoch": 1.4160789844851904,
	"grad_norm": 0.471782994083793,
	"learning_rate": 5e-06,
	"loss": 0.3885,
	"step": 2510
	},
	{
	"epoch": 1.4217207334273625,
	"grad_norm": 0.4693960167487946,
	"learning_rate": 5e-06,
	"loss": 0.3917,
	"step": 2520
	},
	{
	"epoch": 1.4273624823695346,
	"grad_norm": 0.4538271312417869,
	"learning_rate": 5e-06,
	"loss": 0.3967,
	"step": 2530
	},
	{
	"epoch": 1.4330042313117066,
	"grad_norm": 0.44186919531244484,
	"learning_rate": 5e-06,
	"loss": 0.395,
	"step": 2540
	},
	{
	"epoch": 1.4386459802538787,
	"grad_norm": 0.4687203668363411,
	"learning_rate": 5e-06,
	"loss": 0.3981,
	"step": 2550
	},
	{
	"epoch": 1.4442877291960508,
	"grad_norm": 0.4587106074858165,
	"learning_rate": 5e-06,
	"loss": 0.3925,
	"step": 2560
	},
	{
	"epoch": 1.4499294781382228,
	"grad_norm": 0.4572379861998615,
	"learning_rate": 5e-06,
	"loss": 0.4025,
	"step": 2570
	},
	{
	"epoch": 1.4555712270803949,
	"grad_norm": 0.4718970269023812,
	"learning_rate": 5e-06,
	"loss": 0.3943,
	"step": 2580
	},
	{
	"epoch": 1.461212976022567,
	"grad_norm": 0.5041632079079171,
	"learning_rate": 5e-06,
	"loss": 0.4082,
	"step": 2590
	},
	{
	"epoch": 1.466854724964739,
	"grad_norm": 0.4499939474661196,
	"learning_rate": 5e-06,
	"loss": 0.4006,
	"step": 2600
	},
	{
	"epoch": 1.472496473906911,
	"grad_norm": 0.44298819801342293,
	"learning_rate": 5e-06,
	"loss": 0.4043,
	"step": 2610
	},
	{
	"epoch": 1.4781382228490831,
	"grad_norm": 0.4779382761973526,
	"learning_rate": 5e-06,
	"loss": 0.4056,
	"step": 2620
	},
	{
	"epoch": 1.4837799717912552,
	"grad_norm": 0.47692712159702133,
	"learning_rate": 5e-06,
	"loss": 0.3907,
	"step": 2630
	},
	{
	"epoch": 1.4894217207334273,
	"grad_norm": 0.46307783252557594,
	"learning_rate": 5e-06,
	"loss": 0.3959,
	"step": 2640
	},
	{
	"epoch": 1.4950634696755993,
	"grad_norm": 0.4606066509600136,
	"learning_rate": 5e-06,
	"loss": 0.3934,
	"step": 2650
	},
	{
	"epoch": 1.5007052186177714,
	"grad_norm": 0.47324134946913055,
	"learning_rate": 5e-06,
	"loss": 0.4035,
	"step": 2660
	},
	{
	"epoch": 1.5063469675599435,
	"grad_norm": 0.46378369582677753,
	"learning_rate": 5e-06,
	"loss": 0.3993,
	"step": 2670
	},
	{
	"epoch": 1.5119887165021155,
	"grad_norm": 0.446704021535711,
	"learning_rate": 5e-06,
	"loss": 0.3918,
	"step": 2680
	},
	{
	"epoch": 1.5176304654442876,
	"grad_norm": 0.4914697095674317,
	"learning_rate": 5e-06,
	"loss": 0.3909,
	"step": 2690
	},
	{
	"epoch": 1.5232722143864597,
	"grad_norm": 0.45218861250501363,
	"learning_rate": 5e-06,
	"loss": 0.3891,
	"step": 2700
	},
	{
	"epoch": 1.5289139633286317,
	"grad_norm": 0.47296389203246264,
	"learning_rate": 5e-06,
	"loss": 0.4063,
	"step": 2710
	},
	{
	"epoch": 1.5345557122708038,
	"grad_norm": 0.4565578982324502,
	"learning_rate": 5e-06,
	"loss": 0.4004,
	"step": 2720
	},
	{
	"epoch": 1.540197461212976,
	"grad_norm": 0.4682402541291805,
	"learning_rate": 5e-06,
	"loss": 0.3926,
	"step": 2730
	},
	{
	"epoch": 1.5458392101551481,
	"grad_norm": 0.461279370651597,
	"learning_rate": 5e-06,
	"loss": 0.3896,
	"step": 2740
	},
	{
	"epoch": 1.5514809590973202,
	"grad_norm": 0.48043898076393116,
	"learning_rate": 5e-06,
	"loss": 0.3999,
	"step": 2750
	},
	{
	"epoch": 1.5571227080394923,
	"grad_norm": 0.4940569464772548,
	"learning_rate": 5e-06,
	"loss": 0.4077,
	"step": 2760
	},
	{
	"epoch": 1.5627644569816643,
	"grad_norm": 0.507591402814353,
	"learning_rate": 5e-06,
	"loss": 0.4009,
	"step": 2770
	},
	{
	"epoch": 1.5684062059238364,
	"grad_norm": 0.4706877768766689,
	"learning_rate": 5e-06,
	"loss": 0.3924,
	"step": 2780
	},
	{
	"epoch": 1.5740479548660085,
	"grad_norm": 0.47676776366340334,
	"learning_rate": 5e-06,
	"loss": 0.3877,
	"step": 2790
	},
	{
	"epoch": 1.5796897038081805,
	"grad_norm": 0.5182129400923178,
	"learning_rate": 5e-06,
	"loss": 0.4036,
	"step": 2800
	},
	{
	"epoch": 1.5853314527503526,
	"grad_norm": 0.48116837090131204,
	"learning_rate": 5e-06,
	"loss": 0.3975,
	"step": 2810
	},
	{
	"epoch": 1.5909732016925247,
	"grad_norm": 0.4275386122917158,
	"learning_rate": 5e-06,
	"loss": 0.3918,
	"step": 2820
	},
	{
	"epoch": 1.5966149506346967,
	"grad_norm": 0.4558363289192502,
	"learning_rate": 5e-06,
	"loss": 0.3882,
	"step": 2830
	},
	{
	"epoch": 1.6022566995768688,
	"grad_norm": 0.46362140028375165,
	"learning_rate": 5e-06,
	"loss": 0.3986,
	"step": 2840
	},
	{
	"epoch": 1.607898448519041,
	"grad_norm": 0.46282031581127986,
	"learning_rate": 5e-06,
	"loss": 0.4039,
	"step": 2850
	},
	{
	"epoch": 1.6135401974612131,
	"grad_norm": 0.46441758640717906,
	"learning_rate": 5e-06,
	"loss": 0.4025,
	"step": 2860
	},
	{
	"epoch": 1.6191819464033852,
	"grad_norm": 0.46074665854229274,
	"learning_rate": 5e-06,
	"loss": 0.3905,
	"step": 2870
	},
	{
	"epoch": 1.6248236953455573,
	"grad_norm": 0.4777266277891572,
	"learning_rate": 5e-06,
	"loss": 0.4042,
	"step": 2880
	},
	{
	"epoch": 1.6304654442877293,
	"grad_norm": 0.45553733285190573,
	"learning_rate": 5e-06,
	"loss": 0.3962,
	"step": 2890
	},
	{
	"epoch": 1.6361071932299014,
	"grad_norm": 0.47178767330297033,
	"learning_rate": 5e-06,
	"loss": 0.3892,
	"step": 2900
	},
	{
	"epoch": 1.6417489421720735,
	"grad_norm": 0.47359171054395643,
	"learning_rate": 5e-06,
	"loss": 0.3881,
	"step": 2910
	},
	{
	"epoch": 1.6473906911142455,
	"grad_norm": 0.46603715950910696,
	"learning_rate": 5e-06,
	"loss": 0.394,
	"step": 2920
	},
	{
	"epoch": 1.6530324400564176,
	"grad_norm": 0.4558346803274527,
	"learning_rate": 5e-06,
	"loss": 0.3972,
	"step": 2930
	},
	{
	"epoch": 1.6586741889985896,
	"grad_norm": 0.479027856317277,
	"learning_rate": 5e-06,
	"loss": 0.394,
	"step": 2940
	},
	{
	"epoch": 1.6643159379407617,
	"grad_norm": 0.4643135506673433,
	"learning_rate": 5e-06,
	"loss": 0.3862,
	"step": 2950
	},
	{
	"epoch": 1.6699576868829338,
	"grad_norm": 0.4619833964547844,
	"learning_rate": 5e-06,
	"loss": 0.4016,
	"step": 2960
	},
	{
	"epoch": 1.6755994358251058,
	"grad_norm": 0.44851503998801856,
	"learning_rate": 5e-06,
	"loss": 0.4095,
	"step": 2970
	},
	{
	"epoch": 1.681241184767278,
	"grad_norm": 0.4467522582124666,
	"learning_rate": 5e-06,
	"loss": 0.3999,
	"step": 2980
	},
	{
	"epoch": 1.68688293370945,
	"grad_norm": 0.472063710369713,
	"learning_rate": 5e-06,
	"loss": 0.3939,
	"step": 2990
	},
	{
	"epoch": 1.692524682651622,
	"grad_norm": 0.48009995546325723,
	"learning_rate": 5e-06,
	"loss": 0.4183,
	"step": 3000
	},
	{
	"epoch": 1.698166431593794,
	"grad_norm": 0.44768147031308736,
	"learning_rate": 5e-06,
	"loss": 0.3983,
	"step": 3010
	},
	{
	"epoch": 1.7038081805359662,
	"grad_norm": 0.476978526816067,
	"learning_rate": 5e-06,
	"loss": 0.3951,
	"step": 3020
	},
	{
	"epoch": 1.7094499294781382,
	"grad_norm": 0.4696465520344116,
	"learning_rate": 5e-06,
	"loss": 0.3961,
	"step": 3030
	},
	{
	"epoch": 1.7150916784203103,
	"grad_norm": 0.4576648300580514,
	"learning_rate": 5e-06,
	"loss": 0.3942,
	"step": 3040
	},
	{
	"epoch": 1.7207334273624824,
	"grad_norm": 0.4731142162264191,
	"learning_rate": 5e-06,
	"loss": 0.3946,
	"step": 3050
	},
	{
	"epoch": 1.7263751763046544,
	"grad_norm": 0.4756579121422872,
	"learning_rate": 5e-06,
	"loss": 0.3925,
	"step": 3060
	},
	{
	"epoch": 1.7320169252468265,
	"grad_norm": 0.46052906775460756,
	"learning_rate": 5e-06,
	"loss": 0.3959,
	"step": 3070
	},
	{
	"epoch": 1.7376586741889986,
	"grad_norm": 0.43627250154239816,
	"learning_rate": 5e-06,
	"loss": 0.4012,
	"step": 3080
	},
	{
	"epoch": 1.7433004231311706,
	"grad_norm": 0.4820135003105483,
	"learning_rate": 5e-06,
	"loss": 0.3881,
	"step": 3090
	},
	{
	"epoch": 1.7489421720733427,
	"grad_norm": 0.4778018041594859,
	"learning_rate": 5e-06,
	"loss": 0.4,
	"step": 3100
	},
	{
	"epoch": 1.7545839210155147,
	"grad_norm": 0.4884888164729651,
	"learning_rate": 5e-06,
	"loss": 0.3891,
	"step": 3110
	},
	{
	"epoch": 1.7602256699576868,
	"grad_norm": 0.4475592439449893,
	"learning_rate": 5e-06,
	"loss": 0.3926,
	"step": 3120
	},
	{
	"epoch": 1.7658674188998589,
	"grad_norm": 0.47654858360039826,
	"learning_rate": 5e-06,
	"loss": 0.419,
	"step": 3130
	},
	{
	"epoch": 1.771509167842031,
	"grad_norm": 0.4555878766506712,
	"learning_rate": 5e-06,
	"loss": 0.3962,
	"step": 3140
	},
	{
	"epoch": 1.777150916784203,
	"grad_norm": 0.46471151818843526,
	"learning_rate": 5e-06,
	"loss": 0.3956,
	"step": 3150
	},
	{
	"epoch": 1.782792665726375,
	"grad_norm": 0.47449169536040453,
	"learning_rate": 5e-06,
	"loss": 0.4006,
	"step": 3160
	},
	{
	"epoch": 1.7884344146685471,
	"grad_norm": 0.4602783138679876,
	"learning_rate": 5e-06,
	"loss": 0.3917,
	"step": 3170
	},
	{
	"epoch": 1.7940761636107192,
	"grad_norm": 0.472002669632583,
	"learning_rate": 5e-06,
	"loss": 0.4085,
	"step": 3180
	},
	{
	"epoch": 1.7997179125528913,
	"grad_norm": 0.4675920743304564,
	"learning_rate": 5e-06,
	"loss": 0.4003,
	"step": 3190
	},
	{
	"epoch": 1.8053596614950633,
	"grad_norm": 0.4615694339610234,
	"learning_rate": 5e-06,
	"loss": 0.3955,
	"step": 3200
	},
	{
	"epoch": 1.8110014104372354,
	"grad_norm": 0.4628092696805375,
	"learning_rate": 5e-06,
	"loss": 0.4016,
	"step": 3210
	},
	{
	"epoch": 1.8166431593794075,
	"grad_norm": 0.5254614489605429,
	"learning_rate": 5e-06,
	"loss": 0.4033,
	"step": 3220
	},
	{
	"epoch": 1.8222849083215797,
	"grad_norm": 0.44928160369491393,
	"learning_rate": 5e-06,
	"loss": 0.3927,
	"step": 3230
	},
	{
	"epoch": 1.8279266572637518,
	"grad_norm": 0.4956917940016818,
	"learning_rate": 5e-06,
	"loss": 0.3963,
	"step": 3240
	},
	{
	"epoch": 1.8335684062059239,
	"grad_norm": 0.45361998350750077,
	"learning_rate": 5e-06,
	"loss": 0.3983,
	"step": 3250
	},
	{
	"epoch": 1.839210155148096,
	"grad_norm": 0.4515003704595137,
	"learning_rate": 5e-06,
	"loss": 0.3963,
	"step": 3260
	},
	{
	"epoch": 1.844851904090268,
	"grad_norm": 0.4556275342458607,
	"learning_rate": 5e-06,
	"loss": 0.398,
	"step": 3270
	},
	{
	"epoch": 1.85049365303244,
	"grad_norm": 0.46890202055080116,
	"learning_rate": 5e-06,
	"loss": 0.3804,
	"step": 3280
	},
	{
	"epoch": 1.8561354019746121,
	"grad_norm": 0.4567048420478033,
	"learning_rate": 5e-06,
	"loss": 0.3866,
	"step": 3290
	},
	{
	"epoch": 1.8617771509167842,
	"grad_norm": 0.46010370992720745,
	"learning_rate": 5e-06,
	"loss": 0.4071,
	"step": 3300
	},
	{
	"epoch": 1.8674188998589563,
	"grad_norm": 0.46330780688841133,
	"learning_rate": 5e-06,
	"loss": 0.4007,
	"step": 3310
	},
	{
	"epoch": 1.8730606488011283,
	"grad_norm": 0.467515061321271,
	"learning_rate": 5e-06,
	"loss": 0.3958,
	"step": 3320
	},
	{
	"epoch": 1.8787023977433004,
	"grad_norm": 0.4478417663578568,
	"learning_rate": 5e-06,
	"loss": 0.3965,
	"step": 3330
	},
	{
	"epoch": 1.8843441466854725,
	"grad_norm": 0.46131439541886865,
	"learning_rate": 5e-06,
	"loss": 0.3972,
	"step": 3340
	},
	{
	"epoch": 1.8899858956276445,
	"grad_norm": 0.4649363714764279,
	"learning_rate": 5e-06,
	"loss": 0.3943,
	"step": 3350
	},
	{
	"epoch": 1.8956276445698168,
	"grad_norm": 0.46303194795992636,
	"learning_rate": 5e-06,
	"loss": 0.391,
	"step": 3360
	},
	{
	"epoch": 1.9012693935119889,
	"grad_norm": 0.42878941947013166,
	"learning_rate": 5e-06,
	"loss": 0.4039,
	"step": 3370
	},
	{
	"epoch": 1.906911142454161,
	"grad_norm": 0.4725709423896906,
	"learning_rate": 5e-06,
	"loss": 0.3988,
	"step": 3380
	},
	{
	"epoch": 1.912552891396333,
	"grad_norm": 0.47671368663777564,
	"learning_rate": 5e-06,
	"loss": 0.3884,
	"step": 3390
	},
	{
	"epoch": 1.918194640338505,
	"grad_norm": 0.46668210559071105,
	"learning_rate": 5e-06,
	"loss": 0.4066,
	"step": 3400
	},
	{
	"epoch": 1.9238363892806771,
	"grad_norm": 0.4572223756340763,
	"learning_rate": 5e-06,
	"loss": 0.3973,
	"step": 3410
	},
	{
	"epoch": 1.9294781382228492,
	"grad_norm": 0.45902290859441564,
	"learning_rate": 5e-06,
	"loss": 0.3929,
	"step": 3420
	},
	{
	"epoch": 1.9351198871650213,
	"grad_norm": 0.458044072628747,
	"learning_rate": 5e-06,
	"loss": 0.3857,
	"step": 3430
	},
	{
	"epoch": 1.9407616361071933,
	"grad_norm": 0.4693435523479085,
	"learning_rate": 5e-06,
	"loss": 0.3904,
	"step": 3440
	},
	{
	"epoch": 1.9464033850493654,
	"grad_norm": 0.4525757784211967,
	"learning_rate": 5e-06,
	"loss": 0.3901,
	"step": 3450
	},
	{
	"epoch": 1.9520451339915375,
	"grad_norm": 0.4527753194974229,
	"learning_rate": 5e-06,
	"loss": 0.3883,
	"step": 3460
	},
	{
	"epoch": 1.9576868829337095,
	"grad_norm": 0.45775257683357495,
	"learning_rate": 5e-06,
	"loss": 0.3933,
	"step": 3470
	},
	{
	"epoch": 1.9633286318758816,
	"grad_norm": 0.4513845604140946,
	"learning_rate": 5e-06,
	"loss": 0.4084,
	"step": 3480
	},
	{
	"epoch": 1.9689703808180536,
	"grad_norm": 0.488458649525053,
	"learning_rate": 5e-06,
	"loss": 0.3829,
	"step": 3490
	},
	{
	"epoch": 1.9746121297602257,
	"grad_norm": 0.446090731775206,
	"learning_rate": 5e-06,
	"loss": 0.3924,
	"step": 3500
	},
	{
	"epoch": 1.9802538787023978,
	"grad_norm": 0.4709438262355249,
	"learning_rate": 5e-06,
	"loss": 0.3894,
	"step": 3510
	},
	{
	"epoch": 1.9858956276445698,
	"grad_norm": 0.4870735211701005,
	"learning_rate": 5e-06,
	"loss": 0.4027,
	"step": 3520
	},
	{
	"epoch": 1.991537376586742,
	"grad_norm": 0.4803646418996235,
	"learning_rate": 5e-06,
	"loss": 0.3859,
	"step": 3530
	},
	{
	"epoch": 1.997179125528914,
	"grad_norm": 0.4703422698968033,
	"learning_rate": 5e-06,
	"loss": 0.3944,
	"step": 3540
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.43374887108802795,
	"eval_runtime": 448.6077,
	"eval_samples_per_second": 26.611,
	"eval_steps_per_second": 0.417,
	"step": 3545
	},
	{
	"epoch": 2.002820874471086,
	"grad_norm": 0.4413473757815756,
	"learning_rate": 5e-06,
	"loss": 0.3928,
	"step": 3550
	},
	{
	"epoch": 2.008462623413258,
	"grad_norm": 0.4522342894282536,
	"learning_rate": 5e-06,
	"loss": 0.3547,
	"step": 3560
	},
	{
	"epoch": 2.01410437235543,
	"grad_norm": 0.4290168433856863,
	"learning_rate": 5e-06,
	"loss": 0.356,
	"step": 3570
	},
	{
	"epoch": 2.0197461212976022,
	"grad_norm": 0.48082235439755094,
	"learning_rate": 5e-06,
	"loss": 0.3528,
	"step": 3580
	},
	{
	"epoch": 2.0253878702397743,
	"grad_norm": 0.45722766485772276,
	"learning_rate": 5e-06,
	"loss": 0.3442,
	"step": 3590
	},
	{
	"epoch": 2.0310296191819464,
	"grad_norm": 0.45747195342514013,
	"learning_rate": 5e-06,
	"loss": 0.3432,
	"step": 3600
	},
	{
	"epoch": 2.0366713681241184,
	"grad_norm": 0.4358767354369319,
	"learning_rate": 5e-06,
	"loss": 0.3466,
	"step": 3610
	},
	{
	"epoch": 2.0423131170662905,
	"grad_norm": 0.45049478931307607,
	"learning_rate": 5e-06,
	"loss": 0.3504,
	"step": 3620
	},
	{
	"epoch": 2.0479548660084625,
	"grad_norm": 0.4563642590969261,
	"learning_rate": 5e-06,
	"loss": 0.3406,
	"step": 3630
	},
	{
	"epoch": 2.0535966149506346,
	"grad_norm": 0.4312356627894684,
	"learning_rate": 5e-06,
	"loss": 0.3431,
	"step": 3640
	},
	{
	"epoch": 2.0592383638928067,
	"grad_norm": 0.47281064022880187,
	"learning_rate": 5e-06,
	"loss": 0.3492,
	"step": 3650
	},
	{
	"epoch": 2.0648801128349787,
	"grad_norm": 0.4435651181299306,
	"learning_rate": 5e-06,
	"loss": 0.3411,
	"step": 3660
	},
	{
	"epoch": 2.070521861777151,
	"grad_norm": 0.4694545955857111,
	"learning_rate": 5e-06,
	"loss": 0.3476,
	"step": 3670
	},
	{
	"epoch": 2.076163610719323,
	"grad_norm": 0.4094871096575717,
	"learning_rate": 5e-06,
	"loss": 0.3446,
	"step": 3680
	},
	{
	"epoch": 2.081805359661495,
	"grad_norm": 0.4407127764565404,
	"learning_rate": 5e-06,
	"loss": 0.3511,
	"step": 3690
	},
	{
	"epoch": 2.087447108603667,
	"grad_norm": 0.46130441782721465,
	"learning_rate": 5e-06,
	"loss": 0.3701,
	"step": 3700
	},
	{
	"epoch": 2.093088857545839,
	"grad_norm": 0.48247411322370654,
	"learning_rate": 5e-06,
	"loss": 0.3563,
	"step": 3710
	},
	{
	"epoch": 2.098730606488011,
	"grad_norm": 0.4219187636429636,
	"learning_rate": 5e-06,
	"loss": 0.3471,
	"step": 3720
	},
	{
	"epoch": 2.104372355430183,
	"grad_norm": 0.4611444707906527,
	"learning_rate": 5e-06,
	"loss": 0.3567,
	"step": 3730
	},
	{
	"epoch": 2.1100141043723553,
	"grad_norm": 0.4553725011658897,
	"learning_rate": 5e-06,
	"loss": 0.3529,
	"step": 3740
	},
	{
	"epoch": 2.1156558533145273,
	"grad_norm": 0.4464002785245552,
	"learning_rate": 5e-06,
	"loss": 0.3501,
	"step": 3750
	},
	{
	"epoch": 2.1212976022566994,
	"grad_norm": 0.4300513716532807,
	"learning_rate": 5e-06,
	"loss": 0.3498,
	"step": 3760
	},
	{
	"epoch": 2.1269393511988715,
	"grad_norm": 0.456511976198015,
	"learning_rate": 5e-06,
	"loss": 0.3519,
	"step": 3770
	},
	{
	"epoch": 2.1325811001410435,
	"grad_norm": 0.4233132317201342,
	"learning_rate": 5e-06,
	"loss": 0.3476,
	"step": 3780
	},
	{
	"epoch": 2.138222849083216,
	"grad_norm": 0.471119966312247,
	"learning_rate": 5e-06,
	"loss": 0.3519,
	"step": 3790
	},
	{
	"epoch": 2.143864598025388,
	"grad_norm": 0.4633272783360576,
	"learning_rate": 5e-06,
	"loss": 0.3564,
	"step": 3800
	},
	{
	"epoch": 2.14950634696756,
	"grad_norm": 0.42965266973567434,
	"learning_rate": 5e-06,
	"loss": 0.3518,
	"step": 3810
	},
	{
	"epoch": 2.155148095909732,
	"grad_norm": 0.4298353082026474,
	"learning_rate": 5e-06,
	"loss": 0.3445,
	"step": 3820
	},
	{
	"epoch": 2.1607898448519043,
	"grad_norm": 0.47739223858312535,
	"learning_rate": 5e-06,
	"loss": 0.3445,
	"step": 3830
	},
	{
	"epoch": 2.1664315937940763,
	"grad_norm": 0.4532966358832045,
	"learning_rate": 5e-06,
	"loss": 0.356,
	"step": 3840
	},
	{
	"epoch": 2.1720733427362484,
	"grad_norm": 0.4410221778245472,
	"learning_rate": 5e-06,
	"loss": 0.3662,
	"step": 3850
	},
	{
	"epoch": 2.1777150916784205,
	"grad_norm": 0.4263307654776881,
	"learning_rate": 5e-06,
	"loss": 0.3467,
	"step": 3860
	},
	{
	"epoch": 2.1833568406205925,
	"grad_norm": 0.45149035680132815,
	"learning_rate": 5e-06,
	"loss": 0.3448,
	"step": 3870
	},
	{
	"epoch": 2.1889985895627646,
	"grad_norm": 0.4529321307975293,
	"learning_rate": 5e-06,
	"loss": 0.3477,
	"step": 3880
	},
	{
	"epoch": 2.1946403385049367,
	"grad_norm": 0.4607065783291932,
	"learning_rate": 5e-06,
	"loss": 0.3495,
	"step": 3890
	},
	{
	"epoch": 2.2002820874471087,
	"grad_norm": 0.4602518910582201,
	"learning_rate": 5e-06,
	"loss": 0.3487,
	"step": 3900
	},
	{
	"epoch": 2.205923836389281,
	"grad_norm": 0.43692806647452487,
	"learning_rate": 5e-06,
	"loss": 0.3524,
	"step": 3910
	},
	{
	"epoch": 2.211565585331453,
	"grad_norm": 0.4552717555185162,
	"learning_rate": 5e-06,
	"loss": 0.3471,
	"step": 3920
	},
	{
	"epoch": 2.217207334273625,
	"grad_norm": 0.4525591489683545,
	"learning_rate": 5e-06,
	"loss": 0.3592,
	"step": 3930
	},
	{
	"epoch": 2.222849083215797,
	"grad_norm": 0.4404336083861297,
	"learning_rate": 5e-06,
	"loss": 0.3557,
	"step": 3940
	},
	{
	"epoch": 2.228490832157969,
	"grad_norm": 0.45114848417343256,
	"learning_rate": 5e-06,
	"loss": 0.3423,
	"step": 3950
	},
	{
	"epoch": 2.234132581100141,
	"grad_norm": 0.4370952273186252,
	"learning_rate": 5e-06,
	"loss": 0.3546,
	"step": 3960
	},
	{
	"epoch": 2.239774330042313,
	"grad_norm": 0.4435799605060227,
	"learning_rate": 5e-06,
	"loss": 0.3567,
	"step": 3970
	},
	{
	"epoch": 2.2454160789844853,
	"grad_norm": 0.4915642595318201,
	"learning_rate": 5e-06,
	"loss": 0.3584,
	"step": 3980
	},
	{
	"epoch": 2.2510578279266573,
	"grad_norm": 0.44114555771160074,
	"learning_rate": 5e-06,
	"loss": 0.3486,
	"step": 3990
	},
	{
	"epoch": 2.2566995768688294,
	"grad_norm": 0.4749861176607326,
	"learning_rate": 5e-06,
	"loss": 0.3636,
	"step": 4000
	},
	{
	"epoch": 2.2623413258110014,
	"grad_norm": 0.46753231180049154,
	"learning_rate": 5e-06,
	"loss": 0.3537,
	"step": 4010
	},
	{
	"epoch": 2.2679830747531735,
	"grad_norm": 0.4419176647270738,
	"learning_rate": 5e-06,
	"loss": 0.3501,
	"step": 4020
	},
	{
	"epoch": 2.2736248236953456,
	"grad_norm": 0.4587766070955877,
	"learning_rate": 5e-06,
	"loss": 0.3541,
	"step": 4030
	},
	{
	"epoch": 2.2792665726375176,
	"grad_norm": 0.43530289551944434,
	"learning_rate": 5e-06,
	"loss": 0.351,
	"step": 4040
	},
	{
	"epoch": 2.2849083215796897,
	"grad_norm": 0.4631459072773793,
	"learning_rate": 5e-06,
	"loss": 0.3485,
	"step": 4050
	},
	{
	"epoch": 2.2905500705218618,
	"grad_norm": 0.47022508312977196,
	"learning_rate": 5e-06,
	"loss": 0.3502,
	"step": 4060
	},
	{
	"epoch": 2.296191819464034,
	"grad_norm": 0.4505813037738865,
	"learning_rate": 5e-06,
	"loss": 0.3651,
	"step": 4070
	},
	{
	"epoch": 2.301833568406206,
	"grad_norm": 0.4486825542866407,
	"learning_rate": 5e-06,
	"loss": 0.3544,
	"step": 4080
	},
	{
	"epoch": 2.307475317348378,
	"grad_norm": 0.4665999075970455,
	"learning_rate": 5e-06,
	"loss": 0.3685,
	"step": 4090
	},
	{
	"epoch": 2.31311706629055,
	"grad_norm": 0.4888288507127307,
	"learning_rate": 5e-06,
	"loss": 0.3619,
	"step": 4100
	},
	{
	"epoch": 2.318758815232722,
	"grad_norm": 0.41270795857689285,
	"learning_rate": 5e-06,
	"loss": 0.352,
	"step": 4110
	},
	{
	"epoch": 2.324400564174894,
	"grad_norm": 0.4419259104601605,
	"learning_rate": 5e-06,
	"loss": 0.3383,
	"step": 4120
	},
	{
	"epoch": 2.330042313117066,
	"grad_norm": 0.46603521309981116,
	"learning_rate": 5e-06,
	"loss": 0.3536,
	"step": 4130
	},
	{
	"epoch": 2.3356840620592383,
	"grad_norm": 0.47937141599717065,
	"learning_rate": 5e-06,
	"loss": 0.3563,
	"step": 4140
	},
	{
	"epoch": 2.3413258110014104,
	"grad_norm": 0.44765567183470945,
	"learning_rate": 5e-06,
	"loss": 0.3467,
	"step": 4150
	},
	{
	"epoch": 2.3469675599435824,
	"grad_norm": 0.4457046351361799,
	"learning_rate": 5e-06,
	"loss": 0.3503,
	"step": 4160
	},
	{
	"epoch": 2.3526093088857545,
	"grad_norm": 0.44307837034261943,
	"learning_rate": 5e-06,
	"loss": 0.352,
	"step": 4170
	},
	{
	"epoch": 2.3582510578279265,
	"grad_norm": 0.4267219846723022,
	"learning_rate": 5e-06,
	"loss": 0.3774,
	"step": 4180
	},
	{
	"epoch": 2.3638928067700986,
	"grad_norm": 0.48122908327097114,
	"learning_rate": 5e-06,
	"loss": 0.3598,
	"step": 4190
	},
	{
	"epoch": 2.3695345557122707,
	"grad_norm": 0.45331508297626466,
	"learning_rate": 5e-06,
	"loss": 0.362,
	"step": 4200
	},
	{
	"epoch": 2.3751763046544427,
	"grad_norm": 0.4594196615052227,
	"learning_rate": 5e-06,
	"loss": 0.354,
	"step": 4210
	},
	{
	"epoch": 2.380818053596615,
	"grad_norm": 0.4495058567180949,
	"learning_rate": 5e-06,
	"loss": 0.3602,
	"step": 4220
	},
	{
	"epoch": 2.386459802538787,
	"grad_norm": 0.4676232528999999,
	"learning_rate": 5e-06,
	"loss": 0.3516,
	"step": 4230
	},
	{
	"epoch": 2.392101551480959,
	"grad_norm": 0.4663506464819916,
	"learning_rate": 5e-06,
	"loss": 0.3489,
	"step": 4240
	},
	{
	"epoch": 2.397743300423131,
	"grad_norm": 0.4377174836018769,
	"learning_rate": 5e-06,
	"loss": 0.3566,
	"step": 4250
	},
	{
	"epoch": 2.403385049365303,
	"grad_norm": 0.4410880459267694,
	"learning_rate": 5e-06,
	"loss": 0.355,
	"step": 4260
	},
	{
	"epoch": 2.409026798307475,
	"grad_norm": 0.4416031717769207,
	"learning_rate": 5e-06,
	"loss": 0.3606,
	"step": 4270
	},
	{
	"epoch": 2.414668547249647,
	"grad_norm": 0.46431459859880975,
	"learning_rate": 5e-06,
	"loss": 0.3551,
	"step": 4280
	},
	{
	"epoch": 2.4203102961918193,
	"grad_norm": 0.4603756553070287,
	"learning_rate": 5e-06,
	"loss": 0.3521,
	"step": 4290
	},
	{
	"epoch": 2.4259520451339913,
	"grad_norm": 0.43937667290163923,
	"learning_rate": 5e-06,
	"loss": 0.3736,
	"step": 4300
	},
	{
	"epoch": 2.4315937940761634,
	"grad_norm": 0.4446699867853186,
	"learning_rate": 5e-06,
	"loss": 0.3467,
	"step": 4310
	},
	{
	"epoch": 2.4372355430183354,
	"grad_norm": 0.43626545583793597,
	"learning_rate": 5e-06,
	"loss": 0.348,
	"step": 4320
	},
	{
	"epoch": 2.4428772919605075,
	"grad_norm": 0.49173390105039966,
	"learning_rate": 5e-06,
	"loss": 0.3521,
	"step": 4330
	},
	{
	"epoch": 2.44851904090268,
	"grad_norm": 0.45995716373861045,
	"learning_rate": 5e-06,
	"loss": 0.3456,
	"step": 4340
	},
	{
	"epoch": 2.454160789844852,
	"grad_norm": 0.44249790330543903,
	"learning_rate": 5e-06,
	"loss": 0.3433,
	"step": 4350
	},
	{
	"epoch": 2.459802538787024,
	"grad_norm": 0.45560126813520535,
	"learning_rate": 5e-06,
	"loss": 0.349,
	"step": 4360
	},
	{
	"epoch": 2.465444287729196,
	"grad_norm": 0.4594734244394021,
	"learning_rate": 5e-06,
	"loss": 0.3578,
	"step": 4370
	},
	{
	"epoch": 2.4710860366713683,
	"grad_norm": 0.4572577458846818,
	"learning_rate": 5e-06,
	"loss": 0.3485,
	"step": 4380
	},
	{
	"epoch": 2.4767277856135403,
	"grad_norm": 0.44219315631814177,
	"learning_rate": 5e-06,
	"loss": 0.3471,
	"step": 4390
	},
	{
	"epoch": 2.4823695345557124,
	"grad_norm": 0.42240807095659477,
	"learning_rate": 5e-06,
	"loss": 0.3562,
	"step": 4400
	},
	{
	"epoch": 2.4880112834978845,
	"grad_norm": 0.47229751050541774,
	"learning_rate": 5e-06,
	"loss": 0.3482,
	"step": 4410
	},
	{
	"epoch": 2.4936530324400565,
	"grad_norm": 0.4458066836074724,
	"learning_rate": 5e-06,
	"loss": 0.355,
	"step": 4420
	},
	{
	"epoch": 2.4992947813822286,
	"grad_norm": 0.4503226109681392,
	"learning_rate": 5e-06,
	"loss": 0.3538,
	"step": 4430
	},
	{
	"epoch": 2.5049365303244007,
	"grad_norm": 0.44110608535592855,
	"learning_rate": 5e-06,
	"loss": 0.3747,
	"step": 4440
	},
	{
	"epoch": 2.5105782792665727,
	"grad_norm": 0.5109212717715426,
	"learning_rate": 5e-06,
	"loss": 0.3519,
	"step": 4450
	},
	{
	"epoch": 2.516220028208745,
	"grad_norm": 0.4249918016919024,
	"learning_rate": 5e-06,
	"loss": 0.342,
	"step": 4460
	},
	{
	"epoch": 2.521861777150917,
	"grad_norm": 0.5086305630978165,
	"learning_rate": 5e-06,
	"loss": 0.3607,
	"step": 4470
	},
	{
	"epoch": 2.527503526093089,
	"grad_norm": 0.4358509107515122,
	"learning_rate": 5e-06,
	"loss": 0.3468,
	"step": 4480
	},
	{
	"epoch": 2.533145275035261,
	"grad_norm": 0.4539559547925107,
	"learning_rate": 5e-06,
	"loss": 0.3443,
	"step": 4490
	},
	{
	"epoch": 2.538787023977433,
	"grad_norm": 0.4653862436948121,
	"learning_rate": 5e-06,
	"loss": 0.3524,
	"step": 4500
	},
	{
	"epoch": 2.544428772919605,
	"grad_norm": 0.41711716794524994,
	"learning_rate": 5e-06,
	"loss": 0.3479,
	"step": 4510
	},
	{
	"epoch": 2.550070521861777,
	"grad_norm": 0.45795092567053497,
	"learning_rate": 5e-06,
	"loss": 0.3695,
	"step": 4520
	},
	{
	"epoch": 2.5557122708039492,
	"grad_norm": 0.4724307476878103,
	"learning_rate": 5e-06,
	"loss": 0.353,
	"step": 4530
	},
	{
	"epoch": 2.5613540197461213,
	"grad_norm": 0.4667580239368319,
	"learning_rate": 5e-06,
	"loss": 0.3539,
	"step": 4540
	},
	{
	"epoch": 2.5669957686882934,
	"grad_norm": 0.4475375918113466,
	"learning_rate": 5e-06,
	"loss": 0.3598,
	"step": 4550
	},
	{
	"epoch": 2.5726375176304654,
	"grad_norm": 0.480757840067183,
	"learning_rate": 5e-06,
	"loss": 0.3485,
	"step": 4560
	},
	{
	"epoch": 2.5782792665726375,
	"grad_norm": 0.4276733499528922,
	"learning_rate": 5e-06,
	"loss": 0.3479,
	"step": 4570
	},
	{
	"epoch": 2.5839210155148096,
	"grad_norm": 0.43537614271812025,
	"learning_rate": 5e-06,
	"loss": 0.3543,
	"step": 4580
	},
	{
	"epoch": 2.5895627644569816,
	"grad_norm": 0.42394662487032214,
	"learning_rate": 5e-06,
	"loss": 0.3475,
	"step": 4590
	},
	{
	"epoch": 2.5952045133991537,
	"grad_norm": 0.45439257995617655,
	"learning_rate": 5e-06,
	"loss": 0.3484,
	"step": 4600
	},
	{
	"epoch": 2.6008462623413258,
	"grad_norm": 0.4463381033101569,
	"learning_rate": 5e-06,
	"loss": 0.3478,
	"step": 4610
	},
	{
	"epoch": 2.606488011283498,
	"grad_norm": 0.4651753425049505,
	"learning_rate": 5e-06,
	"loss": 0.3532,
	"step": 4620
	},
	{
	"epoch": 2.61212976022567,
	"grad_norm": 0.4725584824422778,
	"learning_rate": 5e-06,
	"loss": 0.3667,
	"step": 4630
	},
	{
	"epoch": 2.617771509167842,
	"grad_norm": 0.4496062316974007,
	"learning_rate": 5e-06,
	"loss": 0.3566,
	"step": 4640
	},
	{
	"epoch": 2.623413258110014,
	"grad_norm": 0.4301211716374985,
	"learning_rate": 5e-06,
	"loss": 0.3466,
	"step": 4650
	},
	{
	"epoch": 2.629055007052186,
	"grad_norm": 0.4567935039875112,
	"learning_rate": 5e-06,
	"loss": 0.3532,
	"step": 4660
	},
	{
	"epoch": 2.634696755994358,
	"grad_norm": 0.45514691870247576,
	"learning_rate": 5e-06,
	"loss": 0.352,
	"step": 4670
	},
	{
	"epoch": 2.64033850493653,
	"grad_norm": 0.4435768402675874,
	"learning_rate": 5e-06,
	"loss": 0.3479,
	"step": 4680
	},
	{
	"epoch": 2.6459802538787023,
	"grad_norm": 0.43799237086382287,
	"learning_rate": 5e-06,
	"loss": 0.3399,
	"step": 4690
	},
	{
	"epoch": 2.6516220028208743,
	"grad_norm": 0.45347330937833646,
	"learning_rate": 5e-06,
	"loss": 0.3496,
	"step": 4700
	},
	{
	"epoch": 2.6572637517630464,
	"grad_norm": 0.45449617328134695,
	"learning_rate": 5e-06,
	"loss": 0.3698,
	"step": 4710
	},
	{
	"epoch": 2.6629055007052185,
	"grad_norm": 0.45514167950119666,
	"learning_rate": 5e-06,
	"loss": 0.3557,
	"step": 4720
	},
	{
	"epoch": 2.6685472496473905,
	"grad_norm": 0.45124610082620425,
	"learning_rate": 5e-06,
	"loss": 0.3555,
	"step": 4730
	},
	{
	"epoch": 2.6741889985895626,
	"grad_norm": 0.45506617549803663,
	"learning_rate": 5e-06,
	"loss": 0.3533,
	"step": 4740
	},
	{
	"epoch": 2.679830747531735,
	"grad_norm": 0.4497891236146143,
	"learning_rate": 5e-06,
	"loss": 0.3593,
	"step": 4750
	},
	{
	"epoch": 2.685472496473907,
	"grad_norm": 0.43730277262363093,
	"learning_rate": 5e-06,
	"loss": 0.35,
	"step": 4760
	},
	{
	"epoch": 2.6911142454160792,
	"grad_norm": 0.4453843880728269,
	"learning_rate": 5e-06,
	"loss": 0.3508,
	"step": 4770
	},
	{
	"epoch": 2.6967559943582513,
	"grad_norm": 0.4551381875534027,
	"learning_rate": 5e-06,
	"loss": 0.3659,
	"step": 4780
	},
	{
	"epoch": 2.7023977433004234,
	"grad_norm": 0.44693198155600794,
	"learning_rate": 5e-06,
	"loss": 0.3488,
	"step": 4790
	},
	{
	"epoch": 2.7080394922425954,
	"grad_norm": 0.4725411086517588,
	"learning_rate": 5e-06,
	"loss": 0.3622,
	"step": 4800
	},
	{
	"epoch": 2.7136812411847675,
	"grad_norm": 0.45435090794835215,
	"learning_rate": 5e-06,
	"loss": 0.3659,
	"step": 4810
	},
	{
	"epoch": 2.7193229901269396,
	"grad_norm": 0.40891902748686465,
	"learning_rate": 5e-06,
	"loss": 0.3521,
	"step": 4820
	},
	{
	"epoch": 2.7249647390691116,
	"grad_norm": 0.4588622825344602,
	"learning_rate": 5e-06,
	"loss": 0.3609,
	"step": 4830
	},
	{
	"epoch": 2.7306064880112837,
	"grad_norm": 0.47220524310687695,
	"learning_rate": 5e-06,
	"loss": 0.3608,
	"step": 4840
	},
	{
	"epoch": 2.7362482369534558,
	"grad_norm": 0.4813382330408875,
	"learning_rate": 5e-06,
	"loss": 0.3516,
	"step": 4850
	},
	{
	"epoch": 2.741889985895628,
	"grad_norm": 0.44851106014638686,
	"learning_rate": 5e-06,
	"loss": 0.3575,
	"step": 4860
	},
	{
	"epoch": 2.7475317348378,
	"grad_norm": 0.4648873406447677,
	"learning_rate": 5e-06,
	"loss": 0.3508,
	"step": 4870
	},
	{
	"epoch": 2.753173483779972,
	"grad_norm": 0.44332878174865403,
	"learning_rate": 5e-06,
	"loss": 0.3548,
	"step": 4880
	},
	{
	"epoch": 2.758815232722144,
	"grad_norm": 0.44016959273981,
	"learning_rate": 5e-06,
	"loss": 0.3518,
	"step": 4890
	},
	{
	"epoch": 2.764456981664316,
	"grad_norm": 0.42469643512821914,
	"learning_rate": 5e-06,
	"loss": 0.3501,
	"step": 4900
	},
	{
	"epoch": 2.770098730606488,
	"grad_norm": 0.44842384575861166,
	"learning_rate": 5e-06,
	"loss": 0.3452,
	"step": 4910
	},
	{
	"epoch": 2.77574047954866,
	"grad_norm": 0.44453086608294007,
	"learning_rate": 5e-06,
	"loss": 0.3576,
	"step": 4920
	},
	{
	"epoch": 2.7813822284908323,
	"grad_norm": 0.4613767704732174,
	"learning_rate": 5e-06,
	"loss": 0.3669,
	"step": 4930
	},
	{
	"epoch": 2.7870239774330043,
	"grad_norm": 0.42157749246627113,
	"learning_rate": 5e-06,
	"loss": 0.3558,
	"step": 4940
	},
	{
	"epoch": 2.7926657263751764,
	"grad_norm": 0.44623021177861155,
	"learning_rate": 5e-06,
	"loss": 0.353,
	"step": 4950
	},
	{
	"epoch": 2.7983074753173485,
	"grad_norm": 0.44511445391899146,
	"learning_rate": 5e-06,
	"loss": 0.3575,
	"step": 4960
	},
	{
	"epoch": 2.8039492242595205,
	"grad_norm": 0.4496517977205029,
	"learning_rate": 5e-06,
	"loss": 0.376,
	"step": 4970
	},
	{
	"epoch": 2.8095909732016926,
	"grad_norm": 0.4568581481429044,
	"learning_rate": 5e-06,
	"loss": 0.3552,
	"step": 4980
	},
	{
	"epoch": 2.8152327221438647,
	"grad_norm": 0.45872415735621647,
	"learning_rate": 5e-06,
	"loss": 0.3538,
	"step": 4990
	},
	{
	"epoch": 2.8208744710860367,
	"grad_norm": 0.43280090040022784,
	"learning_rate": 5e-06,
	"loss": 0.3596,
	"step": 5000
	},
	{
	"epoch": 2.826516220028209,
	"grad_norm": 0.4271253356285509,
	"learning_rate": 5e-06,
	"loss": 0.3589,
	"step": 5010
	},
	{
	"epoch": 2.832157968970381,
	"grad_norm": 0.45509701773858097,
	"learning_rate": 5e-06,
	"loss": 0.3717,
	"step": 5020
	},
	{
	"epoch": 2.837799717912553,
	"grad_norm": 0.43287288682215924,
	"learning_rate": 5e-06,
	"loss": 0.3573,
	"step": 5030
	},
	{
	"epoch": 2.843441466854725,
	"grad_norm": 0.4688529933224419,
	"learning_rate": 5e-06,
	"loss": 0.3477,
	"step": 5040
	},
	{
	"epoch": 2.849083215796897,
	"grad_norm": 0.4331993042860941,
	"learning_rate": 5e-06,
	"loss": 0.3514,
	"step": 5050
	},
	{
	"epoch": 2.854724964739069,
	"grad_norm": 0.47629494492943353,
	"learning_rate": 5e-06,
	"loss": 0.3457,
	"step": 5060
	},
	{
	"epoch": 2.860366713681241,
	"grad_norm": 0.4547175713111894,
	"learning_rate": 5e-06,
	"loss": 0.3616,
	"step": 5070
	},
	{
	"epoch": 2.8660084626234132,
	"grad_norm": 0.4697185774932994,
	"learning_rate": 5e-06,
	"loss": 0.3527,
	"step": 5080
	},
	{
	"epoch": 2.8716502115655853,
	"grad_norm": 0.46979390495300094,
	"learning_rate": 5e-06,
	"loss": 0.367,
	"step": 5090
	},
	{
	"epoch": 2.8772919605077574,
	"grad_norm": 0.4779125028298598,
	"learning_rate": 5e-06,
	"loss": 0.3511,
	"step": 5100
	},
	{
	"epoch": 2.8829337094499294,
	"grad_norm": 0.4974784539605145,
	"learning_rate": 5e-06,
	"loss": 0.3623,
	"step": 5110
	},
	{
	"epoch": 2.8885754583921015,
	"grad_norm": 0.4614842753048295,
	"learning_rate": 5e-06,
	"loss": 0.3495,
	"step": 5120
	},
	{
	"epoch": 2.8942172073342736,
	"grad_norm": 0.43741541412768414,
	"learning_rate": 5e-06,
	"loss": 0.3566,
	"step": 5130
	},
	{
	"epoch": 2.8998589562764456,
	"grad_norm": 0.4611139730639956,
	"learning_rate": 5e-06,
	"loss": 0.357,
	"step": 5140
	},
	{
	"epoch": 2.9055007052186177,
	"grad_norm": 0.4584393192245279,
	"learning_rate": 5e-06,
	"loss": 0.3559,
	"step": 5150
	},
	{
	"epoch": 2.9111424541607898,
	"grad_norm": 0.4605897500358934,
	"learning_rate": 5e-06,
	"loss": 0.3599,
	"step": 5160
	},
	{
	"epoch": 2.916784203102962,
	"grad_norm": 0.5047737206876777,
	"learning_rate": 5e-06,
	"loss": 0.3554,
	"step": 5170
	},
	{
	"epoch": 2.922425952045134,
	"grad_norm": 0.43957877748790186,
	"learning_rate": 5e-06,
	"loss": 0.3553,
	"step": 5180
	},
	{
	"epoch": 2.928067700987306,
	"grad_norm": 0.41934448745808994,
	"learning_rate": 5e-06,
	"loss": 0.3537,
	"step": 5190
	},
	{
	"epoch": 2.933709449929478,
	"grad_norm": 0.4497013017770954,
	"learning_rate": 5e-06,
	"loss": 0.3591,
	"step": 5200
	},
	{
	"epoch": 2.93935119887165,
	"grad_norm": 0.46915975111439107,
	"learning_rate": 5e-06,
	"loss": 0.3561,
	"step": 5210
	},
	{
	"epoch": 2.944992947813822,
	"grad_norm": 0.4428104855895761,
	"learning_rate": 5e-06,
	"loss": 0.3633,
	"step": 5220
	},
	{
	"epoch": 2.950634696755994,
	"grad_norm": 0.448532360201155,
	"learning_rate": 5e-06,
	"loss": 0.3496,
	"step": 5230
	},
	{
	"epoch": 2.9562764456981663,
	"grad_norm": 0.47532539519127587,
	"learning_rate": 5e-06,
	"loss": 0.3484,
	"step": 5240
	},
	{
	"epoch": 2.9619181946403383,
	"grad_norm": 0.43655270107253413,
	"learning_rate": 5e-06,
	"loss": 0.3735,
	"step": 5250
	},
	{
	"epoch": 2.9675599435825104,
	"grad_norm": 0.4654091728547412,
	"learning_rate": 5e-06,
	"loss": 0.3517,
	"step": 5260
	},
	{
	"epoch": 2.9732016925246825,
	"grad_norm": 0.48276086071545776,
	"learning_rate": 5e-06,
	"loss": 0.358,
	"step": 5270
	},
	{
	"epoch": 2.9788434414668545,
	"grad_norm": 0.4497726059890603,
	"learning_rate": 5e-06,
	"loss": 0.3743,
	"step": 5280
	},
	{
	"epoch": 2.9844851904090266,
	"grad_norm": 0.42161219193763577,
	"learning_rate": 5e-06,
	"loss": 0.3519,
	"step": 5290
	},
	{
	"epoch": 2.9901269393511987,
	"grad_norm": 0.4593665569282975,
	"learning_rate": 5e-06,
	"loss": 0.3473,
	"step": 5300
	},
	{
	"epoch": 2.9957686882933707,
	"grad_norm": 0.4432358435800667,
	"learning_rate": 5e-06,
	"loss": 0.3623,
	"step": 5310
	},
	{
	"epoch": 2.9991537376586743,
	"eval_loss": 0.440873384475708,
	"eval_runtime": 444.0657,
	"eval_samples_per_second": 26.883,
	"eval_steps_per_second": 0.421,
	"step": 5316
	},
	{
	"epoch": 2.9991537376586743,
	"step": 5316,
	"total_flos": 2786674505416704.0,
	"train_loss": 0.4018145801655057,
	"train_runtime": 71328.9114,
	"train_samples_per_second": 9.54,
	"train_steps_per_second": 0.075
	}
	],
	"logging_steps": 10,
	"max_steps": 5316,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2786674505416704.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}