Model save

a15b904 verified 5 months ago

28.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9988571428571429,
	"eval_steps": 50,
	"global_step": 437,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.022857142857142857,
	"grad_norm": 8.11412987933583,
	"learning_rate": 1.1363636363636363e-07,
	"logits/chosen": -2.66959810256958,
	"logits/rejected": -2.6077542304992676,
	"logps/chosen": -296.6876220703125,
	"logps/rejected": -254.7753448486328,
	"loss": 0.6933,
	"rewards/accuracies": 0.3812499940395355,
	"rewards/chosen": -0.0003348872414790094,
	"rewards/margins": -0.00012643556692637503,
	"rewards/rejected": -0.0002084516454488039,
	"step": 10
	},
	{
	"epoch": 0.045714285714285714,
	"grad_norm": 9.934680850734814,
	"learning_rate": 2.2727272727272726e-07,
	"logits/chosen": -2.6891586780548096,
	"logits/rejected": -2.6237130165100098,
	"logps/chosen": -294.1405334472656,
	"logps/rejected": -254.05810546875,
	"loss": 0.6922,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.0007635392248630524,
	"rewards/margins": 0.0031762172002345324,
	"rewards/rejected": -0.0024126782082021236,
	"step": 20
	},
	{
	"epoch": 0.06857142857142857,
	"grad_norm": 8.46839233994518,
	"learning_rate": 3.4090909090909085e-07,
	"logits/chosen": -2.657853364944458,
	"logits/rejected": -2.562720775604248,
	"logps/chosen": -285.6708984375,
	"logps/rejected": -247.06838989257812,
	"loss": 0.6879,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": 0.012036588974297047,
	"rewards/margins": 0.01440697442740202,
	"rewards/rejected": -0.002370386151596904,
	"step": 30
	},
	{
	"epoch": 0.09142857142857143,
	"grad_norm": 10.38860192358711,
	"learning_rate": 4.545454545454545e-07,
	"logits/chosen": -2.6249475479125977,
	"logits/rejected": -2.5956408977508545,
	"logps/chosen": -269.8529357910156,
	"logps/rejected": -273.1573791503906,
	"loss": 0.6793,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.02421986497938633,
	"rewards/margins": 0.020207645371556282,
	"rewards/rejected": 0.004012218676507473,
	"step": 40
	},
	{
	"epoch": 0.11428571428571428,
	"grad_norm": 8.812178369158405,
	"learning_rate": 4.997124959943201e-07,
	"logits/chosen": -2.6135976314544678,
	"logits/rejected": -2.5756285190582275,
	"logps/chosen": -305.51312255859375,
	"logps/rejected": -271.22247314453125,
	"loss": 0.6619,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.010274273343384266,
	"rewards/margins": 0.067402184009552,
	"rewards/rejected": -0.0776764526963234,
	"step": 50
	},
	{
	"epoch": 0.11428571428571428,
	"eval_logits/chosen": -2.569648265838623,
	"eval_logits/rejected": -2.4695067405700684,
	"eval_logps/chosen": -277.47930908203125,
	"eval_logps/rejected": -235.5894012451172,
	"eval_loss": 0.6465452313423157,
	"eval_rewards/accuracies": 0.693965494632721,
	"eval_rewards/chosen": -0.018753662705421448,
	"eval_rewards/margins": 0.1463788002729416,
	"eval_rewards/rejected": -0.16513246297836304,
	"eval_runtime": 90.334,
	"eval_samples_per_second": 20.269,
	"eval_steps_per_second": 0.321,
	"step": 50
	},
	{
	"epoch": 0.13714285714285715,
	"grad_norm": 11.6151396248973,
	"learning_rate": 4.979579212164186e-07,
	"logits/chosen": -2.6002144813537598,
	"logits/rejected": -2.501227855682373,
	"logps/chosen": -298.59063720703125,
	"logps/rejected": -302.35577392578125,
	"loss": 0.6307,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.047010406851768494,
	"rewards/margins": 0.16466036438941956,
	"rewards/rejected": -0.21167078614234924,
	"step": 60
	},
	{
	"epoch": 0.16,
	"grad_norm": 14.811620243521006,
	"learning_rate": 4.946196886175515e-07,
	"logits/chosen": -2.6356024742126465,
	"logits/rejected": -2.5619795322418213,
	"logps/chosen": -280.7294921875,
	"logps/rejected": -274.32647705078125,
	"loss": 0.6194,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.16827444732189178,
	"rewards/margins": 0.20077195763587952,
	"rewards/rejected": -0.3690463900566101,
	"step": 70
	},
	{
	"epoch": 0.18285714285714286,
	"grad_norm": 16.993875634534675,
	"learning_rate": 4.897191188239667e-07,
	"logits/chosen": -2.642766237258911,
	"logits/rejected": -2.582462787628174,
	"logps/chosen": -321.19744873046875,
	"logps/rejected": -298.94171142578125,
	"loss": 0.6087,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.0975220575928688,
	"rewards/margins": 0.27095723152160645,
	"rewards/rejected": -0.36847931146621704,
	"step": 80
	},
	{
	"epoch": 0.2057142857142857,
	"grad_norm": 17.671501985453162,
	"learning_rate": 4.832875107981763e-07,
	"logits/chosen": -2.4848644733428955,
	"logits/rejected": -2.404571533203125,
	"logps/chosen": -310.0569152832031,
	"logps/rejected": -313.3294982910156,
	"loss": 0.6012,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.345020592212677,
	"rewards/margins": 0.33231958746910095,
	"rewards/rejected": -0.6773402690887451,
	"step": 90
	},
	{
	"epoch": 0.22857142857142856,
	"grad_norm": 17.978608029535753,
	"learning_rate": 4.753659419387223e-07,
	"logits/chosen": -1.396976351737976,
	"logits/rejected": -1.3131816387176514,
	"logps/chosen": -309.3507385253906,
	"logps/rejected": -321.52056884765625,
	"loss": 0.5843,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.6027094125747681,
	"rewards/margins": 0.35499778389930725,
	"rewards/rejected": -0.9577071070671082,
	"step": 100
	},
	{
	"epoch": 0.22857142857142856,
	"eval_logits/chosen": -1.3850308656692505,
	"eval_logits/rejected": -1.1914278268814087,
	"eval_logps/chosen": -320.03228759765625,
	"eval_logps/rejected": -321.1168518066406,
	"eval_loss": 0.5719701647758484,
	"eval_rewards/accuracies": 0.7456896305084229,
	"eval_rewards/chosen": -0.44428348541259766,
	"eval_rewards/margins": 0.5761240124702454,
	"eval_rewards/rejected": -1.0204075574874878,
	"eval_runtime": 89.9125,
	"eval_samples_per_second": 20.364,
	"eval_steps_per_second": 0.323,
	"step": 100
	},
	{
	"epoch": 0.25142857142857145,
	"grad_norm": 30.473603379477254,
	"learning_rate": 4.660050057270191e-07,
	"logits/chosen": -1.5161502361297607,
	"logits/rejected": -1.4007251262664795,
	"logps/chosen": -326.7287292480469,
	"logps/rejected": -381.71234130859375,
	"loss": 0.5578,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.47587689757347107,
	"rewards/margins": 0.4765087962150574,
	"rewards/rejected": -0.9523857235908508,
	"step": 110
	},
	{
	"epoch": 0.2742857142857143,
	"grad_norm": 16.07677825536776,
	"learning_rate": 4.5526448859687144e-07,
	"logits/chosen": -1.329465627670288,
	"logits/rejected": -1.2029626369476318,
	"logps/chosen": -313.04150390625,
	"logps/rejected": -344.30377197265625,
	"loss": 0.59,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.4427226483821869,
	"rewards/margins": 0.44687420129776,
	"rewards/rejected": -0.8895969390869141,
	"step": 120
	},
	{
	"epoch": 0.29714285714285715,
	"grad_norm": 19.25626895436831,
	"learning_rate": 4.432129880904388e-07,
	"logits/chosen": -1.0987221002578735,
	"logits/rejected": -0.7802125215530396,
	"logps/chosen": -344.36712646484375,
	"logps/rejected": -391.39154052734375,
	"loss": 0.5477,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.5906578302383423,
	"rewards/margins": 0.5952860116958618,
	"rewards/rejected": -1.1859437227249146,
	"step": 130
	},
	{
	"epoch": 0.32,
	"grad_norm": 32.057510195911,
	"learning_rate": 4.299274747394055e-07,
	"logits/chosen": -0.759337306022644,
	"logits/rejected": -0.5684966444969177,
	"logps/chosen": -352.746826171875,
	"logps/rejected": -371.2802734375,
	"loss": 0.5676,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.540864884853363,
	"rewards/margins": 0.43386125564575195,
	"rewards/rejected": -0.9747260808944702,
	"step": 140
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 31.167990046129457,
	"learning_rate": 4.1549280046953653e-07,
	"logits/chosen": -1.4192949533462524,
	"logits/rejected": -0.8910300135612488,
	"logps/chosen": -302.2892150878906,
	"logps/rejected": -339.9471435546875,
	"loss": 0.5509,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.45886653661727905,
	"rewards/margins": 0.62995845079422,
	"rewards/rejected": -1.0888248682022095,
	"step": 150
	},
	{
	"epoch": 0.34285714285714286,
	"eval_logits/chosen": -1.355178952217102,
	"eval_logits/rejected": -0.6634992361068726,
	"eval_logps/chosen": -323.4683532714844,
	"eval_logps/rejected": -345.5482482910156,
	"eval_loss": 0.5466835498809814,
	"eval_rewards/accuracies": 0.732758641242981,
	"eval_rewards/chosen": -0.4786438047885895,
	"eval_rewards/margins": 0.7860775589942932,
	"eval_rewards/rejected": -1.264721393585205,
	"eval_runtime": 90.391,
	"eval_samples_per_second": 20.256,
	"eval_steps_per_second": 0.321,
	"step": 150
	},
	{
	"epoch": 0.3657142857142857,
	"grad_norm": 24.250974026024966,
	"learning_rate": 4.000011566683401e-07,
	"logits/chosen": -1.3669617176055908,
	"logits/rejected": -0.9052613377571106,
	"logps/chosen": -333.5279846191406,
	"logps/rejected": -360.4810791015625,
	"loss": 0.55,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.6962090730667114,
	"rewards/margins": 0.5538384318351746,
	"rewards/rejected": -1.2500474452972412,
	"step": 160
	},
	{
	"epoch": 0.38857142857142857,
	"grad_norm": 24.704591344446357,
	"learning_rate": 3.8355148537705047e-07,
	"logits/chosen": -1.3166093826293945,
	"logits/rejected": -0.7781628966331482,
	"logps/chosen": -343.19940185546875,
	"logps/rejected": -390.14239501953125,
	"loss": 0.5266,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.6181753873825073,
	"rewards/margins": 0.671627402305603,
	"rewards/rejected": -1.2898027896881104,
	"step": 170
	},
	{
	"epoch": 0.4114285714285714,
	"grad_norm": 22.05889500026718,
	"learning_rate": 3.662488473675315e-07,
	"logits/chosen": -1.254248023033142,
	"logits/rejected": -0.8255653381347656,
	"logps/chosen": -341.5926818847656,
	"logps/rejected": -382.6631774902344,
	"loss": 0.542,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.7656871676445007,
	"rewards/margins": 0.5109010338783264,
	"rewards/rejected": -1.2765882015228271,
	"step": 180
	},
	{
	"epoch": 0.4342857142857143,
	"grad_norm": 23.909926187935003,
	"learning_rate": 3.48203751140067e-07,
	"logits/chosen": -1.0761396884918213,
	"logits/rejected": -0.6647660136222839,
	"logps/chosen": -325.56683349609375,
	"logps/rejected": -379.4165344238281,
	"loss": 0.5356,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.6315457820892334,
	"rewards/margins": 0.5936378240585327,
	"rewards/rejected": -1.2251836061477661,
	"step": 190
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 20.73701530382175,
	"learning_rate": 3.2953144712759537e-07,
	"logits/chosen": -0.5213090181350708,
	"logits/rejected": 0.013022899627685547,
	"logps/chosen": -359.0880432128906,
	"logps/rejected": -410.6299743652344,
	"loss": 0.5275,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.927217960357666,
	"rewards/margins": 0.6191995739936829,
	"rewards/rejected": -1.5464175939559937,
	"step": 200
	},
	{
	"epoch": 0.45714285714285713,
	"eval_logits/chosen": -1.0376836061477661,
	"eval_logits/rejected": -0.08949049562215805,
	"eval_logps/chosen": -327.8020935058594,
	"eval_logps/rejected": -357.148681640625,
	"eval_loss": 0.5396182537078857,
	"eval_rewards/accuracies": 0.7715517282485962,
	"eval_rewards/chosen": -0.5219810605049133,
	"eval_rewards/margins": 0.8587445020675659,
	"eval_rewards/rejected": -1.380725622177124,
	"eval_runtime": 90.1866,
	"eval_samples_per_second": 20.302,
	"eval_steps_per_second": 0.322,
	"step": 200
	},
	{
	"epoch": 0.48,
	"grad_norm": 23.237204035063847,
	"learning_rate": 3.103511916141658e-07,
	"logits/chosen": -0.9574594497680664,
	"logits/rejected": -0.16778725385665894,
	"logps/chosen": -348.38385009765625,
	"logps/rejected": -397.10321044921875,
	"loss": 0.5219,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.686768651008606,
	"rewards/margins": 0.7565571665763855,
	"rewards/rejected": -1.4433258771896362,
	"step": 210
	},
	{
	"epoch": 0.5028571428571429,
	"grad_norm": 19.18259747527528,
	"learning_rate": 2.9078548506882117e-07,
	"logits/chosen": -0.37646159529685974,
	"logits/rejected": 0.516203761100769,
	"logps/chosen": -383.25811767578125,
	"logps/rejected": -413.0987243652344,
	"loss": 0.5326,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.8871996998786926,
	"rewards/margins": 0.6418129205703735,
	"rewards/rejected": -1.529012680053711,
	"step": 220
	},
	{
	"epoch": 0.5257142857142857,
	"grad_norm": 21.792119076799803,
	"learning_rate": 2.709592897595191e-07,
	"logits/chosen": -0.94196617603302,
	"logits/rejected": -0.2367326021194458,
	"logps/chosen": -343.68157958984375,
	"logps/rejected": -391.78729248046875,
	"loss": 0.5313,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.583425760269165,
	"rewards/margins": 0.6397222280502319,
	"rewards/rejected": -1.2231481075286865,
	"step": 230
	},
	{
	"epoch": 0.5485714285714286,
	"grad_norm": 23.250665470567046,
	"learning_rate": 2.509992316440332e-07,
	"logits/chosen": -0.7590802907943726,
	"logits/rejected": 0.23232534527778625,
	"logps/chosen": -375.7669982910156,
	"logps/rejected": -393.1439208984375,
	"loss": 0.5083,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.661091685295105,
	"rewards/margins": 0.7419286370277405,
	"rewards/rejected": -1.4030205011367798,
	"step": 240
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 23.283347220975337,
	"learning_rate": 2.3103279163519918e-07,
	"logits/chosen": 0.3902924656867981,
	"logits/rejected": 1.2702767848968506,
	"logps/chosen": -430.42510986328125,
	"logps/rejected": -429.90240478515625,
	"loss": 0.5665,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.4317457675933838,
	"rewards/margins": 0.5207899808883667,
	"rewards/rejected": -1.95253586769104,
	"step": 250
	},
	{
	"epoch": 0.5714285714285714,
	"eval_logits/chosen": 0.2878158688545227,
	"eval_logits/rejected": 1.5253632068634033,
	"eval_logps/chosen": -384.02301025390625,
	"eval_logps/rejected": -415.1577453613281,
	"eval_loss": 0.5404527187347412,
	"eval_rewards/accuracies": 0.7629310488700867,
	"eval_rewards/chosen": -1.0841907262802124,
	"eval_rewards/margins": 0.8766254782676697,
	"eval_rewards/rejected": -1.9608159065246582,
	"eval_runtime": 91.5614,
	"eval_samples_per_second": 19.998,
	"eval_steps_per_second": 0.317,
	"step": 250
	},
	{
	"epoch": 0.5942857142857143,
	"grad_norm": 28.334390897274133,
	"learning_rate": 2.1118749140573358e-07,
	"logits/chosen": -0.2290700227022171,
	"logits/rejected": 0.8288987278938293,
	"logps/chosen": -408.00201416015625,
	"logps/rejected": -452.023681640625,
	"loss": 0.5197,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.9032201766967773,
	"rewards/margins": 0.8297585248947144,
	"rewards/rejected": -1.7329788208007812,
	"step": 260
	},
	{
	"epoch": 0.6171428571428571,
	"grad_norm": 23.854460344353054,
	"learning_rate": 1.9159007893272703e-07,
	"logits/chosen": -0.17421701550483704,
	"logits/rejected": 0.6511275172233582,
	"logps/chosen": -342.1952209472656,
	"logps/rejected": -396.54083251953125,
	"loss": 0.5294,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.7613161206245422,
	"rewards/margins": 0.7101620435714722,
	"rewards/rejected": -1.4714782238006592,
	"step": 270
	},
	{
	"epoch": 0.64,
	"grad_norm": 27.414501100794606,
	"learning_rate": 1.7236571898357766e-07,
	"logits/chosen": -0.08564956486225128,
	"logits/rejected": 0.9427372813224792,
	"logps/chosen": -367.49407958984375,
	"logps/rejected": -409.3499755859375,
	"loss": 0.518,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.8473467826843262,
	"rewards/margins": 0.8089747428894043,
	"rewards/rejected": -1.6563212871551514,
	"step": 280
	},
	{
	"epoch": 0.6628571428571428,
	"grad_norm": 23.166387688948994,
	"learning_rate": 1.5363719371356882e-07,
	"logits/chosen": 0.06339935958385468,
	"logits/rejected": 0.5719184875488281,
	"logps/chosen": -360.3900451660156,
	"logps/rejected": -409.3319091796875,
	"loss": 0.5387,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.9427051544189453,
	"rewards/margins": 0.5575781464576721,
	"rewards/rejected": -1.500283122062683,
	"step": 290
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 28.449941474840944,
	"learning_rate": 1.3552411848071565e-07,
	"logits/chosen": -0.3682107627391815,
	"logits/rejected": 0.5333132743835449,
	"logps/chosen": -333.92449951171875,
	"logps/rejected": -425.3599548339844,
	"loss": 0.5202,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.7675741314888,
	"rewards/margins": 0.9044278264045715,
	"rewards/rejected": -1.6720020771026611,
	"step": 300
	},
	{
	"epoch": 0.6857142857142857,
	"eval_logits/chosen": -0.21915225684642792,
	"eval_logits/rejected": 0.9934114813804626,
	"eval_logps/chosen": -349.8433837890625,
	"eval_logps/rejected": -392.549560546875,
	"eval_loss": 0.5274777412414551,
	"eval_rewards/accuracies": 0.7715517282485962,
	"eval_rewards/chosen": -0.7423940300941467,
	"eval_rewards/margins": 0.9923400282859802,
	"eval_rewards/rejected": -1.734734058380127,
	"eval_runtime": 90.6157,
	"eval_samples_per_second": 20.206,
	"eval_steps_per_second": 0.32,
	"step": 300
	},
	{
	"epoch": 0.7085714285714285,
	"grad_norm": 21.530490280501045,
	"learning_rate": 1.1814217788631473e-07,
	"logits/chosen": -0.17677690088748932,
	"logits/rejected": 0.3225722908973694,
	"logps/chosen": -356.5892639160156,
	"logps/rejected": -431.662109375,
	"loss": 0.5328,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.8150566816329956,
	"rewards/margins": 0.6877792477607727,
	"rewards/rejected": -1.502835988998413,
	"step": 310
	},
	{
	"epoch": 0.7314285714285714,
	"grad_norm": 26.395907969219987,
	"learning_rate": 1.0160238692045331e-07,
	"logits/chosen": -0.2509198486804962,
	"logits/rejected": 0.4886396527290344,
	"logps/chosen": -359.4185485839844,
	"logps/rejected": -413.3671875,
	"loss": 0.535,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.8422183990478516,
	"rewards/margins": 0.7798849940299988,
	"rewards/rejected": -1.6221033334732056,
	"step": 320
	},
	{
	"epoch": 0.7542857142857143,
	"grad_norm": 25.409253983308545,
	"learning_rate": 8.601038193139438e-08,
	"logits/chosen": -0.13014790415763855,
	"logits/rejected": 0.5298113822937012,
	"logps/chosen": -378.82012939453125,
	"logps/rejected": -402.17156982421875,
	"loss": 0.5302,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.973560631275177,
	"rewards/margins": 0.6031589508056641,
	"rewards/rejected": -1.5767196416854858,
	"step": 330
	},
	{
	"epoch": 0.7771428571428571,
	"grad_norm": 26.91341277336219,
	"learning_rate": 7.146574594727572e-08,
	"logits/chosen": -0.4229533076286316,
	"logits/rejected": 0.5619645714759827,
	"logps/chosen": -363.5431213378906,
	"logps/rejected": -404.77935791015625,
	"loss": 0.5192,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.8485255241394043,
	"rewards/margins": 0.8047366142272949,
	"rewards/rejected": -1.6532618999481201,
	"step": 340
	},
	{
	"epoch": 0.8,
	"grad_norm": 24.565353732521466,
	"learning_rate": 5.8061372659157306e-08,
	"logits/chosen": -0.17489977180957794,
	"logits/rejected": 0.7508963346481323,
	"logps/chosen": -371.7098693847656,
	"logps/rejected": -395.7353210449219,
	"loss": 0.5261,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.8898698091506958,
	"rewards/margins": 0.6660181879997253,
	"rewards/rejected": -1.5558879375457764,
	"step": 350
	},
	{
	"epoch": 0.8,
	"eval_logits/chosen": -0.2696850597858429,
	"eval_logits/rejected": 0.9007923007011414,
	"eval_logps/chosen": -351.73101806640625,
	"eval_logps/rejected": -391.03973388671875,
	"eval_loss": 0.5234382748603821,
	"eval_rewards/accuracies": 0.7586206793785095,
	"eval_rewards/chosen": -0.76127028465271,
	"eval_rewards/margins": 0.9583660364151001,
	"eval_rewards/rejected": -1.71963632106781,
	"eval_runtime": 90.1922,
	"eval_samples_per_second": 20.301,
	"eval_steps_per_second": 0.322,
	"step": 350
	},
	{
	"epoch": 0.8228571428571428,
	"grad_norm": 26.528490406026805,
	"learning_rate": 4.5882873127531614e-08,
	"logits/chosen": -0.18714679777622223,
	"logits/rejected": 0.5642833113670349,
	"logps/chosen": -389.9281921386719,
	"logps/rejected": -425.6780700683594,
	"loss": 0.5053,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.8513727188110352,
	"rewards/margins": 0.6271126866340637,
	"rewards/rejected": -1.478485345840454,
	"step": 360
	},
	{
	"epoch": 0.8457142857142858,
	"grad_norm": 26.160208453826513,
	"learning_rate": 3.500802900154412e-08,
	"logits/chosen": -0.11366554349660873,
	"logits/rejected": 0.7036272287368774,
	"logps/chosen": -315.89349365234375,
	"logps/rejected": -380.2809143066406,
	"loss": 0.5279,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.7633152008056641,
	"rewards/margins": 0.7076437473297119,
	"rewards/rejected": -1.470958948135376,
	"step": 370
	},
	{
	"epoch": 0.8685714285714285,
	"grad_norm": 22.845593504615394,
	"learning_rate": 2.550629574310309e-08,
	"logits/chosen": -0.2266564667224884,
	"logits/rejected": 0.5173102021217346,
	"logps/chosen": -349.7990417480469,
	"logps/rejected": -402.1055603027344,
	"loss": 0.5236,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.7807506918907166,
	"rewards/margins": 0.665580689907074,
	"rewards/rejected": -1.4463313817977905,
	"step": 380
	},
	{
	"epoch": 0.8914285714285715,
	"grad_norm": 22.30415183791987,
	"learning_rate": 1.7438359028687983e-08,
	"logits/chosen": -0.18654844164848328,
	"logits/rejected": 0.17555546760559082,
	"logps/chosen": -343.80609130859375,
	"logps/rejected": -413.258544921875,
	"loss": 0.5215,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.8466179966926575,
	"rewards/margins": 0.5847481489181519,
	"rewards/rejected": -1.431365966796875,
	"step": 390
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 25.36293321655948,
	"learning_rate": 1.0855747162029361e-08,
	"logits/chosen": -0.39323678612709045,
	"logits/rejected": 0.6321589946746826,
	"logps/chosen": -364.44781494140625,
	"logps/rejected": -393.2674865722656,
	"loss": 0.5343,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.7503901720046997,
	"rewards/margins": 0.7446303963661194,
	"rewards/rejected": -1.4950206279754639,
	"step": 400
	},
	{
	"epoch": 0.9142857142857143,
	"eval_logits/chosen": -0.3663737177848816,
	"eval_logits/rejected": 0.7649080157279968,
	"eval_logps/chosen": -345.4830017089844,
	"eval_logps/rejected": -382.0352478027344,
	"eval_loss": 0.5226701498031616,
	"eval_rewards/accuracies": 0.7629310488700867,
	"eval_rewards/chosen": -0.6987906098365784,
	"eval_rewards/margins": 0.9308006763458252,
	"eval_rewards/rejected": -1.6295913457870483,
	"eval_runtime": 91.5738,
	"eval_samples_per_second": 19.995,
	"eval_steps_per_second": 0.317,
	"step": 400
	},
	{
	"epoch": 0.9371428571428572,
	"grad_norm": 21.80106996482806,
	"learning_rate": 5.8005019731033615e-09,
	"logits/chosen": -0.4477500021457672,
	"logits/rejected": 0.4871234893798828,
	"logps/chosen": -340.3522033691406,
	"logps/rejected": -401.26629638671875,
	"loss": 0.5153,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.6757135391235352,
	"rewards/margins": 0.9294708371162415,
	"rewards/rejected": -1.6051843166351318,
	"step": 410
	},
	{
	"epoch": 0.96,
	"grad_norm": 23.103516202896476,
	"learning_rate": 2.3049103053431886e-09,
	"logits/chosen": -0.3995040953159332,
	"logits/rejected": 0.3316659927368164,
	"logps/chosen": -386.6695861816406,
	"logps/rejected": -383.6183776855469,
	"loss": 0.5348,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.7931796312332153,
	"rewards/margins": 0.6191332936286926,
	"rewards/rejected": -1.4123131036758423,
	"step": 420
	},
	{
	"epoch": 0.9828571428571429,
	"grad_norm": 22.91261742161674,
	"learning_rate": 3.9129780600541397e-10,
	"logits/chosen": -0.2376430332660675,
	"logits/rejected": 0.6147540807723999,
	"logps/chosen": -368.62451171875,
	"logps/rejected": -394.5757751464844,
	"loss": 0.5369,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.8315681219100952,
	"rewards/margins": 0.7056232690811157,
	"rewards/rejected": -1.53719162940979,
	"step": 430
	},
	{
	"epoch": 0.9988571428571429,
	"step": 437,
	"total_flos": 0.0,
	"train_loss": 0.5600041279258117,
	"train_runtime": 11271.3049,
	"train_samples_per_second": 4.968,
	"train_steps_per_second": 0.039
	}
	],
	"logging_steps": 10,
	"max_steps": 437,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}