JudgePierce / trainer_state.json

First Commit

c1d7f70 verified 5 months ago

15.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.612048192771084,
	"eval_steps": 500,
	"global_step": 343,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0963855421686747,
	"grad_norm": 1.7634485960006714,
	"learning_rate": 4.998814299283415e-05,
	"loss": 0.8996,
	"num_input_tokens_seen": 78528,
	"step": 5
	},
	{
	"epoch": 0.1927710843373494,
	"grad_norm": 1.3068124055862427,
	"learning_rate": 4.995258321842611e-05,
	"loss": 0.6806,
	"num_input_tokens_seen": 159120,
	"step": 10
	},
	{
	"epoch": 0.2891566265060241,
	"grad_norm": 1.2104840278625488,
	"learning_rate": 4.989335440737586e-05,
	"loss": 0.618,
	"num_input_tokens_seen": 223552,
	"step": 15
	},
	{
	"epoch": 0.3855421686746988,
	"grad_norm": 1.4112542867660522,
	"learning_rate": 4.98105127417984e-05,
	"loss": 0.5594,
	"num_input_tokens_seen": 290944,
	"step": 20
	},
	{
	"epoch": 0.4819277108433735,
	"grad_norm": 0.9026587605476379,
	"learning_rate": 4.9704136802031485e-05,
	"loss": 0.5253,
	"num_input_tokens_seen": 364064,
	"step": 25
	},
	{
	"epoch": 0.5783132530120482,
	"grad_norm": 0.9427546858787537,
	"learning_rate": 4.957432749209755e-05,
	"loss": 0.4794,
	"num_input_tokens_seen": 440176,
	"step": 30
	},
	{
	"epoch": 0.6746987951807228,
	"grad_norm": 1.0594468116760254,
	"learning_rate": 4.942120794399002e-05,
	"loss": 0.4546,
	"num_input_tokens_seen": 517184,
	"step": 35
	},
	{
	"epoch": 0.7710843373493976,
	"grad_norm": 0.9458279013633728,
	"learning_rate": 4.9244923400875245e-05,
	"loss": 0.4703,
	"num_input_tokens_seen": 591424,
	"step": 40
	},
	{
	"epoch": 0.8674698795180723,
	"grad_norm": 1.1610336303710938,
	"learning_rate": 4.9045641079320484e-05,
	"loss": 0.4407,
	"num_input_tokens_seen": 662784,
	"step": 45
	},
	{
	"epoch": 0.963855421686747,
	"grad_norm": 1.0153354406356812,
	"learning_rate": 4.882355001067892e-05,
	"loss": 0.4425,
	"num_input_tokens_seen": 734784,
	"step": 50
	},
	{
	"epoch": 1.0602409638554218,
	"grad_norm": 1.0889695882797241,
	"learning_rate": 4.857886086178194e-05,
	"loss": 0.4081,
	"num_input_tokens_seen": 808336,
	"step": 55
	},
	{
	"epoch": 1.1566265060240963,
	"grad_norm": 0.9168598055839539,
	"learning_rate": 4.8311805735108894e-05,
	"loss": 0.4002,
	"num_input_tokens_seen": 882672,
	"step": 60
	},
	{
	"epoch": 1.2530120481927711,
	"grad_norm": 0.8168660998344421,
	"learning_rate": 4.802263794862385e-05,
	"loss": 0.3587,
	"num_input_tokens_seen": 947680,
	"step": 65
	},
	{
	"epoch": 1.3493975903614457,
	"grad_norm": 1.0652003288269043,
	"learning_rate": 4.7711631795488096e-05,
	"loss": 0.356,
	"num_input_tokens_seen": 1022112,
	"step": 70
	},
	{
	"epoch": 1.4457831325301205,
	"grad_norm": 1.1781517267227173,
	"learning_rate": 4.7379082283876566e-05,
	"loss": 0.3639,
	"num_input_tokens_seen": 1091744,
	"step": 75
	},
	{
	"epoch": 1.5421686746987953,
	"grad_norm": 1.0550976991653442,
	"learning_rate": 4.702530485714461e-05,
	"loss": 0.3288,
	"num_input_tokens_seen": 1163728,
	"step": 80
	},
	{
	"epoch": 1.6385542168674698,
	"grad_norm": 1.3946661949157715,
	"learning_rate": 4.665063509461097e-05,
	"loss": 0.3563,
	"num_input_tokens_seen": 1245728,
	"step": 85
	},
	{
	"epoch": 1.7349397590361446,
	"grad_norm": 1.1458536386489868,
	"learning_rate": 4.625542839324036e-05,
	"loss": 0.3642,
	"num_input_tokens_seen": 1315056,
	"step": 90
	},
	{
	"epoch": 1.8313253012048194,
	"grad_norm": 1.0227209329605103,
	"learning_rate": 4.584005963052799e-05,
	"loss": 0.3407,
	"num_input_tokens_seen": 1392224,
	"step": 95
	},
	{
	"epoch": 1.927710843373494,
	"grad_norm": 1.0699985027313232,
	"learning_rate": 4.540492280890555e-05,
	"loss": 0.3216,
	"num_input_tokens_seen": 1471008,
	"step": 100
	},
	{
	"epoch": 2.0240963855421685,
	"grad_norm": 0.8573477268218994,
	"learning_rate": 4.4950430682006e-05,
	"loss": 0.3197,
	"num_input_tokens_seen": 1546912,
	"step": 105
	},
	{
	"epoch": 2.1204819277108435,
	"grad_norm": 1.1516242027282715,
	"learning_rate": 4.447701436314176e-05,
	"loss": 0.2904,
	"num_input_tokens_seen": 1611328,
	"step": 110
	},
	{
	"epoch": 2.216867469879518,
	"grad_norm": 1.0890793800354004,
	"learning_rate": 4.398512291636768e-05,
	"loss": 0.2498,
	"num_input_tokens_seen": 1682528,
	"step": 115
	},
	{
	"epoch": 2.3132530120481927,
	"grad_norm": 1.3621636629104614,
	"learning_rate": 4.347522293051648e-05,
	"loss": 0.269,
	"num_input_tokens_seen": 1751856,
	"step": 120
	},
	{
	"epoch": 2.4096385542168672,
	"grad_norm": 1.338083028793335,
	"learning_rate": 4.294779807661105e-05,
	"loss": 0.2838,
	"num_input_tokens_seen": 1830288,
	"step": 125
	},
	{
	"epoch": 2.5060240963855422,
	"grad_norm": 1.2083592414855957,
	"learning_rate": 4.2403348649073174e-05,
	"loss": 0.2466,
	"num_input_tokens_seen": 1905296,
	"step": 130
	},
	{
	"epoch": 2.602409638554217,
	"grad_norm": 1.35024094581604,
	"learning_rate": 4.184239109116393e-05,
	"loss": 0.2272,
	"num_input_tokens_seen": 1974464,
	"step": 135
	},
	{
	"epoch": 2.6987951807228914,
	"grad_norm": 1.3738912343978882,
	"learning_rate": 4.126545750510605e-05,
	"loss": 0.2484,
	"num_input_tokens_seen": 2058176,
	"step": 140
	},
	{
	"epoch": 2.7951807228915664,
	"grad_norm": 1.5877448320388794,
	"learning_rate": 4.067309514735267e-05,
	"loss": 0.2339,
	"num_input_tokens_seen": 2124912,
	"step": 145
	},
	{
	"epoch": 2.891566265060241,
	"grad_norm": 1.3735121488571167,
	"learning_rate": 4.0065865909481417e-05,
	"loss": 0.2597,
	"num_input_tokens_seen": 2213456,
	"step": 150
	},
	{
	"epoch": 2.9879518072289155,
	"grad_norm": 1.6480368375778198,
	"learning_rate": 3.9444345785206285e-05,
	"loss": 0.2525,
	"num_input_tokens_seen": 2281680,
	"step": 155
	},
	{
	"epoch": 3.0843373493975905,
	"grad_norm": 1.2931358814239502,
	"learning_rate": 3.880912432401265e-05,
	"loss": 0.1832,
	"num_input_tokens_seen": 2349408,
	"step": 160
	},
	{
	"epoch": 3.180722891566265,
	"grad_norm": 1.4131468534469604,
	"learning_rate": 3.81608040719339e-05,
	"loss": 0.1519,
	"num_input_tokens_seen": 2425456,
	"step": 165
	},
	{
	"epoch": 3.2771084337349397,
	"grad_norm": 1.6228159666061401,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.1707,
	"num_input_tokens_seen": 2494064,
	"step": 170
	},
	{
	"epoch": 3.3734939759036147,
	"grad_norm": 1.1356842517852783,
	"learning_rate": 3.6827338920900254e-05,
	"loss": 0.1603,
	"num_input_tokens_seen": 2573616,
	"step": 175
	},
	{
	"epoch": 3.4698795180722892,
	"grad_norm": 1.3535553216934204,
	"learning_rate": 3.6143458894413465e-05,
	"loss": 0.1683,
	"num_input_tokens_seen": 2657744,
	"step": 180
	},
	{
	"epoch": 3.566265060240964,
	"grad_norm": 1.3832409381866455,
	"learning_rate": 3.544900862216959e-05,
	"loss": 0.1734,
	"num_input_tokens_seen": 2721200,
	"step": 185
	},
	{
	"epoch": 3.662650602409639,
	"grad_norm": 1.6430705785751343,
	"learning_rate": 3.474464683231698e-05,
	"loss": 0.1543,
	"num_input_tokens_seen": 2798320,
	"step": 190
	},
	{
	"epoch": 3.7590361445783134,
	"grad_norm": 1.7706836462020874,
	"learning_rate": 3.403104165467883e-05,
	"loss": 0.1601,
	"num_input_tokens_seen": 2879200,
	"step": 195
	},
	{
	"epoch": 3.855421686746988,
	"grad_norm": 1.7721610069274902,
	"learning_rate": 3.330886998699149e-05,
	"loss": 0.1911,
	"num_input_tokens_seen": 2947024,
	"step": 200
	},
	{
	"epoch": 3.9518072289156625,
	"grad_norm": 1.666278600692749,
	"learning_rate": 3.257881685282609e-05,
	"loss": 0.1741,
	"num_input_tokens_seen": 3016656,
	"step": 205
	},
	{
	"epoch": 4.048192771084337,
	"grad_norm": 1.099639892578125,
	"learning_rate": 3.1841574751802076e-05,
	"loss": 0.1334,
	"num_input_tokens_seen": 3084416,
	"step": 210
	},
	{
	"epoch": 4.144578313253012,
	"grad_norm": 1.5020925998687744,
	"learning_rate": 3.109784300270943e-05,
	"loss": 0.1027,
	"num_input_tokens_seen": 3166784,
	"step": 215
	},
	{
	"epoch": 4.240963855421687,
	"grad_norm": 2.203794240951538,
	"learning_rate": 3.0348327080162435e-05,
	"loss": 0.0955,
	"num_input_tokens_seen": 3239584,
	"step": 220
	},
	{
	"epoch": 4.337349397590361,
	"grad_norm": 1.7183223962783813,
	"learning_rate": 2.9593737945414264e-05,
	"loss": 0.1006,
	"num_input_tokens_seen": 3313360,
	"step": 225
	},
	{
	"epoch": 4.433734939759036,
	"grad_norm": 1.4102908372879028,
	"learning_rate": 2.8834791371967142e-05,
	"loss": 0.1007,
	"num_input_tokens_seen": 3377840,
	"step": 230
	},
	{
	"epoch": 4.530120481927711,
	"grad_norm": 1.214020013809204,
	"learning_rate": 2.8072207266617855e-05,
	"loss": 0.1033,
	"num_input_tokens_seen": 3455904,
	"step": 235
	},
	{
	"epoch": 4.626506024096385,
	"grad_norm": 1.5255635976791382,
	"learning_rate": 2.7306708986582553e-05,
	"loss": 0.1023,
	"num_input_tokens_seen": 3529360,
	"step": 240
	},
	{
	"epoch": 4.72289156626506,
	"grad_norm": 1.6624009609222412,
	"learning_rate": 2.653902265334858e-05,
	"loss": 0.1121,
	"num_input_tokens_seen": 3605344,
	"step": 245
	},
	{
	"epoch": 4.8192771084337345,
	"grad_norm": 1.7999521493911743,
	"learning_rate": 2.5769876463904265e-05,
	"loss": 0.1028,
	"num_input_tokens_seen": 3678352,
	"step": 250
	},
	{
	"epoch": 4.9156626506024095,
	"grad_norm": 2.1297786235809326,
	"learning_rate": 2.5e-05,
	"loss": 0.1055,
	"num_input_tokens_seen": 3752608,
	"step": 255
	},
	{
	"epoch": 5.0120481927710845,
	"grad_norm": 1.215146780014038,
	"learning_rate": 2.4230123536095748e-05,
	"loss": 0.1037,
	"num_input_tokens_seen": 3819744,
	"step": 260
	},
	{
	"epoch": 5.108433734939759,
	"grad_norm": 1.448801040649414,
	"learning_rate": 2.346097734665143e-05,
	"loss": 0.0633,
	"num_input_tokens_seen": 3896592,
	"step": 265
	},
	{
	"epoch": 5.204819277108434,
	"grad_norm": 1.220989465713501,
	"learning_rate": 2.2693291013417453e-05,
	"loss": 0.0521,
	"num_input_tokens_seen": 3970976,
	"step": 270
	},
	{
	"epoch": 5.301204819277109,
	"grad_norm": 1.3077821731567383,
	"learning_rate": 2.192779273338215e-05,
	"loss": 0.0625,
	"num_input_tokens_seen": 4051760,
	"step": 275
	},
	{
	"epoch": 5.397590361445783,
	"grad_norm": 2.02695369720459,
	"learning_rate": 2.116520862803286e-05,
	"loss": 0.059,
	"num_input_tokens_seen": 4124096,
	"step": 280
	},
	{
	"epoch": 5.493975903614458,
	"grad_norm": 1.6377320289611816,
	"learning_rate": 2.0406262054585738e-05,
	"loss": 0.0648,
	"num_input_tokens_seen": 4188448,
	"step": 285
	},
	{
	"epoch": 5.590361445783133,
	"grad_norm": 1.6187361478805542,
	"learning_rate": 1.965167291983757e-05,
	"loss": 0.0709,
	"num_input_tokens_seen": 4261056,
	"step": 290
	},
	{
	"epoch": 5.686746987951807,
	"grad_norm": 1.4855268001556396,
	"learning_rate": 1.890215699729057e-05,
	"loss": 0.0641,
	"num_input_tokens_seen": 4329024,
	"step": 295
	},
	{
	"epoch": 5.783132530120482,
	"grad_norm": 1.4216831922531128,
	"learning_rate": 1.815842524819793e-05,
	"loss": 0.0689,
	"num_input_tokens_seen": 4406624,
	"step": 300
	},
	{
	"epoch": 5.879518072289157,
	"grad_norm": 1.7383759021759033,
	"learning_rate": 1.7421183147173915e-05,
	"loss": 0.055,
	"num_input_tokens_seen": 4480352,
	"step": 305
	},
	{
	"epoch": 5.975903614457831,
	"grad_norm": 1.5599803924560547,
	"learning_rate": 1.6691130013008514e-05,
	"loss": 0.0626,
	"num_input_tokens_seen": 4554080,
	"step": 310
	},
	{
	"epoch": 6.072289156626506,
	"grad_norm": 1.028124213218689,
	"learning_rate": 1.5968958345321178e-05,
	"loss": 0.0465,
	"num_input_tokens_seen": 4628576,
	"step": 315
	},
	{
	"epoch": 6.168674698795181,
	"grad_norm": 1.4686311483383179,
	"learning_rate": 1.5255353167683017e-05,
	"loss": 0.0421,
	"num_input_tokens_seen": 4704512,
	"step": 320
	},
	{
	"epoch": 6.265060240963855,
	"grad_norm": 1.1644634008407593,
	"learning_rate": 1.4550991377830426e-05,
	"loss": 0.0303,
	"num_input_tokens_seen": 4776912,
	"step": 325
	},
	{
	"epoch": 6.36144578313253,
	"grad_norm": 1.090997338294983,
	"learning_rate": 1.3856541105586545e-05,
	"loss": 0.0337,
	"num_input_tokens_seen": 4855600,
	"step": 330
	},
	{
	"epoch": 6.457831325301205,
	"grad_norm": 1.4336110353469849,
	"learning_rate": 1.3172661079099752e-05,
	"loss": 0.0333,
	"num_input_tokens_seen": 4927600,
	"step": 335
	},
	{
	"epoch": 6.554216867469879,
	"grad_norm": 1.3488271236419678,
	"learning_rate": 1.2500000000000006e-05,
	"loss": 0.039,
	"num_input_tokens_seen": 5003184,
	"step": 340
	},
	{
	"epoch": 6.612048192771084,
	"num_input_tokens_seen": 5052448,
	"step": 343,
	"total_flos": 2.28822660837802e+17,
	"train_loss": 0.2300173058541106,
	"train_runtime": 12675.9679,
	"train_samples_per_second": 0.655,
	"train_steps_per_second": 0.04
	}
	],
	"logging_steps": 5,
	"max_steps": 510,
	"num_input_tokens_seen": 5052448,
	"num_train_epochs": 10,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.28822660837802e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}