|
{ |
|
"best_metric": 0.7540983606557377, |
|
"best_model_checkpoint": "./save_phi2_ft_lora/checkpoint-500", |
|
"epoch": 1.4285714285714286, |
|
"eval_steps": 100, |
|
"global_step": 500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.02857142857142857, |
|
"grad_norm": 3.5220046043395996, |
|
"learning_rate": 5e-06, |
|
"loss": 5.6671, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.05714285714285714, |
|
"grad_norm": 4.667470932006836, |
|
"learning_rate": 1e-05, |
|
"loss": 5.323, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.08571428571428572, |
|
"grad_norm": 6.609537124633789, |
|
"learning_rate": 1.5e-05, |
|
"loss": 4.5029, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.11428571428571428, |
|
"grad_norm": 4.244329929351807, |
|
"learning_rate": 2e-05, |
|
"loss": 2.4999, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.14285714285714285, |
|
"grad_norm": 0.4203755557537079, |
|
"learning_rate": 2.5e-05, |
|
"loss": 1.0732, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.17142857142857143, |
|
"grad_norm": 0.26867735385894775, |
|
"learning_rate": 3e-05, |
|
"loss": 1.0087, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 0.2248707115650177, |
|
"learning_rate": 3.5e-05, |
|
"loss": 0.9067, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.22857142857142856, |
|
"grad_norm": 0.25006091594696045, |
|
"learning_rate": 4e-05, |
|
"loss": 0.8853, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.2571428571428571, |
|
"grad_norm": 0.21982619166374207, |
|
"learning_rate": 4.5e-05, |
|
"loss": 0.8736, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.2857142857142857, |
|
"grad_norm": 0.25194063782691956, |
|
"learning_rate": 5e-05, |
|
"loss": 0.8369, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.2857142857142857, |
|
"eval_accuracy": 0.7021857923497268, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.2857142857142857, |
|
"eval_loss": 0.8057097792625427, |
|
"eval_runtime": 331.5052, |
|
"eval_samples_per_second": 1.104, |
|
"eval_steps_per_second": 1.104, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.3142857142857143, |
|
"grad_norm": 0.270906537771225, |
|
"learning_rate": 4.9166666666666665e-05, |
|
"loss": 0.7878, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.34285714285714286, |
|
"grad_norm": 0.2704494893550873, |
|
"learning_rate": 4.8333333333333334e-05, |
|
"loss": 0.7437, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 0.37142857142857144, |
|
"grad_norm": 0.25035688281059265, |
|
"learning_rate": 4.75e-05, |
|
"loss": 0.7908, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 0.2699817419052124, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 0.7526, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 0.42857142857142855, |
|
"grad_norm": 0.2968941032886505, |
|
"learning_rate": 4.5833333333333334e-05, |
|
"loss": 0.7354, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.45714285714285713, |
|
"grad_norm": 0.2831765115261078, |
|
"learning_rate": 4.5e-05, |
|
"loss": 0.756, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 0.4857142857142857, |
|
"grad_norm": 0.3012459874153137, |
|
"learning_rate": 4.4166666666666665e-05, |
|
"loss": 0.7521, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 0.5142857142857142, |
|
"grad_norm": 0.30906862020492554, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.7573, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 0.5428571428571428, |
|
"grad_norm": 0.3003728985786438, |
|
"learning_rate": 4.25e-05, |
|
"loss": 0.7428, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 0.5714285714285714, |
|
"grad_norm": 0.3209737539291382, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 0.7407, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.5714285714285714, |
|
"eval_accuracy": 0.7240437158469946, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.5714285714285714, |
|
"eval_loss": 0.7259306311607361, |
|
"eval_runtime": 331.4588, |
|
"eval_samples_per_second": 1.104, |
|
"eval_steps_per_second": 1.104, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 0.31149017810821533, |
|
"learning_rate": 4.0833333333333334e-05, |
|
"loss": 0.7599, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 0.6285714285714286, |
|
"grad_norm": 0.31781327724456787, |
|
"learning_rate": 4e-05, |
|
"loss": 0.713, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 0.6571428571428571, |
|
"grad_norm": 0.2980850040912628, |
|
"learning_rate": 3.9166666666666665e-05, |
|
"loss": 0.7722, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 0.6857142857142857, |
|
"grad_norm": 0.2825135886669159, |
|
"learning_rate": 3.8333333333333334e-05, |
|
"loss": 0.6941, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 0.7142857142857143, |
|
"grad_norm": 0.2858855128288269, |
|
"learning_rate": 3.7500000000000003e-05, |
|
"loss": 0.7202, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.7428571428571429, |
|
"grad_norm": 0.2819094955921173, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 0.7106, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 0.7714285714285715, |
|
"grad_norm": 0.29901736974716187, |
|
"learning_rate": 3.5833333333333335e-05, |
|
"loss": 0.767, |
|
"step": 270 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 0.2968641519546509, |
|
"learning_rate": 3.5e-05, |
|
"loss": 0.7375, |
|
"step": 280 |
|
}, |
|
{ |
|
"epoch": 0.8285714285714286, |
|
"grad_norm": 0.3217844069004059, |
|
"learning_rate": 3.4166666666666666e-05, |
|
"loss": 0.6968, |
|
"step": 290 |
|
}, |
|
{ |
|
"epoch": 0.8571428571428571, |
|
"grad_norm": 0.3400506377220154, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.7566, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.8571428571428571, |
|
"eval_accuracy": 0.7431693989071039, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.8571428571428571, |
|
"eval_loss": 0.7050546407699585, |
|
"eval_runtime": 331.1945, |
|
"eval_samples_per_second": 1.105, |
|
"eval_steps_per_second": 1.105, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.8857142857142857, |
|
"grad_norm": 0.3682357370853424, |
|
"learning_rate": 3.2500000000000004e-05, |
|
"loss": 0.7207, |
|
"step": 310 |
|
}, |
|
{ |
|
"epoch": 0.9142857142857143, |
|
"grad_norm": 0.34006577730178833, |
|
"learning_rate": 3.1666666666666666e-05, |
|
"loss": 0.6952, |
|
"step": 320 |
|
}, |
|
{ |
|
"epoch": 0.9428571428571428, |
|
"grad_norm": 0.37775862216949463, |
|
"learning_rate": 3.0833333333333335e-05, |
|
"loss": 0.7177, |
|
"step": 330 |
|
}, |
|
{ |
|
"epoch": 0.9714285714285714, |
|
"grad_norm": 0.3271368145942688, |
|
"learning_rate": 3e-05, |
|
"loss": 0.6665, |
|
"step": 340 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 0.3994784951210022, |
|
"learning_rate": 2.916666666666667e-05, |
|
"loss": 0.7351, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 1.0285714285714285, |
|
"grad_norm": 0.35442447662353516, |
|
"learning_rate": 2.8333333333333335e-05, |
|
"loss": 0.6975, |
|
"step": 360 |
|
}, |
|
{ |
|
"epoch": 1.0571428571428572, |
|
"grad_norm": 0.3449225127696991, |
|
"learning_rate": 2.7500000000000004e-05, |
|
"loss": 0.6822, |
|
"step": 370 |
|
}, |
|
{ |
|
"epoch": 1.0857142857142856, |
|
"grad_norm": 0.3419311046600342, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 0.7181, |
|
"step": 380 |
|
}, |
|
{ |
|
"epoch": 1.1142857142857143, |
|
"grad_norm": 0.40230169892311096, |
|
"learning_rate": 2.5833333333333336e-05, |
|
"loss": 0.7192, |
|
"step": 390 |
|
}, |
|
{ |
|
"epoch": 1.1428571428571428, |
|
"grad_norm": 0.355081170797348, |
|
"learning_rate": 2.5e-05, |
|
"loss": 0.6948, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.1428571428571428, |
|
"eval_accuracy": 0.726775956284153, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.1428571428571428, |
|
"eval_loss": 0.6928464770317078, |
|
"eval_runtime": 331.5652, |
|
"eval_samples_per_second": 1.104, |
|
"eval_steps_per_second": 1.104, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.1714285714285715, |
|
"grad_norm": 0.3472757935523987, |
|
"learning_rate": 2.4166666666666667e-05, |
|
"loss": 0.6818, |
|
"step": 410 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 0.38312098383903503, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.7177, |
|
"step": 420 |
|
}, |
|
{ |
|
"epoch": 1.2285714285714286, |
|
"grad_norm": 0.3413565158843994, |
|
"learning_rate": 2.25e-05, |
|
"loss": 0.6898, |
|
"step": 430 |
|
}, |
|
{ |
|
"epoch": 1.2571428571428571, |
|
"grad_norm": 0.3629251718521118, |
|
"learning_rate": 2.1666666666666667e-05, |
|
"loss": 0.6894, |
|
"step": 440 |
|
}, |
|
{ |
|
"epoch": 1.2857142857142856, |
|
"grad_norm": 0.43241825699806213, |
|
"learning_rate": 2.0833333333333336e-05, |
|
"loss": 0.6819, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 1.3142857142857143, |
|
"grad_norm": 0.3491470217704773, |
|
"learning_rate": 2e-05, |
|
"loss": 0.6679, |
|
"step": 460 |
|
}, |
|
{ |
|
"epoch": 1.342857142857143, |
|
"grad_norm": 0.4147545099258423, |
|
"learning_rate": 1.9166666666666667e-05, |
|
"loss": 0.724, |
|
"step": 470 |
|
}, |
|
{ |
|
"epoch": 1.3714285714285714, |
|
"grad_norm": 0.3971598744392395, |
|
"learning_rate": 1.8333333333333333e-05, |
|
"loss": 0.685, |
|
"step": 480 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 0.36697500944137573, |
|
"learning_rate": 1.75e-05, |
|
"loss": 0.6852, |
|
"step": 490 |
|
}, |
|
{ |
|
"epoch": 1.4285714285714286, |
|
"grad_norm": 0.43584248423576355, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.6689, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 1.4285714285714286, |
|
"eval_accuracy": 0.7540983606557377, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 1.4285714285714286, |
|
"eval_loss": 0.6843515038490295, |
|
"eval_runtime": 331.1822, |
|
"eval_samples_per_second": 1.105, |
|
"eval_steps_per_second": 1.105, |
|
"step": 500 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 700, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 2, |
|
"save_steps": 100, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 6.573652967424e+16, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|