phi3-lora-arc3 / trainer_state.json

Upload folder using huggingface_hub

e857de0 verified 8 months ago

21.5 kB

	{
	"best_metric": 1.311687707901001,
	"best_model_checkpoint": "./output/checkpoints/2024-06-11_13-53-54/checkpoint-10",
	"epoch": 3.0,
	"eval_steps": 1,
	"global_step": 54,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05555555555555555,
	"grad_norm": 1.9413901567459106,
	"learning_rate": 6.666666666666667e-05,
	"loss": 3.544,
	"step": 1
	},
	{
	"epoch": 0.05555555555555555,
	"eval_loss": 3.981394052505493,
	"eval_runtime": 12.5428,
	"eval_samples_per_second": 11.401,
	"eval_steps_per_second": 0.718,
	"step": 1
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 2.0220563411712646,
	"learning_rate": 0.00013333333333333334,
	"loss": 3.6373,
	"step": 2
	},
	{
	"epoch": 0.1111111111111111,
	"eval_loss": 3.788512706756592,
	"eval_runtime": 12.6976,
	"eval_samples_per_second": 11.262,
	"eval_steps_per_second": 0.709,
	"step": 2
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 1.90468430519104,
	"learning_rate": 0.0002,
	"loss": 3.3119,
	"step": 3
	},
	{
	"epoch": 0.16666666666666666,
	"eval_loss": 3.026510238647461,
	"eval_runtime": 12.655,
	"eval_samples_per_second": 11.3,
	"eval_steps_per_second": 0.711,
	"step": 3
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 2.224761724472046,
	"learning_rate": 0.0002666666666666667,
	"loss": 2.5408,
	"step": 4
	},
	{
	"epoch": 0.2222222222222222,
	"eval_loss": 2.1147303581237793,
	"eval_runtime": 12.7118,
	"eval_samples_per_second": 11.249,
	"eval_steps_per_second": 0.708,
	"step": 4
	},
	{
	"epoch": 0.2777777777777778,
	"grad_norm": 1.1557661294937134,
	"learning_rate": 0.0003333333333333334,
	"loss": 1.7003,
	"step": 5
	},
	{
	"epoch": 0.2777777777777778,
	"eval_loss": 1.702366590499878,
	"eval_runtime": 12.7156,
	"eval_samples_per_second": 11.246,
	"eval_steps_per_second": 0.708,
	"step": 5
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 1.0826658010482788,
	"learning_rate": 0.0004,
	"loss": 1.3464,
	"step": 6
	},
	{
	"epoch": 0.3333333333333333,
	"eval_loss": 1.4100245237350464,
	"eval_runtime": 12.7488,
	"eval_samples_per_second": 11.217,
	"eval_steps_per_second": 0.706,
	"step": 6
	},
	{
	"epoch": 0.3888888888888889,
	"grad_norm": 0.7294781804084778,
	"learning_rate": 0.0003916666666666667,
	"loss": 1.0757,
	"step": 7
	},
	{
	"epoch": 0.3888888888888889,
	"eval_loss": 1.2797588109970093,
	"eval_runtime": 12.7015,
	"eval_samples_per_second": 11.259,
	"eval_steps_per_second": 0.709,
	"step": 7
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.6977319121360779,
	"learning_rate": 0.00038333333333333334,
	"loss": 0.9387,
	"step": 8
	},
	{
	"epoch": 0.4444444444444444,
	"eval_loss": 1.233304738998413,
	"eval_runtime": 12.7924,
	"eval_samples_per_second": 11.179,
	"eval_steps_per_second": 0.704,
	"step": 8
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.25461432337760925,
	"learning_rate": 0.000375,
	"loss": 0.8435,
	"step": 9
	},
	{
	"epoch": 0.5,
	"eval_loss": 1.256897211074829,
	"eval_runtime": 12.7345,
	"eval_samples_per_second": 11.229,
	"eval_steps_per_second": 0.707,
	"step": 9
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 0.20771068334579468,
	"learning_rate": 0.00036666666666666667,
	"loss": 0.7791,
	"step": 10
	},
	{
	"epoch": 0.5555555555555556,
	"eval_loss": 1.311687707901001,
	"eval_runtime": 12.7288,
	"eval_samples_per_second": 11.234,
	"eval_steps_per_second": 0.707,
	"step": 10
	},
	{
	"epoch": 0.6111111111111112,
	"grad_norm": 0.24797727167606354,
	"learning_rate": 0.0003583333333333334,
	"loss": 0.7485,
	"step": 11
	},
	{
	"epoch": 0.6111111111111112,
	"eval_loss": 1.3500157594680786,
	"eval_runtime": 12.7478,
	"eval_samples_per_second": 11.218,
	"eval_steps_per_second": 0.706,
	"step": 11
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.23104745149612427,
	"learning_rate": 0.00035,
	"loss": 0.6892,
	"step": 12
	},
	{
	"epoch": 0.6666666666666666,
	"eval_loss": 1.3617342710494995,
	"eval_runtime": 12.6893,
	"eval_samples_per_second": 11.269,
	"eval_steps_per_second": 0.709,
	"step": 12
	},
	{
	"epoch": 0.7222222222222222,
	"grad_norm": 0.16125920414924622,
	"learning_rate": 0.00034166666666666666,
	"loss": 0.6602,
	"step": 13
	},
	{
	"epoch": 0.7222222222222222,
	"eval_loss": 1.3614617586135864,
	"eval_runtime": 12.6941,
	"eval_samples_per_second": 11.265,
	"eval_steps_per_second": 0.709,
	"step": 13
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 0.1296168714761734,
	"learning_rate": 0.0003333333333333334,
	"loss": 0.6505,
	"step": 14
	},
	{
	"epoch": 0.7777777777777778,
	"eval_loss": 1.3570654392242432,
	"eval_runtime": 12.7115,
	"eval_samples_per_second": 11.25,
	"eval_steps_per_second": 0.708,
	"step": 14
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.14436963200569153,
	"learning_rate": 0.00032500000000000004,
	"loss": 0.6267,
	"step": 15
	},
	{
	"epoch": 0.8333333333333334,
	"eval_loss": 1.3531259298324585,
	"eval_runtime": 12.7384,
	"eval_samples_per_second": 11.226,
	"eval_steps_per_second": 0.707,
	"step": 15
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.1280059963464737,
	"learning_rate": 0.00031666666666666665,
	"loss": 0.6341,
	"step": 16
	},
	{
	"epoch": 0.8888888888888888,
	"eval_loss": 1.3554112911224365,
	"eval_runtime": 12.8038,
	"eval_samples_per_second": 11.169,
	"eval_steps_per_second": 0.703,
	"step": 16
	},
	{
	"epoch": 0.9444444444444444,
	"grad_norm": 0.09258498251438141,
	"learning_rate": 0.00030833333333333337,
	"loss": 0.6277,
	"step": 17
	},
	{
	"epoch": 0.9444444444444444,
	"eval_loss": 1.3708301782608032,
	"eval_runtime": 12.7261,
	"eval_samples_per_second": 11.237,
	"eval_steps_per_second": 0.707,
	"step": 17
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.14155693352222443,
	"learning_rate": 0.00030000000000000003,
	"loss": 0.6253,
	"step": 18
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.3944224119186401,
	"eval_runtime": 12.6915,
	"eval_samples_per_second": 11.267,
	"eval_steps_per_second": 0.709,
	"step": 18
	},
	{
	"epoch": 1.0555555555555556,
	"grad_norm": 0.07174329459667206,
	"learning_rate": 0.0002916666666666667,
	"loss": 0.5724,
	"step": 19
	},
	{
	"epoch": 1.0555555555555556,
	"eval_loss": 1.4162791967391968,
	"eval_runtime": 12.8162,
	"eval_samples_per_second": 11.158,
	"eval_steps_per_second": 0.702,
	"step": 19
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 0.06882944703102112,
	"learning_rate": 0.00028333333333333335,
	"loss": 0.6061,
	"step": 20
	},
	{
	"epoch": 1.1111111111111112,
	"eval_loss": 1.4311778545379639,
	"eval_runtime": 12.7151,
	"eval_samples_per_second": 11.246,
	"eval_steps_per_second": 0.708,
	"step": 20
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.07908931374549866,
	"learning_rate": 0.000275,
	"loss": 0.5886,
	"step": 21
	},
	{
	"epoch": 1.1666666666666667,
	"eval_loss": 1.4312688112258911,
	"eval_runtime": 12.7335,
	"eval_samples_per_second": 11.23,
	"eval_steps_per_second": 0.707,
	"step": 21
	},
	{
	"epoch": 1.2222222222222223,
	"grad_norm": 0.07461100816726685,
	"learning_rate": 0.0002666666666666667,
	"loss": 0.5774,
	"step": 22
	},
	{
	"epoch": 1.2222222222222223,
	"eval_loss": 1.4189623594284058,
	"eval_runtime": 12.7737,
	"eval_samples_per_second": 11.195,
	"eval_steps_per_second": 0.705,
	"step": 22
	},
	{
	"epoch": 1.2777777777777777,
	"grad_norm": 0.06924545019865036,
	"learning_rate": 0.00025833333333333334,
	"loss": 0.5735,
	"step": 23
	},
	{
	"epoch": 1.2777777777777777,
	"eval_loss": 1.3990516662597656,
	"eval_runtime": 12.8077,
	"eval_samples_per_second": 11.165,
	"eval_steps_per_second": 0.703,
	"step": 23
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.056572116911411285,
	"learning_rate": 0.00025,
	"loss": 0.563,
	"step": 24
	},
	{
	"epoch": 1.3333333333333333,
	"eval_loss": 1.3818256855010986,
	"eval_runtime": 12.7694,
	"eval_samples_per_second": 11.199,
	"eval_steps_per_second": 0.705,
	"step": 24
	},
	{
	"epoch": 1.3888888888888888,
	"grad_norm": 0.05974334850907326,
	"learning_rate": 0.00024166666666666667,
	"loss": 0.5334,
	"step": 25
	},
	{
	"epoch": 1.3888888888888888,
	"eval_loss": 1.3698084354400635,
	"eval_runtime": 12.7833,
	"eval_samples_per_second": 11.187,
	"eval_steps_per_second": 0.704,
	"step": 25
	},
	{
	"epoch": 1.4444444444444444,
	"grad_norm": 0.05873117223381996,
	"learning_rate": 0.00023333333333333336,
	"loss": 0.5687,
	"step": 26
	},
	{
	"epoch": 1.4444444444444444,
	"eval_loss": 1.3634446859359741,
	"eval_runtime": 12.7332,
	"eval_samples_per_second": 11.23,
	"eval_steps_per_second": 0.707,
	"step": 26
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.0712776780128479,
	"learning_rate": 0.00022500000000000002,
	"loss": 0.5681,
	"step": 27
	},
	{
	"epoch": 1.5,
	"eval_loss": 1.3670543432235718,
	"eval_runtime": 12.7169,
	"eval_samples_per_second": 11.245,
	"eval_steps_per_second": 0.708,
	"step": 27
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 0.06001581624150276,
	"learning_rate": 0.00021666666666666666,
	"loss": 0.5831,
	"step": 28
	},
	{
	"epoch": 1.5555555555555556,
	"eval_loss": 1.3755391836166382,
	"eval_runtime": 12.7091,
	"eval_samples_per_second": 11.252,
	"eval_steps_per_second": 0.708,
	"step": 28
	},
	{
	"epoch": 1.6111111111111112,
	"grad_norm": 0.059290554374456406,
	"learning_rate": 0.00020833333333333335,
	"loss": 0.5163,
	"step": 29
	},
	{
	"epoch": 1.6111111111111112,
	"eval_loss": 1.3861252069473267,
	"eval_runtime": 12.7394,
	"eval_samples_per_second": 11.225,
	"eval_steps_per_second": 0.706,
	"step": 29
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.05152224004268646,
	"learning_rate": 0.0002,
	"loss": 0.5735,
	"step": 30
	},
	{
	"epoch": 1.6666666666666665,
	"eval_loss": 1.3946057558059692,
	"eval_runtime": 12.7631,
	"eval_samples_per_second": 11.204,
	"eval_steps_per_second": 0.705,
	"step": 30
	},
	{
	"epoch": 1.7222222222222223,
	"grad_norm": 0.053750913590192795,
	"learning_rate": 0.00019166666666666667,
	"loss": 0.5616,
	"step": 31
	},
	{
	"epoch": 1.7222222222222223,
	"eval_loss": 1.4017627239227295,
	"eval_runtime": 12.7518,
	"eval_samples_per_second": 11.214,
	"eval_steps_per_second": 0.706,
	"step": 31
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.061749089509248734,
	"learning_rate": 0.00018333333333333334,
	"loss": 0.5418,
	"step": 32
	},
	{
	"epoch": 1.7777777777777777,
	"eval_loss": 1.4021672010421753,
	"eval_runtime": 13.2584,
	"eval_samples_per_second": 10.786,
	"eval_steps_per_second": 0.679,
	"step": 32
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.055768076330423355,
	"learning_rate": 0.000175,
	"loss": 0.5447,
	"step": 33
	},
	{
	"epoch": 1.8333333333333335,
	"eval_loss": 1.4005753993988037,
	"eval_runtime": 12.8325,
	"eval_samples_per_second": 11.144,
	"eval_steps_per_second": 0.701,
	"step": 33
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 0.058024097234010696,
	"learning_rate": 0.0001666666666666667,
	"loss": 0.5612,
	"step": 34
	},
	{
	"epoch": 1.8888888888888888,
	"eval_loss": 1.3969610929489136,
	"eval_runtime": 12.7822,
	"eval_samples_per_second": 11.187,
	"eval_steps_per_second": 0.704,
	"step": 34
	},
	{
	"epoch": 1.9444444444444444,
	"grad_norm": 0.055260155349969864,
	"learning_rate": 0.00015833333333333332,
	"loss": 0.5652,
	"step": 35
	},
	{
	"epoch": 1.9444444444444444,
	"eval_loss": 1.3906365633010864,
	"eval_runtime": 12.7076,
	"eval_samples_per_second": 11.253,
	"eval_steps_per_second": 0.708,
	"step": 35
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.12786947190761566,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.5689,
	"step": 36
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.3780609369277954,
	"eval_runtime": 12.722,
	"eval_samples_per_second": 11.24,
	"eval_steps_per_second": 0.707,
	"step": 36
	},
	{
	"epoch": 2.0555555555555554,
	"grad_norm": 0.05128234624862671,
	"learning_rate": 0.00014166666666666668,
	"loss": 0.5399,
	"step": 37
	},
	{
	"epoch": 2.0555555555555554,
	"eval_loss": 1.3723970651626587,
	"eval_runtime": 12.7179,
	"eval_samples_per_second": 11.244,
	"eval_steps_per_second": 0.708,
	"step": 37
	},
	{
	"epoch": 2.111111111111111,
	"grad_norm": 0.06030972674489021,
	"learning_rate": 0.00013333333333333334,
	"loss": 0.534,
	"step": 38
	},
	{
	"epoch": 2.111111111111111,
	"eval_loss": 1.3728123903274536,
	"eval_runtime": 12.7597,
	"eval_samples_per_second": 11.207,
	"eval_steps_per_second": 0.705,
	"step": 38
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 0.049170780926942825,
	"learning_rate": 0.000125,
	"loss": 0.533,
	"step": 39
	},
	{
	"epoch": 2.1666666666666665,
	"eval_loss": 1.375289797782898,
	"eval_runtime": 12.8384,
	"eval_samples_per_second": 11.138,
	"eval_steps_per_second": 0.701,
	"step": 39
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 0.05079694464802742,
	"learning_rate": 0.00011666666666666668,
	"loss": 0.5336,
	"step": 40
	},
	{
	"epoch": 2.2222222222222223,
	"eval_loss": 1.3813451528549194,
	"eval_runtime": 12.7475,
	"eval_samples_per_second": 11.218,
	"eval_steps_per_second": 0.706,
	"step": 40
	},
	{
	"epoch": 2.2777777777777777,
	"grad_norm": 0.046478718519210815,
	"learning_rate": 0.00010833333333333333,
	"loss": 0.5386,
	"step": 41
	},
	{
	"epoch": 2.2777777777777777,
	"eval_loss": 1.3882359266281128,
	"eval_runtime": 12.7759,
	"eval_samples_per_second": 11.193,
	"eval_steps_per_second": 0.704,
	"step": 41
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.05194352567195892,
	"learning_rate": 0.0001,
	"loss": 0.5277,
	"step": 42
	},
	{
	"epoch": 2.3333333333333335,
	"eval_loss": 1.396583080291748,
	"eval_runtime": 12.776,
	"eval_samples_per_second": 11.193,
	"eval_steps_per_second": 0.704,
	"step": 42
	},
	{
	"epoch": 2.388888888888889,
	"grad_norm": 0.048547472804784775,
	"learning_rate": 9.166666666666667e-05,
	"loss": 0.5222,
	"step": 43
	},
	{
	"epoch": 2.388888888888889,
	"eval_loss": 1.4045826196670532,
	"eval_runtime": 12.7747,
	"eval_samples_per_second": 11.194,
	"eval_steps_per_second": 0.705,
	"step": 43
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 0.04673220217227936,
	"learning_rate": 8.333333333333334e-05,
	"loss": 0.5182,
	"step": 44
	},
	{
	"epoch": 2.4444444444444446,
	"eval_loss": 1.4115573167800903,
	"eval_runtime": 12.7319,
	"eval_samples_per_second": 11.232,
	"eval_steps_per_second": 0.707,
	"step": 44
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.04925357550382614,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.544,
	"step": 45
	},
	{
	"epoch": 2.5,
	"eval_loss": 1.417358160018921,
	"eval_runtime": 12.8413,
	"eval_samples_per_second": 11.136,
	"eval_steps_per_second": 0.701,
	"step": 45
	},
	{
	"epoch": 2.5555555555555554,
	"grad_norm": 0.05455848202109337,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.5309,
	"step": 46
	},
	{
	"epoch": 2.5555555555555554,
	"eval_loss": 1.420274257659912,
	"eval_runtime": 12.7701,
	"eval_samples_per_second": 11.198,
	"eval_steps_per_second": 0.705,
	"step": 46
	},
	{
	"epoch": 2.611111111111111,
	"grad_norm": 0.0490451417863369,
	"learning_rate": 5.833333333333334e-05,
	"loss": 0.5514,
	"step": 47
	},
	{
	"epoch": 2.611111111111111,
	"eval_loss": 1.4224988222122192,
	"eval_runtime": 12.8347,
	"eval_samples_per_second": 11.142,
	"eval_steps_per_second": 0.701,
	"step": 47
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.049362048506736755,
	"learning_rate": 5e-05,
	"loss": 0.5202,
	"step": 48
	},
	{
	"epoch": 2.6666666666666665,
	"eval_loss": 1.423671007156372,
	"eval_runtime": 12.7791,
	"eval_samples_per_second": 11.19,
	"eval_steps_per_second": 0.704,
	"step": 48
	},
	{
	"epoch": 2.7222222222222223,
	"grad_norm": 0.05601557716727257,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.5429,
	"step": 49
	},
	{
	"epoch": 2.7222222222222223,
	"eval_loss": 1.422905683517456,
	"eval_runtime": 12.7552,
	"eval_samples_per_second": 11.211,
	"eval_steps_per_second": 0.706,
	"step": 49
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 0.052850477397441864,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.5306,
	"step": 50
	},
	{
	"epoch": 2.7777777777777777,
	"eval_loss": 1.4214112758636475,
	"eval_runtime": 12.8332,
	"eval_samples_per_second": 11.143,
	"eval_steps_per_second": 0.701,
	"step": 50
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 0.06296616047620773,
	"learning_rate": 2.5e-05,
	"loss": 0.535,
	"step": 51
	},
	{
	"epoch": 2.8333333333333335,
	"eval_loss": 1.4192702770233154,
	"eval_runtime": 12.7525,
	"eval_samples_per_second": 11.213,
	"eval_steps_per_second": 0.706,
	"step": 51
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 0.06152864173054695,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.5389,
	"step": 52
	},
	{
	"epoch": 2.888888888888889,
	"eval_loss": 1.4175350666046143,
	"eval_runtime": 12.72,
	"eval_samples_per_second": 11.242,
	"eval_steps_per_second": 0.708,
	"step": 52
	},
	{
	"epoch": 2.9444444444444446,
	"grad_norm": 0.04936552420258522,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.5438,
	"step": 53
	},
	{
	"epoch": 2.9444444444444446,
	"eval_loss": 1.4166295528411865,
	"eval_runtime": 12.785,
	"eval_samples_per_second": 11.185,
	"eval_steps_per_second": 0.704,
	"step": 53
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.11227822303771973,
	"learning_rate": 0.0,
	"loss": 0.5125,
	"step": 54
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.416577696800232,
	"eval_runtime": 12.7343,
	"eval_samples_per_second": 11.229,
	"eval_steps_per_second": 0.707,
	"step": 54
	},
	{
	"epoch": 3.0,
	"step": 54,
	"total_flos": 1.908935806471373e+16,
	"train_loss": 0.828608477557147,
	"train_runtime": 1175.7023,
	"train_samples_per_second": 1.401,
	"train_steps_per_second": 0.046
	}
	],
	"logging_steps": 1,
	"max_steps": 54,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 10,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.908935806471373e+16,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}