resnet152-FV-finetuned-memes / trainer_state.json

paul

End of training

5a2e2ee over 2 years ago

12.6 kB

	{
	"best_metric": 0.758887171561051,
	"best_model_checkpoint": "resnet152-FV-finetuned-memes/checkpoint-300",
	"epoch": 19.987654320987655,
	"global_step": 400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.49,
	"learning_rate": 3e-05,
	"loss": 1.605,
	"step": 10
	},
	{
	"epoch": 0.99,
	"learning_rate": 6e-05,
	"loss": 1.5739,
	"step": 20
	},
	{
	"epoch": 0.99,
	"eval_accuracy": 0.4520865533230294,
	"eval_f1": 0.2879543301590467,
	"eval_loss": 1.542733907699585,
	"eval_precision": 0.31310616306027816,
	"eval_recall": 0.4520865533230294,
	"eval_runtime": 13.5797,
	"eval_samples_per_second": 95.289,
	"eval_steps_per_second": 1.546,
	"step": 20
	},
	{
	"epoch": 1.49,
	"learning_rate": 9e-05,
	"loss": 1.557,
	"step": 30
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00012,
	"loss": 1.4353,
	"step": 40
	},
	{
	"epoch": 1.99,
	"eval_accuracy": 0.44899536321483774,
	"eval_f1": 0.27913559166246477,
	"eval_loss": 1.378554105758667,
	"eval_precision": 0.3849846576082604,
	"eval_recall": 0.44899536321483774,
	"eval_runtime": 11.7486,
	"eval_samples_per_second": 110.141,
	"eval_steps_per_second": 1.787,
	"step": 40
	},
	{
	"epoch": 2.49,
	"learning_rate": 0.00011666666666666667,
	"loss": 1.3861,
	"step": 50
	},
	{
	"epoch": 2.99,
	"learning_rate": 0.00011333333333333333,
	"loss": 1.3026,
	"step": 60
	},
	{
	"epoch": 2.99,
	"eval_accuracy": 0.47990726429675423,
	"eval_f1": 0.33925239665034806,
	"eval_loss": 1.2733628749847412,
	"eval_precision": 0.3072903900501765,
	"eval_recall": 0.47990726429675423,
	"eval_runtime": 11.82,
	"eval_samples_per_second": 109.475,
	"eval_steps_per_second": 1.777,
	"step": 60
	},
	{
	"epoch": 3.49,
	"learning_rate": 0.00011,
	"loss": 1.2728,
	"step": 70
	},
	{
	"epoch": 3.99,
	"learning_rate": 0.00010666666666666667,
	"loss": 1.1579,
	"step": 80
	},
	{
	"epoch": 3.99,
	"eval_accuracy": 0.5278207109737248,
	"eval_f1": 0.41425802390052474,
	"eval_loss": 1.137792706489563,
	"eval_precision": 0.4299797234929115,
	"eval_recall": 0.5278207109737248,
	"eval_runtime": 11.7797,
	"eval_samples_per_second": 109.85,
	"eval_steps_per_second": 1.783,
	"step": 80
	},
	{
	"epoch": 4.49,
	"learning_rate": 0.00010333333333333334,
	"loss": 1.1096,
	"step": 90
	},
	{
	"epoch": 4.99,
	"learning_rate": 0.0001,
	"loss": 1.0276,
	"step": 100
	},
	{
	"epoch": 4.99,
	"eval_accuracy": 0.5734157650695518,
	"eval_f1": 0.4864664230611172,
	"eval_loss": 1.0231207609176636,
	"eval_precision": 0.449744448551538,
	"eval_recall": 0.5734157650695518,
	"eval_runtime": 11.7657,
	"eval_samples_per_second": 109.98,
	"eval_steps_per_second": 1.785,
	"step": 100
	},
	{
	"epoch": 5.49,
	"learning_rate": 9.666666666666667e-05,
	"loss": 0.9751,
	"step": 110
	},
	{
	"epoch": 5.99,
	"learning_rate": 9.333333333333334e-05,
	"loss": 0.8826,
	"step": 120
	},
	{
	"epoch": 5.99,
	"eval_accuracy": 0.625193199381762,
	"eval_f1": 0.5636892396732486,
	"eval_loss": 0.9227971434593201,
	"eval_precision": 0.5982698615367767,
	"eval_recall": 0.625193199381762,
	"eval_runtime": 12.7817,
	"eval_samples_per_second": 101.239,
	"eval_steps_per_second": 1.643,
	"step": 120
	},
	{
	"epoch": 6.49,
	"learning_rate": 9e-05,
	"loss": 0.8232,
	"step": 130
	},
	{
	"epoch": 6.99,
	"learning_rate": 8.666666666666667e-05,
	"loss": 0.766,
	"step": 140
	},
	{
	"epoch": 6.99,
	"eval_accuracy": 0.6661514683153014,
	"eval_f1": 0.6320349212780727,
	"eval_loss": 0.8440618515014648,
	"eval_precision": 0.647375804405681,
	"eval_recall": 0.6661514683153014,
	"eval_runtime": 11.8583,
	"eval_samples_per_second": 109.122,
	"eval_steps_per_second": 1.771,
	"step": 140
	},
	{
	"epoch": 7.49,
	"learning_rate": 8.333333333333333e-05,
	"loss": 0.7145,
	"step": 150
	},
	{
	"epoch": 7.99,
	"learning_rate": 7.999999999999999e-05,
	"loss": 0.6732,
	"step": 160
	},
	{
	"epoch": 7.99,
	"eval_accuracy": 0.6901081916537867,
	"eval_f1": 0.6704100670249821,
	"eval_loss": 0.8009499311447144,
	"eval_precision": 0.6758956033590393,
	"eval_recall": 0.6901081916537867,
	"eval_runtime": 11.8229,
	"eval_samples_per_second": 109.449,
	"eval_steps_per_second": 1.776,
	"step": 160
	},
	{
	"epoch": 8.49,
	"learning_rate": 7.666666666666667e-05,
	"loss": 0.635,
	"step": 170
	},
	{
	"epoch": 8.99,
	"learning_rate": 7.333333333333334e-05,
	"loss": 0.5653,
	"step": 180
	},
	{
	"epoch": 8.99,
	"eval_accuracy": 0.7217928902627512,
	"eval_f1": 0.7129313347452736,
	"eval_loss": 0.7535430192947388,
	"eval_precision": 0.7141409959676454,
	"eval_recall": 0.7217928902627512,
	"eval_runtime": 11.8519,
	"eval_samples_per_second": 109.181,
	"eval_steps_per_second": 1.772,
	"step": 180
	},
	{
	"epoch": 9.49,
	"learning_rate": 7.000000000000001e-05,
	"loss": 0.5358,
	"step": 190
	},
	{
	"epoch": 9.99,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.4957,
	"step": 200
	},
	{
	"epoch": 9.99,
	"eval_accuracy": 0.7256568778979907,
	"eval_f1": 0.7199928490312443,
	"eval_loss": 0.731657087802887,
	"eval_precision": 0.7247700086876532,
	"eval_recall": 0.7256568778979907,
	"eval_runtime": 12.0809,
	"eval_samples_per_second": 107.111,
	"eval_steps_per_second": 1.738,
	"step": 200
	},
	{
	"epoch": 10.49,
	"learning_rate": 6.333333333333333e-05,
	"loss": 0.471,
	"step": 210
	},
	{
	"epoch": 10.99,
	"learning_rate": 6e-05,
	"loss": 0.4534,
	"step": 220
	},
	{
	"epoch": 10.99,
	"eval_accuracy": 0.7434312210200927,
	"eval_f1": 0.7389905178601613,
	"eval_loss": 0.6807736158370972,
	"eval_precision": 0.7405180153510328,
	"eval_recall": 0.7434312210200927,
	"eval_runtime": 12.457,
	"eval_samples_per_second": 103.877,
	"eval_steps_per_second": 1.686,
	"step": 220
	},
	{
	"epoch": 11.49,
	"learning_rate": 5.6666666666666664e-05,
	"loss": 0.4102,
	"step": 230
	},
	{
	"epoch": 11.99,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.3792,
	"step": 240
	},
	{
	"epoch": 11.99,
	"eval_accuracy": 0.7449768160741885,
	"eval_f1": 0.7398936491076405,
	"eval_loss": 0.694913387298584,
	"eval_precision": 0.7453650213081748,
	"eval_recall": 0.7449768160741885,
	"eval_runtime": 11.855,
	"eval_samples_per_second": 109.153,
	"eval_steps_per_second": 1.771,
	"step": 240
	},
	{
	"epoch": 12.49,
	"learning_rate": 5e-05,
	"loss": 0.3766,
	"step": 250
	},
	{
	"epoch": 12.99,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.3489,
	"step": 260
	},
	{
	"epoch": 12.99,
	"eval_accuracy": 0.749613601236476,
	"eval_f1": 0.7474367490892962,
	"eval_loss": 0.6745789647102356,
	"eval_precision": 0.751086737820255,
	"eval_recall": 0.749613601236476,
	"eval_runtime": 11.7383,
	"eval_samples_per_second": 110.237,
	"eval_steps_per_second": 1.789,
	"step": 260
	},
	{
	"epoch": 13.49,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.3487,
	"step": 270
	},
	{
	"epoch": 13.99,
	"learning_rate": 3.9999999999999996e-05,
	"loss": 0.3113,
	"step": 280
	},
	{
	"epoch": 13.99,
	"eval_accuracy": 0.7573415765069552,
	"eval_f1": 0.7578669772980416,
	"eval_loss": 0.6637156009674072,
	"eval_precision": 0.7638354392114911,
	"eval_recall": 0.7573415765069552,
	"eval_runtime": 11.864,
	"eval_samples_per_second": 109.069,
	"eval_steps_per_second": 1.77,
	"step": 280
	},
	{
	"epoch": 14.49,
	"learning_rate": 3.666666666666667e-05,
	"loss": 0.3036,
	"step": 290
	},
	{
	"epoch": 14.99,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.2947,
	"step": 300
	},
	{
	"epoch": 14.99,
	"eval_accuracy": 0.758887171561051,
	"eval_f1": 0.7609777447379339,
	"eval_loss": 0.6451451182365417,
	"eval_precision": 0.7666890251959252,
	"eval_recall": 0.758887171561051,
	"eval_runtime": 11.5648,
	"eval_samples_per_second": 111.891,
	"eval_steps_per_second": 1.816,
	"step": 300
	},
	{
	"epoch": 15.49,
	"learning_rate": 3e-05,
	"loss": 0.2748,
	"step": 310
	},
	{
	"epoch": 15.99,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.2776,
	"step": 320
	},
	{
	"epoch": 15.99,
	"eval_accuracy": 0.7542503863987635,
	"eval_f1": 0.7525049520726458,
	"eval_loss": 0.6754108667373657,
	"eval_precision": 0.7565187938926003,
	"eval_recall": 0.7542503863987635,
	"eval_runtime": 12.7697,
	"eval_samples_per_second": 101.334,
	"eval_steps_per_second": 1.645,
	"step": 320
	},
	{
	"epoch": 16.49,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.272,
	"step": 330
	},
	{
	"epoch": 16.99,
	"learning_rate": 1.9999999999999998e-05,
	"loss": 0.2611,
	"step": 340
	},
	{
	"epoch": 16.99,
	"eval_accuracy": 0.7550231839258115,
	"eval_f1": 0.7529156321916382,
	"eval_loss": 0.6808292269706726,
	"eval_precision": 0.7606561956666212,
	"eval_recall": 0.7550231839258115,
	"eval_runtime": 11.6273,
	"eval_samples_per_second": 111.29,
	"eval_steps_per_second": 1.806,
	"step": 340
	},
	{
	"epoch": 17.49,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.2508,
	"step": 350
	},
	{
	"epoch": 17.99,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.2428,
	"step": 360
	},
	{
	"epoch": 17.99,
	"eval_accuracy": 0.7457496136012365,
	"eval_f1": 0.7403755418120831,
	"eval_loss": 0.7005118727684021,
	"eval_precision": 0.7497269917356472,
	"eval_recall": 0.7457496136012365,
	"eval_runtime": 11.7515,
	"eval_samples_per_second": 110.114,
	"eval_steps_per_second": 1.787,
	"step": 360
	},
	{
	"epoch": 18.49,
	"learning_rate": 9.999999999999999e-06,
	"loss": 0.2479,
	"step": 370
	},
	{
	"epoch": 18.99,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.2346,
	"step": 380
	},
	{
	"epoch": 18.99,
	"eval_accuracy": 0.7573415765069552,
	"eval_f1": 0.7590201528020784,
	"eval_loss": 0.6597253680229187,
	"eval_precision": 0.7642128778135023,
	"eval_recall": 0.7573415765069552,
	"eval_runtime": 11.869,
	"eval_samples_per_second": 109.024,
	"eval_steps_per_second": 1.769,
	"step": 380
	},
	{
	"epoch": 19.49,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.2312,
	"step": 390
	},
	{
	"epoch": 19.99,
	"learning_rate": 0.0,
	"loss": 0.2367,
	"step": 400
	},
	{
	"epoch": 19.99,
	"eval_accuracy": 0.7557959814528593,
	"eval_f1": 0.7545674798253312,
	"eval_loss": 0.6771848797798157,
	"eval_precision": 0.7556690736625777,
	"eval_recall": 0.7557959814528593,
	"eval_runtime": 12.018,
	"eval_samples_per_second": 107.672,
	"eval_steps_per_second": 1.747,
	"step": 400
	},
	{
	"epoch": 19.99,
	"step": 400,
	"total_flos": 5.432231359979311e+18,
	"train_loss": 0.6680345350503921,
	"train_runtime": 1446.6101,
	"train_samples_per_second": 71.533,
	"train_steps_per_second": 0.277
	}
	],
	"max_steps": 400,
	"num_train_epochs": 20,
	"total_flos": 5.432231359979311e+18,
	"trial_name": null,
	"trial_params": null
	}