HydraLM
/

expert-16

Model card Files Files and versions Community

expert-16 / checkpoint-800 /trainer_state.json

Farouk

Training in progress, step 800

8bb1e82 over 1 year ago

24.8 kB

	{
	"best_metric": 0.7563537359237671,
	"best_model_checkpoint": "experts/expert-16/checkpoint-800",
	"epoch": 0.2534854245880862,
	"global_step": 800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 0.8339,
	"step": 10
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.8289,
	"step": 20
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.9041,
	"step": 30
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 0.8491,
	"step": 40
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 0.8151,
	"step": 50
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 0.79,
	"step": 60
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 0.7835,
	"step": 70
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 0.8831,
	"step": 80
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 0.8607,
	"step": 90
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 0.7876,
	"step": 100
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 0.8031,
	"step": 110
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 0.8207,
	"step": 120
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 0.807,
	"step": 130
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 0.9262,
	"step": 140
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 0.7964,
	"step": 150
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 0.7879,
	"step": 160
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 0.7587,
	"step": 170
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 0.8091,
	"step": 180
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 0.8615,
	"step": 190
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 0.8672,
	"step": 200
	},
	{
	"epoch": 0.06,
	"eval_loss": 0.7779108881950378,
	"eval_runtime": 110.9863,
	"eval_samples_per_second": 9.01,
	"eval_steps_per_second": 4.505,
	"step": 200
	},
	{
	"epoch": 0.06,
	"mmlu_eval_accuracy": 0.4744171116325413,
	"mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
	"mmlu_eval_accuracy_anatomy": 0.7142857142857143,
	"mmlu_eval_accuracy_astronomy": 0.4375,
	"mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
	"mmlu_eval_accuracy_clinical_knowledge": 0.4482758620689655,
	"mmlu_eval_accuracy_college_biology": 0.4375,
	"mmlu_eval_accuracy_college_chemistry": 0.125,
	"mmlu_eval_accuracy_college_computer_science": 0.18181818181818182,
	"mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
	"mmlu_eval_accuracy_college_medicine": 0.45454545454545453,
	"mmlu_eval_accuracy_college_physics": 0.36363636363636365,
	"mmlu_eval_accuracy_computer_security": 0.36363636363636365,
	"mmlu_eval_accuracy_conceptual_physics": 0.34615384615384615,
	"mmlu_eval_accuracy_econometrics": 0.16666666666666666,
	"mmlu_eval_accuracy_electrical_engineering": 0.25,
	"mmlu_eval_accuracy_elementary_mathematics": 0.3170731707317073,
	"mmlu_eval_accuracy_formal_logic": 0.07142857142857142,
	"mmlu_eval_accuracy_global_facts": 0.4,
	"mmlu_eval_accuracy_high_school_biology": 0.375,
	"mmlu_eval_accuracy_high_school_chemistry": 0.22727272727272727,
	"mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
	"mmlu_eval_accuracy_high_school_european_history": 0.6666666666666666,
	"mmlu_eval_accuracy_high_school_geography": 0.8636363636363636,
	"mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
	"mmlu_eval_accuracy_high_school_macroeconomics": 0.4418604651162791,
	"mmlu_eval_accuracy_high_school_mathematics": 0.20689655172413793,
	"mmlu_eval_accuracy_high_school_microeconomics": 0.3076923076923077,
	"mmlu_eval_accuracy_high_school_physics": 0.11764705882352941,
	"mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
	"mmlu_eval_accuracy_high_school_statistics": 0.30434782608695654,
	"mmlu_eval_accuracy_high_school_us_history": 0.5909090909090909,
	"mmlu_eval_accuracy_high_school_world_history": 0.7692307692307693,
	"mmlu_eval_accuracy_human_aging": 0.6956521739130435,
	"mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
	"mmlu_eval_accuracy_international_law": 0.8461538461538461,
	"mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
	"mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
	"mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
	"mmlu_eval_accuracy_management": 0.6363636363636364,
	"mmlu_eval_accuracy_marketing": 0.88,
	"mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
	"mmlu_eval_accuracy_miscellaneous": 0.6627906976744186,
	"mmlu_eval_accuracy_moral_disputes": 0.4473684210526316,
	"mmlu_eval_accuracy_moral_scenarios": 0.27,
	"mmlu_eval_accuracy_nutrition": 0.6666666666666666,
	"mmlu_eval_accuracy_philosophy": 0.5,
	"mmlu_eval_accuracy_prehistory": 0.42857142857142855,
	"mmlu_eval_accuracy_professional_accounting": 0.3225806451612903,
	"mmlu_eval_accuracy_professional_law": 0.3176470588235294,
	"mmlu_eval_accuracy_professional_medicine": 0.5483870967741935,
	"mmlu_eval_accuracy_professional_psychology": 0.4927536231884058,
	"mmlu_eval_accuracy_public_relations": 0.6666666666666666,
	"mmlu_eval_accuracy_security_studies": 0.5185185185185185,
	"mmlu_eval_accuracy_sociology": 0.6818181818181818,
	"mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
	"mmlu_eval_accuracy_virology": 0.5555555555555556,
	"mmlu_eval_accuracy_world_religions": 0.7368421052631579,
	"mmlu_loss": 1.5868234255450824,
	"step": 200
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 0.8316,
	"step": 210
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 0.8454,
	"step": 220
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 0.8434,
	"step": 230
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 0.821,
	"step": 240
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 0.7893,
	"step": 250
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 0.8242,
	"step": 260
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 0.8128,
	"step": 270
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 0.8344,
	"step": 280
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 0.8338,
	"step": 290
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 0.7981,
	"step": 300
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 0.781,
	"step": 310
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 0.7717,
	"step": 320
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 0.767,
	"step": 330
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 0.7925,
	"step": 340
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 0.8226,
	"step": 350
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 0.7912,
	"step": 360
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002,
	"loss": 0.8093,
	"step": 370
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002,
	"loss": 0.7648,
	"step": 380
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002,
	"loss": 0.7866,
	"step": 390
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002,
	"loss": 0.7976,
	"step": 400
	},
	{
	"epoch": 0.13,
	"eval_loss": 0.7656086683273315,
	"eval_runtime": 110.9802,
	"eval_samples_per_second": 9.011,
	"eval_steps_per_second": 4.505,
	"step": 400
	},
	{
	"epoch": 0.13,
	"mmlu_eval_accuracy": 0.47124130233512024,
	"mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
	"mmlu_eval_accuracy_anatomy": 0.6428571428571429,
	"mmlu_eval_accuracy_astronomy": 0.4375,
	"mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
	"mmlu_eval_accuracy_clinical_knowledge": 0.4482758620689655,
	"mmlu_eval_accuracy_college_biology": 0.4375,
	"mmlu_eval_accuracy_college_chemistry": 0.125,
	"mmlu_eval_accuracy_college_computer_science": 0.18181818181818182,
	"mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
	"mmlu_eval_accuracy_college_medicine": 0.45454545454545453,
	"mmlu_eval_accuracy_college_physics": 0.36363636363636365,
	"mmlu_eval_accuracy_computer_security": 0.45454545454545453,
	"mmlu_eval_accuracy_conceptual_physics": 0.34615384615384615,
	"mmlu_eval_accuracy_econometrics": 0.16666666666666666,
	"mmlu_eval_accuracy_electrical_engineering": 0.25,
	"mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
	"mmlu_eval_accuracy_formal_logic": 0.07142857142857142,
	"mmlu_eval_accuracy_global_facts": 0.4,
	"mmlu_eval_accuracy_high_school_biology": 0.40625,
	"mmlu_eval_accuracy_high_school_chemistry": 0.22727272727272727,
	"mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
	"mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
	"mmlu_eval_accuracy_high_school_geography": 0.9090909090909091,
	"mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
	"mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
	"mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
	"mmlu_eval_accuracy_high_school_microeconomics": 0.34615384615384615,
	"mmlu_eval_accuracy_high_school_physics": 0.11764705882352941,
	"mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
	"mmlu_eval_accuracy_high_school_statistics": 0.30434782608695654,
	"mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
	"mmlu_eval_accuracy_high_school_world_history": 0.7692307692307693,
	"mmlu_eval_accuracy_human_aging": 0.6956521739130435,
	"mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
	"mmlu_eval_accuracy_international_law": 0.8461538461538461,
	"mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
	"mmlu_eval_accuracy_logical_fallacies": 0.6111111111111112,
	"mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
	"mmlu_eval_accuracy_management": 0.6363636363636364,
	"mmlu_eval_accuracy_marketing": 0.84,
	"mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
	"mmlu_eval_accuracy_miscellaneous": 0.6511627906976745,
	"mmlu_eval_accuracy_moral_disputes": 0.4473684210526316,
	"mmlu_eval_accuracy_moral_scenarios": 0.25,
	"mmlu_eval_accuracy_nutrition": 0.6060606060606061,
	"mmlu_eval_accuracy_philosophy": 0.5,
	"mmlu_eval_accuracy_prehistory": 0.4857142857142857,
	"mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
	"mmlu_eval_accuracy_professional_law": 0.3058823529411765,
	"mmlu_eval_accuracy_professional_medicine": 0.5483870967741935,
	"mmlu_eval_accuracy_professional_psychology": 0.5217391304347826,
	"mmlu_eval_accuracy_public_relations": 0.6666666666666666,
	"mmlu_eval_accuracy_security_studies": 0.5185185185185185,
	"mmlu_eval_accuracy_sociology": 0.6818181818181818,
	"mmlu_eval_accuracy_us_foreign_policy": 0.5454545454545454,
	"mmlu_eval_accuracy_virology": 0.5,
	"mmlu_eval_accuracy_world_religions": 0.6842105263157895,
	"mmlu_loss": 1.4339068503199297,
	"step": 400
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002,
	"loss": 0.8182,
	"step": 410
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002,
	"loss": 0.8438,
	"step": 420
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002,
	"loss": 0.8184,
	"step": 430
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002,
	"loss": 0.8202,
	"step": 440
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002,
	"loss": 0.8264,
	"step": 450
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002,
	"loss": 0.8384,
	"step": 460
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002,
	"loss": 0.8372,
	"step": 470
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002,
	"loss": 0.8072,
	"step": 480
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002,
	"loss": 0.8214,
	"step": 490
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002,
	"loss": 0.814,
	"step": 500
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002,
	"loss": 0.847,
	"step": 510
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002,
	"loss": 0.8444,
	"step": 520
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002,
	"loss": 0.8096,
	"step": 530
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002,
	"loss": 0.8496,
	"step": 540
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002,
	"loss": 0.7729,
	"step": 550
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002,
	"loss": 0.7826,
	"step": 560
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002,
	"loss": 0.7478,
	"step": 570
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002,
	"loss": 0.7953,
	"step": 580
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002,
	"loss": 0.7363,
	"step": 590
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002,
	"loss": 0.7971,
	"step": 600
	},
	{
	"epoch": 0.19,
	"eval_loss": 0.7616064548492432,
	"eval_runtime": 110.9404,
	"eval_samples_per_second": 9.014,
	"eval_steps_per_second": 4.507,
	"step": 600
	},
	{
	"epoch": 0.19,
	"mmlu_eval_accuracy": 0.4749850916074463,
	"mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
	"mmlu_eval_accuracy_anatomy": 0.7142857142857143,
	"mmlu_eval_accuracy_astronomy": 0.4375,
	"mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
	"mmlu_eval_accuracy_clinical_knowledge": 0.4827586206896552,
	"mmlu_eval_accuracy_college_biology": 0.4375,
	"mmlu_eval_accuracy_college_chemistry": 0.25,
	"mmlu_eval_accuracy_college_computer_science": 0.18181818181818182,
	"mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
	"mmlu_eval_accuracy_college_medicine": 0.2727272727272727,
	"mmlu_eval_accuracy_college_physics": 0.36363636363636365,
	"mmlu_eval_accuracy_computer_security": 0.36363636363636365,
	"mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
	"mmlu_eval_accuracy_econometrics": 0.16666666666666666,
	"mmlu_eval_accuracy_electrical_engineering": 0.25,
	"mmlu_eval_accuracy_elementary_mathematics": 0.2682926829268293,
	"mmlu_eval_accuracy_formal_logic": 0.07142857142857142,
	"mmlu_eval_accuracy_global_facts": 0.3,
	"mmlu_eval_accuracy_high_school_biology": 0.40625,
	"mmlu_eval_accuracy_high_school_chemistry": 0.36363636363636365,
	"mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
	"mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
	"mmlu_eval_accuracy_high_school_geography": 0.9090909090909091,
	"mmlu_eval_accuracy_high_school_government_and_politics": 0.47619047619047616,
	"mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
	"mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
	"mmlu_eval_accuracy_high_school_microeconomics": 0.3076923076923077,
	"mmlu_eval_accuracy_high_school_physics": 0.11764705882352941,
	"mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
	"mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
	"mmlu_eval_accuracy_high_school_us_history": 0.5909090909090909,
	"mmlu_eval_accuracy_high_school_world_history": 0.7692307692307693,
	"mmlu_eval_accuracy_human_aging": 0.6521739130434783,
	"mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
	"mmlu_eval_accuracy_international_law": 0.8461538461538461,
	"mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
	"mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
	"mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
	"mmlu_eval_accuracy_management": 0.6363636363636364,
	"mmlu_eval_accuracy_marketing": 0.84,
	"mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
	"mmlu_eval_accuracy_miscellaneous": 0.6511627906976745,
	"mmlu_eval_accuracy_moral_disputes": 0.4473684210526316,
	"mmlu_eval_accuracy_moral_scenarios": 0.26,
	"mmlu_eval_accuracy_nutrition": 0.6060606060606061,
	"mmlu_eval_accuracy_philosophy": 0.5294117647058824,
	"mmlu_eval_accuracy_prehistory": 0.5142857142857142,
	"mmlu_eval_accuracy_professional_accounting": 0.41935483870967744,
	"mmlu_eval_accuracy_professional_law": 0.3,
	"mmlu_eval_accuracy_professional_medicine": 0.5483870967741935,
	"mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
	"mmlu_eval_accuracy_public_relations": 0.6666666666666666,
	"mmlu_eval_accuracy_security_studies": 0.5555555555555556,
	"mmlu_eval_accuracy_sociology": 0.6818181818181818,
	"mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
	"mmlu_eval_accuracy_virology": 0.5,
	"mmlu_eval_accuracy_world_religions": 0.6842105263157895,
	"mmlu_loss": 1.5647042619341658,
	"step": 600
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002,
	"loss": 0.7936,
	"step": 610
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002,
	"loss": 0.7319,
	"step": 620
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002,
	"loss": 0.79,
	"step": 630
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002,
	"loss": 0.7806,
	"step": 640
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0002,
	"loss": 0.8833,
	"step": 650
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0002,
	"loss": 0.7711,
	"step": 660
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0002,
	"loss": 0.8242,
	"step": 670
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002,
	"loss": 0.7948,
	"step": 680
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002,
	"loss": 0.7417,
	"step": 690
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002,
	"loss": 0.7275,
	"step": 700
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002,
	"loss": 0.8137,
	"step": 710
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002,
	"loss": 0.8568,
	"step": 720
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002,
	"loss": 0.802,
	"step": 730
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002,
	"loss": 0.8202,
	"step": 740
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002,
	"loss": 0.8077,
	"step": 750
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002,
	"loss": 0.814,
	"step": 760
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002,
	"loss": 0.7971,
	"step": 770
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002,
	"loss": 0.798,
	"step": 780
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002,
	"loss": 0.7806,
	"step": 790
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002,
	"loss": 0.8042,
	"step": 800
	},
	{
	"epoch": 0.25,
	"eval_loss": 0.7563537359237671,
	"eval_runtime": 111.023,
	"eval_samples_per_second": 9.007,
	"eval_steps_per_second": 4.504,
	"step": 800
	},
	{
	"epoch": 0.25,
	"mmlu_eval_accuracy": 0.4796267144005645,
	"mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
	"mmlu_eval_accuracy_anatomy": 0.7142857142857143,
	"mmlu_eval_accuracy_astronomy": 0.4375,
	"mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
	"mmlu_eval_accuracy_clinical_knowledge": 0.4827586206896552,
	"mmlu_eval_accuracy_college_biology": 0.4375,
	"mmlu_eval_accuracy_college_chemistry": 0.125,
	"mmlu_eval_accuracy_college_computer_science": 0.2727272727272727,
	"mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
	"mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
	"mmlu_eval_accuracy_college_physics": 0.36363636363636365,
	"mmlu_eval_accuracy_computer_security": 0.45454545454545453,
	"mmlu_eval_accuracy_conceptual_physics": 0.34615384615384615,
	"mmlu_eval_accuracy_econometrics": 0.16666666666666666,
	"mmlu_eval_accuracy_electrical_engineering": 0.25,
	"mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
	"mmlu_eval_accuracy_formal_logic": 0.07142857142857142,
	"mmlu_eval_accuracy_global_facts": 0.4,
	"mmlu_eval_accuracy_high_school_biology": 0.375,
	"mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
	"mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
	"mmlu_eval_accuracy_high_school_european_history": 0.6666666666666666,
	"mmlu_eval_accuracy_high_school_geography": 0.9090909090909091,
	"mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
	"mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
	"mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
	"mmlu_eval_accuracy_high_school_microeconomics": 0.38461538461538464,
	"mmlu_eval_accuracy_high_school_physics": 0.11764705882352941,
	"mmlu_eval_accuracy_high_school_psychology": 0.8833333333333333,
	"mmlu_eval_accuracy_high_school_statistics": 0.2608695652173913,
	"mmlu_eval_accuracy_high_school_us_history": 0.5909090909090909,
	"mmlu_eval_accuracy_high_school_world_history": 0.7307692307692307,
	"mmlu_eval_accuracy_human_aging": 0.7391304347826086,
	"mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
	"mmlu_eval_accuracy_international_law": 0.8461538461538461,
	"mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
	"mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
	"mmlu_eval_accuracy_machine_learning": 0.2727272727272727,
	"mmlu_eval_accuracy_management": 0.6363636363636364,
	"mmlu_eval_accuracy_marketing": 0.84,
	"mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
	"mmlu_eval_accuracy_miscellaneous": 0.6744186046511628,
	"mmlu_eval_accuracy_moral_disputes": 0.5,
	"mmlu_eval_accuracy_moral_scenarios": 0.23,
	"mmlu_eval_accuracy_nutrition": 0.6363636363636364,
	"mmlu_eval_accuracy_philosophy": 0.4411764705882353,
	"mmlu_eval_accuracy_prehistory": 0.45714285714285713,
	"mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
	"mmlu_eval_accuracy_professional_law": 0.3,
	"mmlu_eval_accuracy_professional_medicine": 0.5806451612903226,
	"mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
	"mmlu_eval_accuracy_public_relations": 0.6666666666666666,
	"mmlu_eval_accuracy_security_studies": 0.4074074074074074,
	"mmlu_eval_accuracy_sociology": 0.6363636363636364,
	"mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
	"mmlu_eval_accuracy_virology": 0.5555555555555556,
	"mmlu_eval_accuracy_world_religions": 0.6842105263157895,
	"mmlu_loss": 1.4866046660796157,
	"step": 800
	}
	],
	"max_steps": 10000,
	"num_train_epochs": 4,
	"total_flos": 2.4426204707743334e+17,
	"trial_name": null,
	"trial_params": null
	}