{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0555555555555554,
  "eval_steps": 10,
  "global_step": 550,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 0.44106748700141907,
      "learning_rate": 5e-05,
      "loss": 0.7868,
      "step": 10
    },
    {
      "epoch": 0.05555555555555555,
      "eval_loss": 1.924536108970642,
      "eval_runtime": 53.7633,
      "eval_samples_per_second": 19.437,
      "eval_steps_per_second": 0.093,
      "step": 10
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 0.7720403671264648,
      "learning_rate": 0.0001,
      "loss": 0.6788,
      "step": 20
    },
    {
      "epoch": 0.1111111111111111,
      "eval_loss": 1.7030174732208252,
      "eval_runtime": 53.3277,
      "eval_samples_per_second": 19.596,
      "eval_steps_per_second": 0.094,
      "step": 20
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.37555795907974243,
      "learning_rate": 0.00015,
      "loss": 0.3649,
      "step": 30
    },
    {
      "epoch": 0.16666666666666666,
      "eval_loss": 1.3971842527389526,
      "eval_runtime": 53.3482,
      "eval_samples_per_second": 19.588,
      "eval_steps_per_second": 0.094,
      "step": 30
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 0.3043785095214844,
      "learning_rate": 0.0002,
      "loss": 0.2325,
      "step": 40
    },
    {
      "epoch": 0.2222222222222222,
      "eval_loss": 1.2199952602386475,
      "eval_runtime": 53.2653,
      "eval_samples_per_second": 19.619,
      "eval_steps_per_second": 0.094,
      "step": 40
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.22426466643810272,
      "learning_rate": 0.00025,
      "loss": 0.1942,
      "step": 50
    },
    {
      "epoch": 0.2777777777777778,
      "eval_loss": 1.007086992263794,
      "eval_runtime": 53.2296,
      "eval_samples_per_second": 19.632,
      "eval_steps_per_second": 0.094,
      "step": 50
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.24921737611293793,
      "learning_rate": 0.0003,
      "loss": 0.1721,
      "step": 60
    },
    {
      "epoch": 0.3333333333333333,
      "eval_loss": 0.854510486125946,
      "eval_runtime": 53.2619,
      "eval_samples_per_second": 19.62,
      "eval_steps_per_second": 0.094,
      "step": 60
    },
    {
      "epoch": 0.3888888888888889,
      "grad_norm": 0.1681758463382721,
      "learning_rate": 0.00035,
      "loss": 0.1254,
      "step": 70
    },
    {
      "epoch": 0.3888888888888889,
      "eval_loss": 0.7825087308883667,
      "eval_runtime": 53.2285,
      "eval_samples_per_second": 19.632,
      "eval_steps_per_second": 0.094,
      "step": 70
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.2008720338344574,
      "learning_rate": 0.0004,
      "loss": 0.1236,
      "step": 80
    },
    {
      "epoch": 0.4444444444444444,
      "eval_loss": 0.7092587351799011,
      "eval_runtime": 53.1968,
      "eval_samples_per_second": 19.644,
      "eval_steps_per_second": 0.094,
      "step": 80
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.16537119448184967,
      "learning_rate": 0.00045000000000000004,
      "loss": 0.1112,
      "step": 90
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.6677853465080261,
      "eval_runtime": 53.2118,
      "eval_samples_per_second": 19.638,
      "eval_steps_per_second": 0.094,
      "step": 90
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.20949873328208923,
      "learning_rate": 0.0005,
      "loss": 0.1171,
      "step": 100
    },
    {
      "epoch": 0.5555555555555556,
      "eval_loss": 0.6196702122688293,
      "eval_runtime": 53.1914,
      "eval_samples_per_second": 19.646,
      "eval_steps_per_second": 0.094,
      "step": 100
    },
    {
      "epoch": 0.6111111111111112,
      "grad_norm": 0.48387548327445984,
      "learning_rate": 0.00055,
      "loss": 0.126,
      "step": 110
    },
    {
      "epoch": 0.6111111111111112,
      "eval_loss": 0.5429163575172424,
      "eval_runtime": 53.1993,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 110
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.15966539084911346,
      "learning_rate": 0.0006,
      "loss": 0.1121,
      "step": 120
    },
    {
      "epoch": 0.6666666666666666,
      "eval_loss": 0.5090946555137634,
      "eval_runtime": 53.1973,
      "eval_samples_per_second": 19.644,
      "eval_steps_per_second": 0.094,
      "step": 120
    },
    {
      "epoch": 0.7222222222222222,
      "grad_norm": 0.17096221446990967,
      "learning_rate": 0.0006500000000000001,
      "loss": 0.0969,
      "step": 130
    },
    {
      "epoch": 0.7222222222222222,
      "eval_loss": 0.4473094940185547,
      "eval_runtime": 53.1942,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 130
    },
    {
      "epoch": 0.7777777777777778,
      "grad_norm": 0.1835683137178421,
      "learning_rate": 0.0007,
      "loss": 0.0983,
      "step": 140
    },
    {
      "epoch": 0.7777777777777778,
      "eval_loss": 0.43668001890182495,
      "eval_runtime": 53.1962,
      "eval_samples_per_second": 19.644,
      "eval_steps_per_second": 0.094,
      "step": 140
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.21353352069854736,
      "learning_rate": 0.00075,
      "loss": 0.099,
      "step": 150
    },
    {
      "epoch": 0.8333333333333334,
      "eval_loss": 0.4169813096523285,
      "eval_runtime": 53.1999,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 150
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.2052447646856308,
      "learning_rate": 0.0008,
      "loss": 0.1149,
      "step": 160
    },
    {
      "epoch": 0.8888888888888888,
      "eval_loss": 0.3990076780319214,
      "eval_runtime": 53.2022,
      "eval_samples_per_second": 19.642,
      "eval_steps_per_second": 0.094,
      "step": 160
    },
    {
      "epoch": 0.9444444444444444,
      "grad_norm": 0.1374993473291397,
      "learning_rate": 0.00085,
      "loss": 0.0904,
      "step": 170
    },
    {
      "epoch": 0.9444444444444444,
      "eval_loss": 0.3741222023963928,
      "eval_runtime": 53.191,
      "eval_samples_per_second": 19.646,
      "eval_steps_per_second": 0.094,
      "step": 170
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.44291651248931885,
      "learning_rate": 0.0009000000000000001,
      "loss": 0.0877,
      "step": 180
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.35114049911499023,
      "eval_runtime": 53.1994,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 180
    },
    {
      "epoch": 1.0555555555555556,
      "grad_norm": 0.19277198612689972,
      "learning_rate": 0.00095,
      "loss": 0.0701,
      "step": 190
    },
    {
      "epoch": 1.0555555555555556,
      "eval_loss": 0.35450631380081177,
      "eval_runtime": 53.1993,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 190
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 0.14476649463176727,
      "learning_rate": 0.000995,
      "loss": 0.0714,
      "step": 200
    },
    {
      "epoch": 1.1111111111111112,
      "eval_loss": 0.32258838415145874,
      "eval_runtime": 53.1863,
      "eval_samples_per_second": 19.648,
      "eval_steps_per_second": 0.094,
      "step": 200
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.30942219495773315,
      "learning_rate": 0.00098875,
      "loss": 0.1064,
      "step": 210
    },
    {
      "epoch": 1.1666666666666667,
      "eval_loss": 0.3853108286857605,
      "eval_runtime": 53.2074,
      "eval_samples_per_second": 19.64,
      "eval_steps_per_second": 0.094,
      "step": 210
    },
    {
      "epoch": 1.2222222222222223,
      "grad_norm": 0.29230985045433044,
      "learning_rate": 0.0009775,
      "loss": 0.0953,
      "step": 220
    },
    {
      "epoch": 1.2222222222222223,
      "eval_loss": 0.38141757249832153,
      "eval_runtime": 53.2068,
      "eval_samples_per_second": 19.64,
      "eval_steps_per_second": 0.094,
      "step": 220
    },
    {
      "epoch": 1.2777777777777777,
      "grad_norm": 0.2446655035018921,
      "learning_rate": 0.000965,
      "loss": 0.1059,
      "step": 230
    },
    {
      "epoch": 1.2777777777777777,
      "eval_loss": 0.3946296274662018,
      "eval_runtime": 53.3124,
      "eval_samples_per_second": 19.601,
      "eval_steps_per_second": 0.094,
      "step": 230
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.1583014279603958,
      "learning_rate": 0.0009525,
      "loss": 0.085,
      "step": 240
    },
    {
      "epoch": 1.3333333333333333,
      "eval_loss": 0.3275904059410095,
      "eval_runtime": 53.2108,
      "eval_samples_per_second": 19.639,
      "eval_steps_per_second": 0.094,
      "step": 240
    },
    {
      "epoch": 1.3888888888888888,
      "grad_norm": 0.29031670093536377,
      "learning_rate": 0.00094,
      "loss": 0.0947,
      "step": 250
    },
    {
      "epoch": 1.3888888888888888,
      "eval_loss": 0.3017362058162689,
      "eval_runtime": 53.2051,
      "eval_samples_per_second": 19.641,
      "eval_steps_per_second": 0.094,
      "step": 250
    },
    {
      "epoch": 1.4444444444444444,
      "grad_norm": 0.22628234326839447,
      "learning_rate": 0.0009275,
      "loss": 0.0832,
      "step": 260
    },
    {
      "epoch": 1.4444444444444444,
      "eval_loss": 0.3056519627571106,
      "eval_runtime": 53.2068,
      "eval_samples_per_second": 19.64,
      "eval_steps_per_second": 0.094,
      "step": 260
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.18527217209339142,
      "learning_rate": 0.000915,
      "loss": 0.0829,
      "step": 270
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.29090315103530884,
      "eval_runtime": 53.2051,
      "eval_samples_per_second": 19.641,
      "eval_steps_per_second": 0.094,
      "step": 270
    },
    {
      "epoch": 1.5555555555555556,
      "grad_norm": 0.2479957491159439,
      "learning_rate": 0.0009025,
      "loss": 0.0834,
      "step": 280
    },
    {
      "epoch": 1.5555555555555556,
      "eval_loss": 0.2572789192199707,
      "eval_runtime": 53.2127,
      "eval_samples_per_second": 19.638,
      "eval_steps_per_second": 0.094,
      "step": 280
    },
    {
      "epoch": 1.6111111111111112,
      "grad_norm": 0.1947644203901291,
      "learning_rate": 0.0008900000000000001,
      "loss": 0.0758,
      "step": 290
    },
    {
      "epoch": 1.6111111111111112,
      "eval_loss": 0.24581989645957947,
      "eval_runtime": 53.2164,
      "eval_samples_per_second": 19.637,
      "eval_steps_per_second": 0.094,
      "step": 290
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.18909496068954468,
      "learning_rate": 0.0008774999999999999,
      "loss": 0.0962,
      "step": 300
    },
    {
      "epoch": 1.6666666666666665,
      "eval_loss": 0.23933859169483185,
      "eval_runtime": 53.1951,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 300
    },
    {
      "epoch": 1.7222222222222223,
      "grad_norm": 0.13569988310337067,
      "learning_rate": 0.000865,
      "loss": 0.0766,
      "step": 310
    },
    {
      "epoch": 1.7222222222222223,
      "eval_loss": 0.2511751651763916,
      "eval_runtime": 53.1935,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 310
    },
    {
      "epoch": 1.7777777777777777,
      "grad_norm": 0.15234695374965668,
      "learning_rate": 0.0008525000000000001,
      "loss": 0.0849,
      "step": 320
    },
    {
      "epoch": 1.7777777777777777,
      "eval_loss": 0.23151560127735138,
      "eval_runtime": 53.1939,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 320
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.22974829375743866,
      "learning_rate": 0.00084,
      "loss": 0.0779,
      "step": 330
    },
    {
      "epoch": 1.8333333333333335,
      "eval_loss": 0.22611844539642334,
      "eval_runtime": 53.2008,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 330
    },
    {
      "epoch": 1.8888888888888888,
      "grad_norm": 0.16272751986980438,
      "learning_rate": 0.0008275,
      "loss": 0.0726,
      "step": 340
    },
    {
      "epoch": 1.8888888888888888,
      "eval_loss": 0.23881785571575165,
      "eval_runtime": 53.2055,
      "eval_samples_per_second": 19.641,
      "eval_steps_per_second": 0.094,
      "step": 340
    },
    {
      "epoch": 1.9444444444444444,
      "grad_norm": 0.18458552658557892,
      "learning_rate": 0.000815,
      "loss": 0.0708,
      "step": 350
    },
    {
      "epoch": 1.9444444444444444,
      "eval_loss": 0.2266187220811844,
      "eval_runtime": 53.1913,
      "eval_samples_per_second": 19.646,
      "eval_steps_per_second": 0.094,
      "step": 350
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.2903669476509094,
      "learning_rate": 0.0008025,
      "loss": 0.0749,
      "step": 360
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.20961299538612366,
      "eval_runtime": 53.1804,
      "eval_samples_per_second": 19.65,
      "eval_steps_per_second": 0.094,
      "step": 360
    },
    {
      "epoch": 2.0555555555555554,
      "grad_norm": 0.1704823225736618,
      "learning_rate": 0.00079,
      "loss": 0.0691,
      "step": 370
    },
    {
      "epoch": 2.0555555555555554,
      "eval_loss": 0.21282438933849335,
      "eval_runtime": 53.1998,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 370
    },
    {
      "epoch": 2.111111111111111,
      "grad_norm": 0.2975008487701416,
      "learning_rate": 0.0007775,
      "loss": 0.0452,
      "step": 380
    },
    {
      "epoch": 2.111111111111111,
      "eval_loss": 0.2102084457874298,
      "eval_runtime": 53.1935,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 380
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.1703348457813263,
      "learning_rate": 0.0007650000000000001,
      "loss": 0.0587,
      "step": 390
    },
    {
      "epoch": 2.1666666666666665,
      "eval_loss": 0.19886194169521332,
      "eval_runtime": 53.2004,
      "eval_samples_per_second": 19.643,
      "eval_steps_per_second": 0.094,
      "step": 390
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 0.1842849850654602,
      "learning_rate": 0.0007524999999999999,
      "loss": 0.0538,
      "step": 400
    },
    {
      "epoch": 2.2222222222222223,
      "eval_loss": 0.19028623402118683,
      "eval_runtime": 53.1977,
      "eval_samples_per_second": 19.644,
      "eval_steps_per_second": 0.094,
      "step": 400
    },
    {
      "epoch": 2.2777777777777777,
      "grad_norm": 0.1965576559305191,
      "learning_rate": 0.00074,
      "loss": 0.0496,
      "step": 410
    },
    {
      "epoch": 2.2777777777777777,
      "eval_loss": 0.18036624789237976,
      "eval_runtime": 53.1836,
      "eval_samples_per_second": 19.649,
      "eval_steps_per_second": 0.094,
      "step": 410
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.1737024188041687,
      "learning_rate": 0.0007275000000000001,
      "loss": 0.0462,
      "step": 420
    },
    {
      "epoch": 2.3333333333333335,
      "eval_loss": 0.17868511378765106,
      "eval_runtime": 53.1906,
      "eval_samples_per_second": 19.646,
      "eval_steps_per_second": 0.094,
      "step": 420
    },
    {
      "epoch": 2.388888888888889,
      "grad_norm": 0.16083762049674988,
      "learning_rate": 0.000715,
      "loss": 0.0535,
      "step": 430
    },
    {
      "epoch": 2.388888888888889,
      "eval_loss": 0.1748758852481842,
      "eval_runtime": 53.1965,
      "eval_samples_per_second": 19.644,
      "eval_steps_per_second": 0.094,
      "step": 430
    },
    {
      "epoch": 2.4444444444444446,
      "grad_norm": 0.15570178627967834,
      "learning_rate": 0.0007025,
      "loss": 0.0582,
      "step": 440
    },
    {
      "epoch": 2.4444444444444446,
      "eval_loss": 0.16831889748573303,
      "eval_runtime": 53.1853,
      "eval_samples_per_second": 19.648,
      "eval_steps_per_second": 0.094,
      "step": 440
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.18500974774360657,
      "learning_rate": 0.00069,
      "loss": 0.0641,
      "step": 450
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.170265793800354,
      "eval_runtime": 53.1851,
      "eval_samples_per_second": 19.648,
      "eval_steps_per_second": 0.094,
      "step": 450
    },
    {
      "epoch": 2.5555555555555554,
      "grad_norm": 0.21033112704753876,
      "learning_rate": 0.0006775,
      "loss": 0.0532,
      "step": 460
    },
    {
      "epoch": 2.5555555555555554,
      "eval_loss": 0.16747836768627167,
      "eval_runtime": 53.1946,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 460
    },
    {
      "epoch": 2.611111111111111,
      "grad_norm": 0.15910537540912628,
      "learning_rate": 0.000665,
      "loss": 0.0561,
      "step": 470
    },
    {
      "epoch": 2.611111111111111,
      "eval_loss": 0.16639277338981628,
      "eval_runtime": 53.1933,
      "eval_samples_per_second": 19.645,
      "eval_steps_per_second": 0.094,
      "step": 470
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.25178802013397217,
      "learning_rate": 0.0006525,
      "loss": 0.091,
      "step": 480
    },
    {
      "epoch": 2.6666666666666665,
      "eval_loss": 0.14745840430259705,
      "eval_runtime": 53.1819,
      "eval_samples_per_second": 19.65,
      "eval_steps_per_second": 0.094,
      "step": 480
    },
    {
      "epoch": 2.7222222222222223,
      "grad_norm": 0.20877403020858765,
      "learning_rate": 0.00064,
      "loss": 0.0575,
      "step": 490
    },
    {
      "epoch": 2.7222222222222223,
      "eval_loss": 0.14532561600208282,
      "eval_runtime": 53.2452,
      "eval_samples_per_second": 19.626,
      "eval_steps_per_second": 0.094,
      "step": 490
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 0.16609936952590942,
      "learning_rate": 0.0006274999999999999,
      "loss": 0.0483,
      "step": 500
    },
    {
      "epoch": 2.7777777777777777,
      "eval_loss": 0.1485452950000763,
      "eval_runtime": 53.1897,
      "eval_samples_per_second": 19.647,
      "eval_steps_per_second": 0.094,
      "step": 500
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.1205546036362648,
      "learning_rate": 0.000615,
      "loss": 0.0495,
      "step": 510
    },
    {
      "epoch": 2.8333333333333335,
      "eval_loss": 0.14010950922966003,
      "eval_runtime": 53.1827,
      "eval_samples_per_second": 19.649,
      "eval_steps_per_second": 0.094,
      "step": 510
    },
    {
      "epoch": 2.888888888888889,
      "grad_norm": 0.16774757206439972,
      "learning_rate": 0.0006025000000000001,
      "loss": 0.0529,
      "step": 520
    },
    {
      "epoch": 2.888888888888889,
      "eval_loss": 0.13681621849536896,
      "eval_runtime": 53.1816,
      "eval_samples_per_second": 19.65,
      "eval_steps_per_second": 0.094,
      "step": 520
    },
    {
      "epoch": 2.9444444444444446,
      "grad_norm": 0.1806737780570984,
      "learning_rate": 0.00059,
      "loss": 0.0543,
      "step": 530
    },
    {
      "epoch": 2.9444444444444446,
      "eval_loss": 0.14111213386058807,
      "eval_runtime": 53.1781,
      "eval_samples_per_second": 19.651,
      "eval_steps_per_second": 0.094,
      "step": 530
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5594401955604553,
      "learning_rate": 0.0005775,
      "loss": 0.0508,
      "step": 540
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.1323499232530594,
      "eval_runtime": 53.198,
      "eval_samples_per_second": 19.644,
      "eval_steps_per_second": 0.094,
      "step": 540
    },
    {
      "epoch": 3.0555555555555554,
      "grad_norm": 0.14666695892810822,
      "learning_rate": 0.000565,
      "loss": 0.033,
      "step": 550
    },
    {
      "epoch": 3.0555555555555554,
      "eval_loss": 0.13195018470287323,
      "eval_runtime": 53.2391,
      "eval_samples_per_second": 19.628,
      "eval_steps_per_second": 0.094,
      "step": 550
    }
  ],
  "logging_steps": 10,
  "max_steps": 1000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.080139610619904e+19,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}