{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.07563223824155046,
  "eval_steps": 5,
  "global_step": 20,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003781611912077523,
      "grad_norm": 18.920101165771484,
      "learning_rate": 1e-05,
      "loss": 50.2344,
      "step": 1
    },
    {
      "epoch": 0.003781611912077523,
      "eval_loss": 2.642832040786743,
      "eval_runtime": 13.0225,
      "eval_samples_per_second": 34.249,
      "eval_steps_per_second": 17.124,
      "step": 1
    },
    {
      "epoch": 0.007563223824155046,
      "grad_norm": 14.773801803588867,
      "learning_rate": 2e-05,
      "loss": 43.9375,
      "step": 2
    },
    {
      "epoch": 0.011344835736232569,
      "grad_norm": 15.430819511413574,
      "learning_rate": 3e-05,
      "loss": 45.7656,
      "step": 3
    },
    {
      "epoch": 0.015126447648310093,
      "grad_norm": 12.943735122680664,
      "learning_rate": 4e-05,
      "loss": 41.0547,
      "step": 4
    },
    {
      "epoch": 0.018908059560387616,
      "grad_norm": 13.642854690551758,
      "learning_rate": 5e-05,
      "loss": 42.4766,
      "step": 5
    },
    {
      "epoch": 0.018908059560387616,
      "eval_loss": 2.632322072982788,
      "eval_runtime": 1.9759,
      "eval_samples_per_second": 225.723,
      "eval_steps_per_second": 112.862,
      "step": 5
    },
    {
      "epoch": 0.022689671472465138,
      "grad_norm": 17.1333065032959,
      "learning_rate": 6e-05,
      "loss": 44.8516,
      "step": 6
    },
    {
      "epoch": 0.02647128338454266,
      "grad_norm": 13.085986137390137,
      "learning_rate": 7e-05,
      "loss": 40.1719,
      "step": 7
    },
    {
      "epoch": 0.030252895296620185,
      "grad_norm": 14.354818344116211,
      "learning_rate": 8e-05,
      "loss": 42.2656,
      "step": 8
    },
    {
      "epoch": 0.03403450720869771,
      "grad_norm": 13.714295387268066,
      "learning_rate": 9e-05,
      "loss": 44.9375,
      "step": 9
    },
    {
      "epoch": 0.03781611912077523,
      "grad_norm": 15.358818054199219,
      "learning_rate": 0.0001,
      "loss": 46.2188,
      "step": 10
    },
    {
      "epoch": 0.03781611912077523,
      "eval_loss": 2.602928876876831,
      "eval_runtime": 1.968,
      "eval_samples_per_second": 226.625,
      "eval_steps_per_second": 113.313,
      "step": 10
    },
    {
      "epoch": 0.041597731032852754,
      "grad_norm": 13.377167701721191,
      "learning_rate": 9.755282581475769e-05,
      "loss": 40.0312,
      "step": 11
    },
    {
      "epoch": 0.045379342944930276,
      "grad_norm": 16.281776428222656,
      "learning_rate": 9.045084971874738e-05,
      "loss": 45.4766,
      "step": 12
    },
    {
      "epoch": 0.0491609548570078,
      "grad_norm": 12.971956253051758,
      "learning_rate": 7.938926261462366e-05,
      "loss": 44.0938,
      "step": 13
    },
    {
      "epoch": 0.05294256676908532,
      "grad_norm": 13.847249984741211,
      "learning_rate": 6.545084971874738e-05,
      "loss": 42.8828,
      "step": 14
    },
    {
      "epoch": 0.05672417868116285,
      "grad_norm": 11.62086296081543,
      "learning_rate": 5e-05,
      "loss": 39.8281,
      "step": 15
    },
    {
      "epoch": 0.05672417868116285,
      "eval_loss": 2.5738158226013184,
      "eval_runtime": 1.9718,
      "eval_samples_per_second": 226.194,
      "eval_steps_per_second": 113.097,
      "step": 15
    },
    {
      "epoch": 0.06050579059324037,
      "grad_norm": 13.019819259643555,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 39.8672,
      "step": 16
    },
    {
      "epoch": 0.06428740250531789,
      "grad_norm": 11.753969192504883,
      "learning_rate": 2.061073738537635e-05,
      "loss": 40.9531,
      "step": 17
    },
    {
      "epoch": 0.06806901441739542,
      "grad_norm": 12.145090103149414,
      "learning_rate": 9.549150281252633e-06,
      "loss": 39.6641,
      "step": 18
    },
    {
      "epoch": 0.07185062632947294,
      "grad_norm": 13.901262283325195,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 42.9062,
      "step": 19
    },
    {
      "epoch": 0.07563223824155046,
      "grad_norm": 11.688858032226562,
      "learning_rate": 0.0,
      "loss": 38.2188,
      "step": 20
    },
    {
      "epoch": 0.07563223824155046,
      "eval_loss": 2.5669143199920654,
      "eval_runtime": 1.9736,
      "eval_samples_per_second": 225.985,
      "eval_steps_per_second": 112.992,
      "step": 20
    }
  ],
  "logging_steps": 1,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 169836093112320.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}