{
  "best_metric": 2.9845471382141113,
  "best_model_checkpoint": "output/cardi-b/checkpoint-114",
  "epoch": 2.0,
  "global_step": 114,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.09,
      "learning_rate": 0.00013469952948681868,
      "loss": 3.9273,
      "step": 5
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0001273804022850966,
      "loss": 3.6212,
      "step": 10
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00011577618287734484,
      "loss": 3.5805,
      "step": 15
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00010073281903200561,
      "loss": 3.7011,
      "step": 20
    },
    {
      "epoch": 0.43,
      "learning_rate": 8.334697219847626e-05,
      "loss": 3.4198,
      "step": 25
    },
    {
      "epoch": 0.52,
      "learning_rate": 6.488607087104036e-05,
      "loss": 3.712,
      "step": 30
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.6695915032671784e-05,
      "loss": 3.5622,
      "step": 35
    },
    {
      "epoch": 0.69,
      "learning_rate": 3.0102567316140575e-05,
      "loss": 3.2665,
      "step": 40
    },
    {
      "epoch": 0.78,
      "learning_rate": 1.6315683018244145e-05,
      "loss": 3.4291,
      "step": 45
    },
    {
      "epoch": 0.86,
      "learning_rate": 6.340326210572357e-06,
      "loss": 3.3414,
      "step": 50
    },
    {
      "epoch": 0.95,
      "learning_rate": 9.037005536513067e-07,
      "loss": 3.2621,
      "step": 55
    },
    {
      "epoch": 1.0,
      "eval_loss": 3.3664300441741943,
      "eval_runtime": 1.5982,
      "eval_samples_per_second": 44.424,
      "eval_steps_per_second": 5.631,
      "step": 58
    },
    {
      "epoch": 1.05,
      "learning_rate": 9.35614586573241e-07,
      "loss": 3.234,
      "step": 60
    },
    {
      "epoch": 1.14,
      "learning_rate": 6.5610987761461805e-06,
      "loss": 3.3216,
      "step": 65
    },
    {
      "epoch": 1.23,
      "learning_rate": 1.6868286569304916e-05,
      "loss": 3.2467,
      "step": 70
    },
    {
      "epoch": 1.32,
      "learning_rate": 3.1079356352801514e-05,
      "loss": 3.3662,
      "step": 75
    },
    {
      "epoch": 1.4,
      "learning_rate": 4.8121883965283725e-05,
      "loss": 3.3484,
      "step": 80
    },
    {
      "epoch": 1.49,
      "learning_rate": 6.670977211354408e-05,
      "loss": 3.2623,
      "step": 85
    },
    {
      "epoch": 1.58,
      "learning_rate": 8.54403044178588e-05,
      "loss": 3.0856,
      "step": 90
    },
    {
      "epoch": 1.67,
      "learning_rate": 0.00010290000000000001,
      "loss": 3.2992,
      "step": 95
    },
    {
      "epoch": 1.75,
      "learning_rate": 0.00011777128040335575,
      "loss": 3.1025,
      "step": 100
    },
    {
      "epoch": 1.84,
      "learning_rate": 0.00012893189933276512,
      "loss": 3.2896,
      "step": 105
    },
    {
      "epoch": 1.93,
      "learning_rate": 0.00013553963184824208,
      "loss": 3.228,
      "step": 110
    },
    {
      "epoch": 2.0,
      "eval_loss": 2.9845471382141113,
      "eval_runtime": 3.4603,
      "eval_samples_per_second": 22.252,
      "eval_steps_per_second": 2.89,
      "step": 114
    }
  ],
  "max_steps": 114,
  "num_train_epochs": 2,
  "total_flos": 117581414400000.0,
  "trial_name": null,
  "trial_params": null
}