File size: 2,982 Bytes

afe29f8
 
 
6ae2063
afe29f8
 
 
 
 
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
 
 
 
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
 
 
 
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
afe29f8
6ae2063
afe29f8
 
 
6ae2063
 
 
 
 
afe29f8
 
 
6ae2063
afe29f8
 
6ae2063
 
 
 
afe29f8

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.8514851485148514,
  "eval_steps": 500,
  "global_step": 36,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07920792079207921,
      "grad_norm": 25.20428267668325,
      "learning_rate": 5e-06,
      "loss": 1.5917,
      "step": 1
    },
    {
      "epoch": 0.39603960396039606,
      "grad_norm": 36.917025665063875,
      "learning_rate": 1.995184726672197e-05,
      "loss": 1.4728,
      "step": 5
    },
    {
      "epoch": 0.7920792079207921,
      "grad_norm": 8.149660114746355,
      "learning_rate": 1.8314696123025456e-05,
      "loss": 1.4332,
      "step": 10
    },
    {
      "epoch": 0.9504950495049505,
      "eval_loss": 1.2468267679214478,
      "eval_runtime": 5.7996,
      "eval_samples_per_second": 8.966,
      "eval_steps_per_second": 0.345,
      "step": 12
    },
    {
      "epoch": 1.188118811881188,
      "grad_norm": 7.683983380513048,
      "learning_rate": 1.4713967368259981e-05,
      "loss": 1.2317,
      "step": 15
    },
    {
      "epoch": 1.5841584158415842,
      "grad_norm": 2.458006119450546,
      "learning_rate": 1e-05,
      "loss": 1.1031,
      "step": 20
    },
    {
      "epoch": 1.9801980198019802,
      "grad_norm": 1.4615528467429235,
      "learning_rate": 5.286032631740023e-06,
      "loss": 1.0421,
      "step": 25
    },
    {
      "epoch": 1.9801980198019802,
      "eval_loss": 1.065010666847229,
      "eval_runtime": 5.6499,
      "eval_samples_per_second": 9.204,
      "eval_steps_per_second": 0.354,
      "step": 25
    },
    {
      "epoch": 2.376237623762376,
      "grad_norm": 1.251106845075615,
      "learning_rate": 1.6853038769745466e-06,
      "loss": 0.9444,
      "step": 30
    },
    {
      "epoch": 2.772277227722772,
      "grad_norm": 0.8336224848562745,
      "learning_rate": 4.815273327803183e-08,
      "loss": 0.9193,
      "step": 35
    },
    {
      "epoch": 2.8514851485148514,
      "eval_loss": 1.0546845197677612,
      "eval_runtime": 5.7189,
      "eval_samples_per_second": 9.093,
      "eval_steps_per_second": 0.35,
      "step": 36
    },
    {
      "epoch": 2.8514851485148514,
      "step": 36,
      "total_flos": 120497991843840.0,
      "train_loss": 1.160024169418547,
      "train_runtime": 9224.6118,
      "train_samples_per_second": 4.198,
      "train_steps_per_second": 0.004
    }
  ],
  "logging_steps": 5,
  "max_steps": 36,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 120497991843840.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}