{
  "best_metric": 1.4513202905654907,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 0.0020567667626491155,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 8.227067050596462e-05,
      "grad_norm": 3.947374105453491,
      "learning_rate": 2e-05,
      "loss": 5.6138,
      "step": 1
    },
    {
      "epoch": 8.227067050596462e-05,
      "eval_loss": 1.5118179321289062,
      "eval_runtime": 990.3773,
      "eval_samples_per_second": 5.168,
      "eval_steps_per_second": 2.584,
      "step": 1
    },
    {
      "epoch": 0.00016454134101192923,
      "grad_norm": 5.0255255699157715,
      "learning_rate": 4e-05,
      "loss": 7.0739,
      "step": 2
    },
    {
      "epoch": 0.00024681201151789385,
      "grad_norm": 2.599471092224121,
      "learning_rate": 6e-05,
      "loss": 6.2316,
      "step": 3
    },
    {
      "epoch": 0.00032908268202385847,
      "grad_norm": 3.12210750579834,
      "learning_rate": 8e-05,
      "loss": 5.6966,
      "step": 4
    },
    {
      "epoch": 0.00041135335252982314,
      "grad_norm": 2.7087185382843018,
      "learning_rate": 0.0001,
      "loss": 6.3187,
      "step": 5
    },
    {
      "epoch": 0.00041135335252982314,
      "eval_loss": 1.4958966970443726,
      "eval_runtime": 945.0184,
      "eval_samples_per_second": 5.416,
      "eval_steps_per_second": 2.708,
      "step": 5
    },
    {
      "epoch": 0.0004936240230357877,
      "grad_norm": 2.585333824157715,
      "learning_rate": 0.00012,
      "loss": 6.3612,
      "step": 6
    },
    {
      "epoch": 0.0005758946935417523,
      "grad_norm": 2.1012344360351562,
      "learning_rate": 0.00014,
      "loss": 6.218,
      "step": 7
    },
    {
      "epoch": 0.0006581653640477169,
      "grad_norm": 3.0408711433410645,
      "learning_rate": 0.00016,
      "loss": 6.6268,
      "step": 8
    },
    {
      "epoch": 0.0007404360345536817,
      "grad_norm": 2.718195915222168,
      "learning_rate": 0.00018,
      "loss": 5.8723,
      "step": 9
    },
    {
      "epoch": 0.0008227067050596463,
      "grad_norm": 3.4171600341796875,
      "learning_rate": 0.0002,
      "loss": 6.7864,
      "step": 10
    },
    {
      "epoch": 0.0008227067050596463,
      "eval_loss": 1.4742869138717651,
      "eval_runtime": 974.0111,
      "eval_samples_per_second": 5.255,
      "eval_steps_per_second": 2.627,
      "step": 10
    },
    {
      "epoch": 0.0009049773755656109,
      "grad_norm": 3.754530668258667,
      "learning_rate": 0.00019781476007338058,
      "loss": 6.7109,
      "step": 11
    },
    {
      "epoch": 0.0009872480460715754,
      "grad_norm": 2.7262985706329346,
      "learning_rate": 0.0001913545457642601,
      "loss": 6.0774,
      "step": 12
    },
    {
      "epoch": 0.0010695187165775401,
      "grad_norm": 2.529963254928589,
      "learning_rate": 0.00018090169943749476,
      "loss": 5.9247,
      "step": 13
    },
    {
      "epoch": 0.0011517893870835046,
      "grad_norm": 3.371697425842285,
      "learning_rate": 0.00016691306063588583,
      "loss": 6.4366,
      "step": 14
    },
    {
      "epoch": 0.0012340600575894694,
      "grad_norm": 3.3902432918548584,
      "learning_rate": 0.00015000000000000001,
      "loss": 5.9649,
      "step": 15
    },
    {
      "epoch": 0.0012340600575894694,
      "eval_loss": 1.4562937021255493,
      "eval_runtime": 946.1588,
      "eval_samples_per_second": 5.409,
      "eval_steps_per_second": 2.705,
      "step": 15
    },
    {
      "epoch": 0.0013163307280954339,
      "grad_norm": 2.6186981201171875,
      "learning_rate": 0.00013090169943749476,
      "loss": 5.7222,
      "step": 16
    },
    {
      "epoch": 0.0013986013986013986,
      "grad_norm": 2.9605960845947266,
      "learning_rate": 0.00011045284632676536,
      "loss": 5.6037,
      "step": 17
    },
    {
      "epoch": 0.0014808720691073633,
      "grad_norm": 2.3991353511810303,
      "learning_rate": 8.954715367323468e-05,
      "loss": 5.9318,
      "step": 18
    },
    {
      "epoch": 0.0015631427396133278,
      "grad_norm": 1.7448457479476929,
      "learning_rate": 6.909830056250527e-05,
      "loss": 5.5354,
      "step": 19
    },
    {
      "epoch": 0.0016454134101192926,
      "grad_norm": 3.0942559242248535,
      "learning_rate": 5.000000000000002e-05,
      "loss": 5.8968,
      "step": 20
    },
    {
      "epoch": 0.0016454134101192926,
      "eval_loss": 1.45272696018219,
      "eval_runtime": 953.2521,
      "eval_samples_per_second": 5.369,
      "eval_steps_per_second": 2.684,
      "step": 20
    },
    {
      "epoch": 0.001727684080625257,
      "grad_norm": 3.263594150543213,
      "learning_rate": 3.308693936411421e-05,
      "loss": 7.3905,
      "step": 21
    },
    {
      "epoch": 0.0018099547511312218,
      "grad_norm": 2.3657073974609375,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 5.9281,
      "step": 22
    },
    {
      "epoch": 0.0018922254216371863,
      "grad_norm": 2.6124701499938965,
      "learning_rate": 8.645454235739903e-06,
      "loss": 6.014,
      "step": 23
    },
    {
      "epoch": 0.001974496092143151,
      "grad_norm": 2.2480545043945312,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 5.6176,
      "step": 24
    },
    {
      "epoch": 0.0020567667626491155,
      "grad_norm": 3.322998046875,
      "learning_rate": 0.0,
      "loss": 5.9863,
      "step": 25
    },
    {
      "epoch": 0.0020567667626491155,
      "eval_loss": 1.4513202905654907,
      "eval_runtime": 946.2132,
      "eval_samples_per_second": 5.409,
      "eval_steps_per_second": 2.704,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1000864902807552.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}