Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +1 -36
adapter_config.json +6 -3
adapter_model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +220 -688
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -199,41 +199,6 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: False
-- bnb_4bit_compute_dtype: float16
-### Framework versions
-- PEFT 0.6.3.dev0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: False
-- bnb_4bit_compute_dtype: float16
 ### Framework versions
-- PEFT 0.6.3.dev0

 [More Information Needed]
 ### Framework versions
+- PEFT 0.7.1.dev0

adapter_config.json CHANGED Viewed

@@ -8,18 +8,21 @@
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
   "lora_alpha": 16,
   "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
   "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "dense_4h_to_h",
-    "query_key_value",
     "dense_h_to_4h",
-    "dense"
   ],
   "task_type": "CAUSAL_LM"
 }

   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
+  "loftq_config": {},
   "lora_alpha": 16,
   "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
   "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "dense_h_to_4h",
+    "query_key_value",
+    "dense",
+    "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9036f43c39a2582ab7b4e4c213d637071022070052c18b5c90acc70e6a2bfb76
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:64f47eb614eeeac02198516c8e09fcfbc5db7f3c337305b2b9461ad77a8adf1f
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:324791c173c9b18a5049fda7fe59a0a003329287ea39d462c7959f92e5787fb2
-size 268515002

 version https://git-lfs.github.com/spec/v1
+oid sha256:58c667c86b48949dd4dfb32952fa167e0583f8e5686af20a6e7232dd094f3d48
+size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f77d4c6b053aeb6d4ad04533053b2fc23c8cdef6fe687a06889e574fbaa1660f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:337e893fff51aad090563eae7b251d31e2705a96eb109dfc6fdadfb33b6a6240
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74485e67705dc36efbfb69b1e54f842e1ff07894d01bb0e36d6d2526a318b300
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:68ca608482c17f9314e1c94cd309a18be088851d4c0591a9306e6a01c952c9f3
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,919 +1,451 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.983219390926041,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 2.5615,
       "step": 2
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 8.888888888888889e-05,
-      "loss": 2.5015,
       "step": 4
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 0.00013333333333333334,
-      "loss": 2.4608,
       "step": 6
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 0.00017777777777777779,
-      "loss": 2.3143,
       "step": 8
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 0.00019999417253661235,
-      "loss": 2.4708,
       "step": 10
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 0.00019994755690455152,
-      "loss": 2.4855,
       "step": 12
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 0.0001998543473718677,
-      "loss": 2.3822,
       "step": 14
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00019971458739130598,
-      "loss": 2.4777,
       "step": 16
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 0.0001995283421166614,
-      "loss": 2.101,
       "step": 18
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.00019929569837240564,
-      "loss": 1.9602,
       "step": 20
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 0.00019901676461321068,
-      "loss": 2.0819,
       "step": 22
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.00019869167087338907,
-      "loss": 2.0897,
       "step": 24
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.00019832056870627417,
-      "loss": 2.2203,
       "step": 26
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.00019790363111356837,
-      "loss": 2.3596,
       "step": 28
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.00019744105246469263,
-      "loss": 2.2905,
       "step": 30
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.00019693304840617457,
-      "loss": 2.2056,
       "step": 32
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.00019637985576111778,
-      "loss": 2.3075,
       "step": 34
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.00019578173241879872,
-      "loss": 2.1565,
       "step": 36
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.00019513895721444286,
-      "loss": 2.187,
       "step": 38
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.00019445182979923654,
-      "loss": 2.2355,
       "step": 40
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.00019372067050063438,
-      "loss": 2.2479,
       "step": 42
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00019294582017302797,
-      "loss": 2.1294,
       "step": 44
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.0001921276400388451,
-      "loss": 2.1352,
       "step": 46
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.00019126651152015403,
-      "loss": 2.1577,
       "step": 48
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00019036283606085053,
-      "loss": 2.1704,
       "step": 50
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00018941703493951164,
-      "loss": 2.2652,
       "step": 52
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.00018842954907300236,
-      "loss": 2.1431,
       "step": 54
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 0.0001874008388109276,
-      "loss": 2.3157,
       "step": 56
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 0.00018633138372102468,
-      "loss": 2.079,
       "step": 58
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 0.00018522168236559695,
-      "loss": 2.2428,
       "step": 60
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.00018407225206909208,
-      "loss": 2.1969,
       "step": 62
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.00018288362867693414,
-      "loss": 2.1989,
       "step": 64
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 0.0001816563663057211,
-      "loss": 2.2052,
       "step": 66
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 0.000180391037084905,
-      "loss": 2.0672,
       "step": 68
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 0.00017908823089007457,
-      "loss": 2.0967,
       "step": 70
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.00017774855506796496,
-      "loss": 2.1023,
       "step": 72
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 0.0001763726341533227,
-      "loss": 2.158,
       "step": 74
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.0001749611095777581,
-      "loss": 2.1181,
       "step": 76
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 0.00017351463937072004,
-      "loss": 2.3851,
       "step": 78
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.000172033897852734,
-      "loss": 2.1762,
       "step": 80
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 0.0001705195753210446,
-      "loss": 2.1297,
       "step": 82
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.00016897237772781044,
-      "loss": 2.2054,
       "step": 84
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 0.00016739302635100108,
-      "loss": 2.2042,
       "step": 86
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.00016578225745814907,
-      "loss": 2.2659,
       "step": 88
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 0.000164140821963114,
-      "loss": 2.1998,
       "step": 90
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 0.00016246948507601914,
-      "loss": 2.1428,
       "step": 92
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 0.0001607690259465229,
-      "loss": 2.0276,
       "step": 94
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 0.00015904023730059228,
-      "loss": 2.1533,
       "step": 96
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.000157283925070947,
-      "loss": 2.1315,
       "step": 98
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 0.000155500908021347,
-      "loss": 1.9304,
       "step": 100
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 0.0001536920173648984,
-      "loss": 2.0876,
       "step": 102
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.0001518580963765555,
-      "loss": 2.0998,
       "step": 104
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 2.1599,
       "step": 106
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.00014811859444908052,
-      "loss": 2.1889,
       "step": 108
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 0.0001462147568039977,
-      "loss": 2.2714,
       "step": 110
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.00014428937460242417,
-      "loss": 2.1796,
       "step": 112
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 0.00014234334542574906,
-      "loss": 2.0842,
       "step": 114
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 0.00014037757648064018,
-      "loss": 1.9804,
       "step": 116
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 0.00013839298417611963,
-      "loss": 2.12,
       "step": 118
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 0.00013639049369634876,
-      "loss": 2.0456,
       "step": 120
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 0.00013437103856932264,
-      "loss": 2.0077,
       "step": 122
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 0.00013233556023167485,
-      "loss": 2.0013,
       "step": 124
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 0.00013028500758979506,
-      "loss": 2.1535,
       "step": 126
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 0.00012822033657746478,
-      "loss": 2.2161,
       "step": 128
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 0.00012614250971021657,
-      "loss": 2.1199,
       "step": 130
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 0.00012405249563662537,
-      "loss": 2.2261,
       "step": 132
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 0.00012195126868674051,
-      "loss": 2.2076,
       "step": 134
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 0.000119839808417869,
-      "loss": 2.1557,
       "step": 136
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 0.0001177190991579223,
-      "loss": 2.0887,
       "step": 138
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 0.00011559012954653865,
-      "loss": 2.2226,
       "step": 140
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 0.00011345389207419588,
-      "loss": 2.1355,
       "step": 142
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 0.00011131138261952845,
-      "loss": 1.9611,
-      "step": 144
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0001091635999850655,
-      "loss": 1.9342,
-      "step": 146
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.00010701154543160541,
-      "loss": 1.9842,
-      "step": 148
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00010485622221144484,
-      "loss": 2.0796,
-      "step": 150
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.00010269863510067872,
-      "loss": 1.9456,
-      "step": 152
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.00010053978993079045,
-      "loss": 2.2969,
-      "step": 154
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 9.838069311974986e-05,
-      "loss": 2.1745,
-      "step": 156
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 9.622235120283769e-05,
-      "loss": 2.0905,
-      "step": 158
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 9.406577036341548e-05,
-      "loss": 2.1926,
-      "step": 160
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 9.19119559638596e-05,
-      "loss": 2.1519,
-      "step": 162
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 8.976191207687775e-05,
-      "loss": 2.0953,
-      "step": 164
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 8.7616641017427e-05,
-      "loss": 2.0602,
-      "step": 166
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 8.5477142875451e-05,
-      "loss": 2.1189,
-      "step": 168
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 8.334441504965455e-05,
-      "loss": 1.8349,
-      "step": 170
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 8.1219451782533e-05,
-      "loss": 2.0207,
-      "step": 172
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 7.91032436968725e-05,
-      "loss": 2.0835,
-      "step": 174
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 7.699677733393826e-05,
-      "loss": 2.1297,
-      "step": 176
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 7.490103469356513e-05,
-      "loss": 2.2253,
-      "step": 178
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 7.281699277636572e-05,
-      "loss": 2.1392,
-      "step": 180
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 7.07456231282686e-05,
-      "loss": 2.2366,
-      "step": 182
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 6.868789138759976e-05,
-      "loss": 2.2417,
-      "step": 184
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 6.664475683491796e-05,
-      "loss": 2.1114,
-      "step": 186
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 6.461717194581393e-05,
-      "loss": 2.1858,
-      "step": 188
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 6.260608194688206e-05,
-      "loss": 2.2032,
-      "step": 190
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 6.061242437507131e-05,
-      "loss": 2.1147,
-      "step": 192
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 5.863712864062089e-05,
-      "loss": 1.9731,
-      "step": 194
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 5.668111559378471e-05,
-      "loss": 2.0307,
-      "step": 196
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 5.474529709554612e-05,
-      "loss": 2.0143,
-      "step": 198
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 5.283057559252341e-05,
-      "loss": 1.8633,
-      "step": 200
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 5.0937843696263966e-05,
-      "loss": 1.8288,
-      "step": 202
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 4.9067983767123736e-05,
-      "loss": 2.2213,
-      "step": 204
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 4.722186750292511e-05,
-      "loss": 2.1991,
-      "step": 206
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 4.540035553258619e-05,
-      "loss": 1.986,
-      "step": 208
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 4.360429701490934e-05,
-      "loss": 2.1149,
-      "step": 210
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 4.183452924271776e-05,
-      "loss": 2.0299,
-      "step": 212
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 4.009187725252309e-05,
-      "loss": 2.182,
-      "step": 214
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 3.8377153439907266e-05,
-      "loss": 2.125,
-      "step": 216
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 3.669115718079702e-05,
-      "loss": 2.0164,
-      "step": 218
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 3.503467445880789e-05,
-      "loss": 1.9398,
-      "step": 220
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 3.340847749883191e-05,
-      "loss": 1.9637,
-      "step": 222
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 3.1813324407038825e-05,
-      "loss": 1.99,
-      "step": 224
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 3.0249958817459722e-05,
-      "loss": 1.9515,
-      "step": 226
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 2.8719109545317103e-05,
-      "loss": 2.0532,
-      "step": 228
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 2.722149024726307e-05,
-      "loss": 2.1069,
-      "step": 230
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 2.5757799088684654e-05,
-      "loss": 2.0917,
-      "step": 232
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 2.432871841823047e-05,
-      "loss": 2.2022,
-      "step": 234
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 2.2934914449711087e-05,
-      "loss": 2.1084,
-      "step": 236
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 2.157703695152109e-05,
-      "loss": 2.1929,
-      "step": 238
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 2.025571894372794e-05,
-      "loss": 2.0758,
-      "step": 240
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 1.897157640296825e-05,
-      "loss": 2.0788,
-      "step": 242
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 1.772520797528988e-05,
-      "loss": 1.966,
-      "step": 244
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 1.65171946970729e-05,
-      "loss": 2.0296,
-      "step": 246
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 1.534809972415998e-05,
-      "loss": 1.967,
-      "step": 248
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 1.4218468069322578e-05,
-      "loss": 2.0128,
-      "step": 250
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 1.3128826348184887e-05,
-      "loss": 1.8105,
-      "step": 252
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 1.2079682533724379e-05,
-      "loss": 2.1251,
-      "step": 254
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 1.1071525719463095e-05,
-      "loss": 2.2662,
-      "step": 256
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 1.010482589146048e-05,
-      "loss": 2.172,
-      "step": 258
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 9.180033709213454e-06,
-      "loss": 2.1301,
-      "step": 260
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 8.297580295566575e-06,
-      "loss": 2.0283,
-      "step": 262
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 7.457877035729588e-06,
-      "loss": 2.092,
-      "step": 264
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 6.661315385496425e-06,
-      "loss": 2.1478,
-      "step": 266
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 5.908266688755049e-06,
-      "loss": 2.0034,
-      "step": 268
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 5.199082004372957e-06,
-      "loss": 2.0571,
-      "step": 270
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 4.534091942539475e-06,
-      "loss": 1.8802,
-      "step": 272
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 3.913606510640644e-06,
-      "loss": 2.1067,
-      "step": 274
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 3.3379149687388867e-06,
-      "loss": 1.9134,
-      "step": 276
-    },
-    {
-      "epoch": 2.76,
-      "learning_rate": 2.8072856947248037e-06,
-      "loss": 2.1052,
-      "step": 278
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 2.3219660592038285e-06,
-      "loss": 1.9601,
-      "step": 280
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 1.882182310176095e-06,
-      "loss": 2.0907,
-      "step": 282
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 1.488139467563354e-06,
-      "loss": 2.0213,
-      "step": 284
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 1.1400212276321376e-06,
-      "loss": 2.2126,
-      "step": 286
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 8.379898773574924e-07,
-      "loss": 2.2776,
-      "step": 288
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 5.821862187675775e-07,
-      "loss": 2.0965,
-      "step": 290
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 3.727295033040035e-07,
-      "loss": 2.0892,
-      "step": 292
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 2.0971737622883515e-07,
-      "loss": 1.9065,
-      "step": 294
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 9.32258311039269e-08,
-      "loss": 1.9225,
-      "step": 296
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 2.3309174364027907e-08,
-      "loss": 1.9352,
-      "step": 298
-    },
-    {
-      "epoch": 2.98,
       "learning_rate": 0.0,
-      "loss": 1.9156,
-      "step": 300
     }
   ],
   "logging_steps": 2,
-  "max_steps": 300,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2.577856434393907e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.953846153846154,
   "eval_steps": 500,
+  "global_step": 144,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
+      "learning_rate": 8e-05,
+      "loss": 2.331,
       "step": 2
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00016,
+      "loss": 2.4252,
       "step": 4
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.0001999744599547812,
+      "loss": 2.5627,
       "step": 6
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.00019977021786163598,
+      "loss": 2.47,
       "step": 8
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.00019936215093023884,
+      "loss": 2.4888,
       "step": 10
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.00019875109281794825,
+      "loss": 2.6307,
       "step": 12
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00019793829188147406,
+      "loss": 2.2032,
       "step": 14
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00019692540862655585,
+      "loss": 2.2254,
       "step": 16
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.00019571451231564525,
+      "loss": 2.3134,
       "step": 18
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.00019430807674052092,
+      "loss": 2.4247,
       "step": 20
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00019270897516847403,
+      "loss": 2.4047,
       "step": 22
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.00019092047447238773,
+      "loss": 2.1955,
       "step": 24
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.00018894622845670283,
+      "loss": 2.1532,
       "step": 26
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.00018679027039290497,
+      "loss": 2.22,
       "step": 28
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 0.00018445700477978205,
+      "loss": 2.3129,
       "step": 30
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 0.00018195119834528534,
+      "loss": 2.319,
       "step": 32
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 0.00017927797030837768,
+      "loss": 2.3718,
       "step": 34
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.0001764427819207624,
+      "loss": 2.2181,
       "step": 36
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.00017345142530985887,
+      "loss": 2.2146,
       "step": 38
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 0.00017031001164581828,
+      "loss": 2.2694,
       "step": 40
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 0.0001670249586567531,
+      "loss": 2.475,
       "step": 42
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 0.0001636029775176862,
+      "loss": 2.4209,
       "step": 44
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 0.00016005105914000507,
+      "loss": 2.227,
       "step": 46
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 0.0001563764598894301,
+      "loss": 2.3764,
       "step": 48
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 0.00015258668676167546,
+      "loss": 2.3207,
       "step": 50
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.000148689482046087,
+      "loss": 2.1737,
       "step": 52
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 0.00014469280750858854,
+      "loss": 2.3004,
       "step": 54
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 0.00014060482812625055,
+      "loss": 2.3923,
       "step": 56
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.00013643389540670962,
+      "loss": 2.3233,
       "step": 58
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 0.0001321885303265172,
+      "loss": 2.2213,
       "step": 60
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 0.0001278774059232723,
+      "loss": 2.1091,
       "step": 62
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 0.0001235093295771032,
+      "loss": 2.1015,
       "step": 64
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 0.00011909322501769406,
+      "loss": 2.2032,
       "step": 66
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 0.00011463811409361667,
+      "loss": 2.3454,
       "step": 68
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 0.00011015309834121081,
+      "loss": 2.2736,
       "step": 70
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 0.00010564734039066699,
+      "loss": 2.308,
       "step": 72
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 0.00010113004524729799,
+      "loss": 2.1137,
       "step": 74
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 9.661044148624037e-05,
+      "loss": 2.1818,
       "step": 76
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 9.209776239900453e-05,
+      "loss": 2.3509,
       "step": 78
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 8.760122713038881e-05,
+      "loss": 2.3443,
       "step": 80
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 8.313002184429529e-05,
+      "loss": 2.401,
       "step": 82
     },
     {
+      "epoch": 1.72,
+      "learning_rate": 7.869328095692312e-05,
+      "loss": 2.3839,
       "step": 84
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 7.430006847567972e-05,
+      "loss": 2.0637,
       "step": 86
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 6.995935948193294e-05,
+      "loss": 2.2678,
       "step": 88
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 6.568002179543409e-05,
+      "loss": 2.1899,
       "step": 90
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 6.147079785787038e-05,
+      "loss": 2.3489,
       "step": 92
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 5.734028687255751e-05,
+      "loss": 2.2695,
       "step": 94
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 5.329692723675994e-05,
+      "loss": 2.046,
       "step": 96
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 4.934897930252886e-05,
+      "loss": 2.0616,
       "step": 98
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 4.550450850127625e-05,
+      "loss": 2.2179,
       "step": 100
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 4.1771368866560665e-05,
+      "loss": 2.2652,
       "step": 102
     },
     {
+      "epoch": 2.13,
+      "learning_rate": 3.815718698874672e-05,
+      "loss": 2.444,
       "step": 104
     },
     {
+      "epoch": 2.17,
+      "learning_rate": 3.466934643431795e-05,
+      "loss": 2.2312,
       "step": 106
     },
     {
+      "epoch": 2.22,
+      "learning_rate": 3.131497266167357e-05,
+      "loss": 2.2545,
       "step": 108
     },
     {
+      "epoch": 2.26,
+      "learning_rate": 2.81009184642253e-05,
+      "loss": 1.9974,
       "step": 110
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 2.5033749970533015e-05,
+      "loss": 2.1236,
       "step": 112
     },
     {
+      "epoch": 2.34,
+      "learning_rate": 2.2119733230080408e-05,
+      "loss": 2.0792,
       "step": 114
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 1.9364821412094857e-05,
+      "loss": 2.4105,
       "step": 116
     },
     {
+      "epoch": 2.42,
+      "learning_rate": 1.6774642643563953e-05,
+      "loss": 2.3441,
       "step": 118
     },
     {
+      "epoch": 2.46,
+      "learning_rate": 1.4354488511294417e-05,
+      "loss": 1.9161,
       "step": 120
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 1.2109303251503434e-05,
+      "loss": 1.8637,
       "step": 122
     },
     {
+      "epoch": 2.54,
+      "learning_rate": 1.0043673649027518e-05,
+      "loss": 2.1511,
       "step": 124
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 8.161819666783888e-06,
+      "loss": 2.1222,
       "step": 126
     },
     {
+      "epoch": 2.63,
+      "learning_rate": 6.467585824627887e-06,
+      "loss": 2.3351,
       "step": 128
     },
     {
+      "epoch": 2.67,
+      "learning_rate": 4.964433345219355e-06,
+      "loss": 2.217,
       "step": 130
     },
     {
+      "epoch": 2.71,
+      "learning_rate": 3.655433082942972e-06,
+      "loss": 2.362,
       "step": 132
     },
     {
+      "epoch": 2.75,
+      "learning_rate": 2.5432592503288e-06,
+      "loss": 2.1953,
       "step": 134
     },
     {
+      "epoch": 2.79,
+      "learning_rate": 1.6301839547892328e-06,
+      "loss": 2.1478,
       "step": 136
     },
     {
+      "epoch": 2.83,
+      "learning_rate": 9.180725568338044e-07,
+      "loss": 2.1976,
       "step": 138
     },
     {
+      "epoch": 2.87,
+      "learning_rate": 4.0837985924448984e-07,
+      "loss": 2.1874,
       "step": 140
     },
     {
+      "epoch": 2.91,
+      "learning_rate": 1.0214713499706597e-07,
+      "loss": 2.3805,
       "step": 142
     },
     {
+      "epoch": 2.95,
       "learning_rate": 0.0,
+      "loss": 2.2218,
+      "step": 144
     }
   ],
   "logging_steps": 2,
+  "max_steps": 144,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 6408232920367104.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca8759ffec6837da55acb02e1d1d81ed7c0fc802ba0aa05b0b5d182e5fd0c5db
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd87892201410819e4011448b9fe7093db86d6a66f410aa57e3570916e8f2bf6
 size 4600