Model save

Browse files

Files changed (10) hide show

README.md +8 -13
all_results.json +5 -10
config.json +2 -2
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +74 -67
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,16 +2,11 @@
 license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.1
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
-- trl
-- sft
-- alignment-handbook
-- generated_from_trainer
 datasets:
-- HuggingFaceH4/deita-10k-v0-sft
 model-index:
 - name: mistral-7b-wo-kqa_golden-iter-sft-step1
   results: []
@@ -22,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # mistral-7b-wo-kqa_golden-iter-sft-step1
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the HuggingFaceH4/deita-10k-v0-sft dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.4157
 ## Model description
@@ -61,14 +56,14 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.0983        | 0.97  | 16   | 1.2722          |
-| 1.4581        | 2.0   | 33   | 1.2942          |
-| 0.9338        | 2.91  | 48   | 1.4157          |
 ### Framework versions
-- Transformers 4.39.0.dev0
-- Pytorch 2.1.2
 - Datasets 2.14.6
 - Tokenizers 0.15.2

 license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.1
 tags:
 - trl
 - sft
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: mistral-7b-wo-kqa_golden-iter-sft-step1
   results: []
 # mistral-7b-wo-kqa_golden-iter-sft-step1
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1981
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.0423        | 1.0   | 17   | 1.2217          |
+| 0.8111        | 2.0   | 34   | 1.1844          |
+| 0.6164        | 3.0   | 51   | 1.1981          |
 ### Framework versions
+- Transformers 4.38.2
+- Pytorch 2.1.2+cu121
 - Datasets 2.14.6
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "epoch": 2.91,
-    "eval_loss": 1.4157191514968872,
-    "eval_runtime": 38.1251,
-    "eval_samples": 4044,
-    "eval_samples_per_second": 9.023,
-    "eval_steps_per_second": 0.577,
-    "train_loss": 1.5385780781507492,
-    "train_runtime": 1102.2371,
     "train_samples": 4750,
-    "train_samples_per_second": 2.874,
-    "train_steps_per_second": 0.044
 }

 {
+    "epoch": 3.0,
+    "train_loss": 0.8299297000847611,
+    "train_runtime": 879.3584,
     "train_samples": 4750,
+    "train_samples_per_second": 3.708,
+    "train_steps_per_second": 0.058
 }

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.39.0.dev0",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.2",
+  "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.39.0.dev0"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.38.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91dc65e5a3704f7948ab62ad8d5a8fd56f660165c50af2dd1f16b10e53515450
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ded5b3b2fde00ac15f5588ad5328b06f97d367873ee22c9d116180e942b5a63
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fce9c548ed97a033e6d6bc9efc641d4f12827c157b127198660b7b46064934b5
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a963c0c6921c2b91cb3431ec845680ee02954a9aa0b3ec49bef7fc67c6d5c99
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f19f5767b63b207703920bc9c6a4df49a04203694c0570cedec7eafd52da0ba2
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:6eeefd30ca5428baa750aa4b851be9ae801ce8084c3d598922ca164a52fa3d69
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.91,
-    "train_loss": 1.5385780781507492,
-    "train_runtime": 1102.2371,
     "train_samples": 4750,
-    "train_samples_per_second": 2.874,
-    "train_steps_per_second": 0.044
 }

 {
+    "epoch": 3.0,
+    "train_loss": 0.8299297000847611,
+    "train_runtime": 879.3584,
     "train_samples": 4750,
+    "train_samples_per_second": 3.708,
+    "train_steps_per_second": 0.058
 }

trainer_state.json CHANGED Viewed

@@ -1,123 +1,130 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.909090909090909,
   "eval_steps": 500,
-  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
-      "grad_norm": 7.70100371900725,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 2.2437,
       "step": 1
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 8.07737003057859,
-      "learning_rate": 2e-05,
-      "loss": 2.0985,
       "step": 5
     },
     {
-      "epoch": 0.61,
-      "grad_norm": 6.4902480217917775,
-      "learning_rate": 1.9340161087325483e-05,
-      "loss": 2.132,
       "step": 10
     },
     {
-      "epoch": 0.91,
-      "grad_norm": 3.741098959561992,
-      "learning_rate": 1.744772182743782e-05,
-      "loss": 2.0983,
       "step": 15
     },
     {
-      "epoch": 0.97,
-      "eval_loss": 1.2721720933914185,
-      "eval_runtime": 39.3037,
-      "eval_samples_per_second": 8.752,
-      "eval_steps_per_second": 0.56,
-      "step": 16
     },
     {
-      "epoch": 1.21,
-      "grad_norm": 5.4461225981614865,
-      "learning_rate": 1.4572423233046386e-05,
-      "loss": 1.7742,
       "step": 20
     },
     {
-      "epoch": 1.52,
-      "grad_norm": 4.6058371258039505,
-      "learning_rate": 1.1093712083778748e-05,
-      "loss": 1.4965,
       "step": 25
     },
     {
-      "epoch": 1.82,
-      "grad_norm": 4.264046294630599,
-      "learning_rate": 7.470666176083193e-06,
-      "loss": 1.4581,
       "step": 30
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.2942003011703491,
-      "eval_runtime": 39.0225,
-      "eval_samples_per_second": 8.815,
-      "eval_steps_per_second": 0.564,
-      "step": 33
     },
     {
-      "epoch": 2.12,
-      "grad_norm": 7.641748264447652,
-      "learning_rate": 4.181410844420473e-06,
-      "loss": 1.2737,
       "step": 35
     },
     {
-      "epoch": 2.42,
-      "grad_norm": 5.3186753462108225,
-      "learning_rate": 1.660021821101222e-06,
-      "loss": 0.979,
       "step": 40
     },
     {
-      "epoch": 2.73,
-      "grad_norm": 4.053250174296059,
-      "learning_rate": 2.392412244407294e-07,
-      "loss": 0.9338,
       "step": 45
     },
     {
-      "epoch": 2.91,
-      "eval_loss": 1.4157191514968872,
-      "eval_runtime": 38.8008,
-      "eval_samples_per_second": 8.866,
-      "eval_steps_per_second": 0.567,
-      "step": 48
     },
     {
-      "epoch": 2.91,
-      "step": 48,
-      "total_flos": 9997878558720.0,
-      "train_loss": 1.5385780781507492,
-      "train_runtime": 1102.2371,
-      "train_samples_per_second": 2.874,
-      "train_steps_per_second": 0.044
     }
   ],
   "logging_steps": 5,
-  "max_steps": 48,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 9997878558720.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 51,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
+      "grad_norm": 7.433030029804606,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.9486,
       "step": 1
     },
     {
+      "epoch": 0.29,
+      "grad_norm": 132.09106671695386,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.1703,
       "step": 5
     },
     {
+      "epoch": 0.59,
+      "grad_norm": 9.251568558996158,
+      "learning_rate": 1.961261695938319e-05,
+      "loss": 1.0685,
       "step": 10
     },
     {
+      "epoch": 0.88,
+      "grad_norm": 4.328676411784069,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 1.0423,
       "step": 15
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.2217166423797607,
+      "eval_runtime": 4.1499,
+      "eval_samples_per_second": 10.121,
+      "eval_steps_per_second": 0.723,
+      "step": 17
     },
     {
+      "epoch": 1.18,
+      "grad_norm": 3.5643197557582407,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.8385,
       "step": 20
     },
     {
+      "epoch": 1.47,
+      "grad_norm": 2.778059481053355,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.7726,
       "step": 25
     },
     {
+      "epoch": 1.76,
+      "grad_norm": 2.439799240539835,
+      "learning_rate": 8.954715367323468e-06,
+      "loss": 0.8111,
       "step": 30
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.184422492980957,
+      "eval_runtime": 3.96,
+      "eval_samples_per_second": 10.606,
+      "eval_steps_per_second": 0.758,
+      "step": 34
     },
     {
+      "epoch": 2.06,
+      "grad_norm": 3.1823488644464084,
+      "learning_rate": 5.616288532109225e-06,
+      "loss": 0.7542,
       "step": 35
     },
     {
+      "epoch": 2.35,
+      "grad_norm": 2.5658011548139052,
+      "learning_rate": 2.8066019966134907e-06,
+      "loss": 0.6539,
       "step": 40
     },
     {
+      "epoch": 2.65,
+      "grad_norm": 2.532024165395188,
+      "learning_rate": 8.645454235739903e-07,
+      "loss": 0.6478,
       "step": 45
     },
     {
+      "epoch": 2.94,
+      "grad_norm": 2.036766400192092,
+      "learning_rate": 2.4359497401758026e-08,
+      "loss": 0.6164,
+      "step": 50
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 1.198138952255249,
+      "eval_runtime": 3.9851,
+      "eval_samples_per_second": 10.539,
+      "eval_steps_per_second": 0.753,
+      "step": 51
+    },
+    {
+      "epoch": 3.0,
+      "step": 51,
+      "total_flos": 10626017525760.0,
+      "train_loss": 0.8299297000847611,
+      "train_runtime": 879.3584,
+      "train_samples_per_second": 3.708,
+      "train_steps_per_second": 0.058
     }
   ],
   "logging_steps": 5,
+  "max_steps": 51,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 10626017525760.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:111dec9fac45a0af07ef767962027eba86346e587bc51c10caee109e795fc697
 size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0b79a7e8f05fd74caa616325c3db795998c57991eb9db1d1ed05f7cc4e97d34
 size 6200