End of training

Browse files

Files changed (4) hide show

README.md +10 -7
all_results.json +13 -0
eval_results.json +14 -14
runs/Jul31_17-29-05_ip-172-16-2-184.us-west-2.compute.internal/events.out.tfevents.1722451516.ip-172-16-2-184.us-west-2.compute.internal.23039.1 +3 -0

README.md CHANGED Viewed

@@ -1,8 +1,11 @@
 ---
 base_model: HuggingFaceH4/zephyr-7b-gemma-sft-v0.1
 library_name: peft
 license: other
 tags:
 - trl
 - dpo
 - generated_from_trainer
@@ -16,17 +19,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-gemma-dpo
-This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-gemma-sft-v0.1](https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-sft-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 97.2543
 - Rewards/chosen: 0.0424
 - Rewards/rejected: 0.0341
-- Rewards/accuracies: 0.5976
 - Rewards/margins: 0.0083
-- Logps/rejected: -2.3888
-- Logps/chosen: -2.3300
-- Logits/rejected: 384.5274
-- Logits/chosen: 412.5387
 ## Model description

 ---
 base_model: HuggingFaceH4/zephyr-7b-gemma-sft-v0.1
+datasets:
+- RedaAlami/PKU-SafeRLHF-Processed
 library_name: peft
 license: other
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 # zephyr-7b-gemma-dpo
+This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-gemma-sft-v0.1](https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-sft-v0.1) on the RedaAlami/PKU-SafeRLHF-Processed dataset.
 It achieves the following results on the evaluation set:
+- Loss: 97.2382
 - Rewards/chosen: 0.0424
 - Rewards/rejected: 0.0341
+- Rewards/accuracies: 0.6062
 - Rewards/margins: 0.0083
+- Logps/rejected: -2.3880
+- Logps/chosen: -2.3290
+- Logits/rejected: 384.5392
+- Logits/chosen: 412.5483
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 1.9969834087481146,
     "total_flos": 0.0,
     "train_loss": 98.05829228519313,
     "train_runtime": 4353.733,

 {
     "epoch": 1.9969834087481146,
+    "eval_logits/chosen": 412.54827880859375,
+    "eval_logits/rejected": 384.53924560546875,
+    "eval_logps/chosen": -2.328974485397339,
+    "eval_logps/rejected": -2.3880226612091064,
+    "eval_loss": 97.23818969726562,
+    "eval_rewards/accuracies": 0.6061643958091736,
+    "eval_rewards/chosen": 0.042412400245666504,
+    "eval_rewards/margins": 0.00826968066394329,
+    "eval_rewards/rejected": 0.034142717719078064,
+    "eval_runtime": 96.0326,
+    "eval_samples": 4656,
+    "eval_samples_per_second": 48.484,
+    "eval_steps_per_second": 1.52,
     "total_flos": 0.0,
     "train_loss": 98.05829228519313,
     "train_runtime": 4353.733,

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 1.9986987638256344,
-    "eval_logits/chosen": 452.641357421875,
-    "eval_logits/rejected": 436.01385498046875,
-    "eval_logps/chosen": -295.9647216796875,
-    "eval_logps/rejected": -334.555419921875,
-    "eval_loss": 0.6477869153022766,
-    "eval_rewards/accuracies": 0.6168639063835144,
-    "eval_rewards/chosen": -0.34524381160736084,
-    "eval_rewards/margins": 0.23360556364059448,
-    "eval_rewards/rejected": -0.5788493752479553,
-    "eval_runtime": 243.7753,
-    "eval_samples": 5406,
-    "eval_samples_per_second": 22.176,
-    "eval_steps_per_second": 0.693
 }

 {
+    "epoch": 1.9969834087481146,
+    "eval_logits/chosen": 412.54827880859375,
+    "eval_logits/rejected": 384.53924560546875,
+    "eval_logps/chosen": -2.328974485397339,
+    "eval_logps/rejected": -2.3880226612091064,
+    "eval_loss": 97.23818969726562,
+    "eval_rewards/accuracies": 0.6061643958091736,
+    "eval_rewards/chosen": 0.042412400245666504,
+    "eval_rewards/margins": 0.00826968066394329,
+    "eval_rewards/rejected": 0.034142717719078064,
+    "eval_runtime": 96.0326,
+    "eval_samples": 4656,
+    "eval_samples_per_second": 48.484,
+    "eval_steps_per_second": 1.52
 }

runs/Jul31_17-29-05_ip-172-16-2-184.us-west-2.compute.internal/events.out.tfevents.1722451516.ip-172-16-2-184.us-west-2.compute.internal.23039.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ffef7c05c4adb4652f9c4e25c9c8b1c3b06477fdf7be8c07558d7756bfc6b81
+size 828