Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +1 -1
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +48 -48
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "v_proj",
     "q_proj",
     "o_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "k_proj",
     "q_proj",
     "o_proj"
   ],

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93e3eccf3c7b4d2974e51d6b92a5fce3e04e1b639c3dc38faaf6f751b12e54d4
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:5241ed443e49e9c020cf18aba141ea2252452880579106c649b5cef461681070
 size 54560368

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d7dd72473bbc4ceefd500632843f8b5a46c9b458ab506c8cc5259e47189e489
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:76a58f1d251840512383b3a097d369b8a76dc422086924bacff92444568585f1
 size 109267450

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_metric": 0.35499998927116394,
-  "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.10-KTO_Hyperparameter search, altering desired and undesired weights for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
@@ -11,14 +11,14 @@
     {
       "epoch": 0.14,
       "grad_norm": 0.0,
-      "kl": 0.0,
       "learning_rate": 0.00018,
-      "logps/chosen": -1121.033935546875,
-      "logps/rejected": -1175.0645751953125,
-      "loss": 0.3883,
-      "rewards/chosen": -82.42558288574219,
-      "rewards/margins": 3.8134756088256836,
-      "rewards/rejected": -86.0301284790039,
       "step": 20
     },
     {
@@ -26,26 +26,26 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.00015142857142857143,
-      "logps/chosen": -2772.499755859375,
-      "logps/rejected": -2552.62548828125,
-      "loss": 0.3352,
-      "rewards/chosen": -248.261474609375,
-      "rewards/margins": -23.709930419921875,
-      "rewards/rejected": -226.1365203857422,
       "step": 40
     },
     {
       "epoch": 0.34,
       "eval_kl": 0.0,
-      "eval_logps/chosen": -2637.12109375,
-      "eval_logps/rejected": -2308.955810546875,
       "eval_loss": 0.35499998927116394,
-      "eval_rewards/chosen": -235.4595489501953,
-      "eval_rewards/margins": -32.44633865356445,
-      "eval_rewards/rejected": -204.63710021972656,
-      "eval_runtime": 140.6369,
-      "eval_samples_per_second": 2.133,
-      "eval_steps_per_second": 0.533,
       "step": 50
     },
     {
@@ -53,12 +53,12 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.00012285714285714287,
-      "logps/chosen": -2785.7900390625,
-      "logps/rejected": -2503.834716796875,
-      "loss": 0.3516,
-      "rewards/chosen": -249.9789581298828,
-      "rewards/margins": -26.628849029541016,
-      "rewards/rejected": -222.65147399902344,
       "step": 60
     },
     {
@@ -66,12 +66,12 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 9.428571428571429e-05,
-      "logps/chosen": -2890.97216796875,
-      "logps/rejected": -2390.66064453125,
-      "loss": 0.3773,
-      "rewards/chosen": -259.9905700683594,
-      "rewards/margins": -50.821651458740234,
-      "rewards/rejected": -211.66656494140625,
       "step": 80
     },
     {
@@ -79,26 +79,26 @@
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 6.571428571428571e-05,
-      "logps/chosen": -2552.4580078125,
-      "logps/rejected": -2739.7529296875,
-      "loss": 0.3609,
-      "rewards/chosen": -227.57888793945312,
-      "rewards/margins": 18.942209243774414,
-      "rewards/rejected": -243.08050537109375,
       "step": 100
     },
     {
       "epoch": 0.68,
       "eval_kl": 0.0,
-      "eval_logps/chosen": -2662.06640625,
-      "eval_logps/rejected": -2326.6005859375,
       "eval_loss": 0.35499998927116394,
-      "eval_rewards/chosen": -237.95407104492188,
-      "eval_rewards/margins": -33.08881378173828,
-      "eval_rewards/rejected": -206.40155029296875,
-      "eval_runtime": 140.6813,
-      "eval_samples_per_second": 2.132,
-      "eval_steps_per_second": 0.533,
       "step": 100
     }
   ],

 {
   "best_metric": 0.35499998927116394,
+  "best_model_checkpoint": "./zephyr/09-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.10-KTO_Hyperparameter search, altering desired and undesired weights for KTO task.-2_max_steps-145_batch_16_2024-04-09_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
     {
       "epoch": 0.14,
       "grad_norm": 0.0,
+      "kl": 0.6947981119155884,
       "learning_rate": 0.00018,
+      "logps/chosen": -534.4633178710938,
+      "logps/rejected": -551.6043090820312,
+      "loss": 0.3763,
+      "rewards/chosen": -24.06700325012207,
+      "rewards/margins": 3.339742660522461,
+      "rewards/rejected": -27.222640991210938,
       "step": 20
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.00015142857142857143,
+      "logps/chosen": -1181.132568359375,
+      "logps/rejected": -1268.249755859375,
+      "loss": 0.3703,
+      "rewards/chosen": -89.00174713134766,
+      "rewards/margins": 8.45933723449707,
+      "rewards/rejected": -97.4486083984375,
       "step": 40
     },
     {
       "epoch": 0.34,
       "eval_kl": 0.0,
+      "eval_logps/chosen": -1383.1231689453125,
+      "eval_logps/rejected": -1366.6656494140625,
       "eval_loss": 0.35499998927116394,
+      "eval_rewards/chosen": -110.769287109375,
+      "eval_rewards/margins": 0.34473782777786255,
+      "eval_rewards/rejected": -110.63328552246094,
+      "eval_runtime": 139.1234,
+      "eval_samples_per_second": 2.156,
+      "eval_steps_per_second": 0.539,
       "step": 50
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 0.00012285714285714287,
+      "logps/chosen": -1373.5347900390625,
+      "logps/rejected": -1470.8179931640625,
+      "loss": 0.3422,
+      "rewards/chosen": -108.9572525024414,
+      "rewards/margins": 11.698455810546875,
+      "rewards/rejected": -120.54151916503906,
       "step": 60
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 9.428571428571429e-05,
+      "logps/chosen": -1384.841796875,
+      "logps/rejected": -1508.3975830078125,
+      "loss": 0.3703,
+      "rewards/chosen": -111.45362854003906,
+      "rewards/margins": 9.210695266723633,
+      "rewards/rejected": -121.47576904296875,
       "step": 80
     },
     {
       "grad_norm": 0.0,
       "kl": 0.0,
       "learning_rate": 6.571428571428571e-05,
+      "logps/chosen": -1428.02587890625,
+      "logps/rejected": -1513.79248046875,
+      "loss": 0.3352,
+      "rewards/chosen": -113.59603118896484,
+      "rewards/margins": 8.474186897277832,
+      "rewards/rejected": -121.59716796875,
       "step": 100
     },
     {
       "epoch": 0.68,
       "eval_kl": 0.0,
+      "eval_logps/chosen": -1404.312255859375,
+      "eval_logps/rejected": -1386.0108642578125,
       "eval_loss": 0.35499998927116394,
+      "eval_rewards/chosen": -112.88818359375,
+      "eval_rewards/margins": 0.1723746657371521,
+      "eval_rewards/rejected": -112.56780242919922,
+      "eval_runtime": 139.1821,
+      "eval_samples_per_second": 2.155,
+      "eval_steps_per_second": 0.539,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7259373241079ee9fe031c2749e484f10fc64310d3a73a5dc994aaad8cbc23eb
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4e7471c208358007e16769013c8f13853110f1e8d489247cdb5f44357b48bc7
 size 5688