AmberYifan commited on Dec 16, 2024

Commit

0e9bc64

verified ·

1 Parent(s): ebeb18f

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fdb9d29ea0064e985994ffdb222eef1f01b2d88491d513f1988dd423dc79cda
+size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27a8dbc7e09cb1db15ee6571bfdef8e2a80af1a70a48bc931110e886dfbf8b4c
+size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c3aeab06cda106c17c1433520c5a735c59687b2e21b687097ee8e9a4caea32d
+size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8101c9fb4440646e4de4275c5e744bbe203c9bc27ac2ce6d11ed9e74d6916245
+size 14496051368

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2efe7d77b4410e6649a35dc6efabb73a0dfc5153beda8cefa2495c69bf65fbe
+size 150629

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e6cad11b1fd5787adcea9f18e4c482897157146658af7358b8e1330c5de61c5
+size 150629

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eb281386924df332f5956c9354cf760b10785f53e4738767a85453249c0b725
+size 150629

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32f520b4a0c187f92c6bf6c96396edb2cd0df53e8944e38b0ce6f06db6b59b05
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b48a3517aa588c9222dc9309ce1b926168ad0c41b83e17d5f5834ab0ef3c0657
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9db3078a72903c7b3a3133c791ca9e6e70f9ec7be16ecff54be824b5db6528b
 size 4949453792

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7471403dbf4768eacd8d9d447e0c6a57e7d652ab369d512107681f9f7183832
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d897f597d047b4c1880efc3cfdc020dea392ef84df35adc8fcb08fbf861a612d
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3bdae682878f486b72e5fc70b77918f76706980709c0ca7875973551d3252b8
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:a05f84375aa1cb4eafa3255494706703728ceac54b428de830cc74fcd99cf0f1
 size 4546807800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fd160e69e5766b513d913785299b2ff6d181cae9fd47f741adc100cb17d22e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:640747ca69b57ef58ae079eec14158d13652c8bf30fb7c733fab30d65edaeb50
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 16.584,
       "eval_steps_per_second": 0.58,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.584,
       "eval_steps_per_second": 0.58,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 0.10140143638014018,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -1.1796875,
+      "logits/rejected": -1.2578125,
+      "logps/chosen": -79.0,
+      "logps/rejected": -85.0,
+      "loss": 0.6348,
+      "rewards/accuracies": 0.05000000074505806,
+      "rewards/chosen": -5.34375,
+      "rewards/margins": 0.546875,
+      "rewards/rejected": -5.875,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 0.8245291368159866,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -1.421875,
+      "logits/rejected": -1.296875,
+      "logps/chosen": -77.0,
+      "logps/rejected": -88.5,
+      "loss": 0.611,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": -4.9375,
+      "rewards/margins": 1.25,
+      "rewards/rejected": -6.15625,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 0.10712888479455715,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -1.171875,
+      "logits/rejected": -1.15625,
+      "logps/chosen": -72.5,
+      "logps/rejected": -78.0,
+      "loss": 0.6271,
+      "rewards/accuracies": 0.0625,
+      "rewards/chosen": -4.75,
+      "rewards/margins": 0.55859375,
+      "rewards/rejected": -5.3125,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 0.0657788228327599,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -1.0546875,
+      "logits/rejected": -1.0859375,
+      "logps/chosen": -85.0,
+      "logps/rejected": -91.5,
+      "loss": 0.6184,
+      "rewards/accuracies": 0.0625,
+      "rewards/chosen": -5.90625,
+      "rewards/margins": 0.6484375,
+      "rewards/rejected": -6.5625,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 0.04955247697639958,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -1.125,
+      "logits/rejected": -1.0390625,
+      "logps/chosen": -80.5,
+      "logps/rejected": -91.0,
+      "loss": 0.6175,
+      "rewards/accuracies": 0.11249999701976776,
+      "rewards/chosen": -5.4375,
+      "rewards/margins": 1.0625,
+      "rewards/rejected": -6.5,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 12.412215026265685,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -1.21875,
+      "logits/rejected": -1.2890625,
+      "logps/chosen": -81.5,
+      "logps/rejected": -92.0,
+      "loss": 0.6305,
+      "rewards/accuracies": 0.0625,
+      "rewards/chosen": -5.4375,
+      "rewards/margins": 0.99609375,
+      "rewards/rejected": -6.4375,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 0.061456953130695664,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -1.109375,
+      "logits/rejected": -1.0078125,
+      "logps/chosen": -76.0,
+      "logps/rejected": -90.0,
+      "loss": 0.6098,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": -5.03125,
+      "rewards/margins": 1.4140625,
+      "rewards/rejected": -6.4375,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 0.14188321138308624,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -1.109375,
+      "logits/rejected": -1.0546875,
+      "logps/chosen": -79.5,
+      "logps/rejected": -91.0,
+      "loss": 0.6291,
+      "rewards/accuracies": 0.11249999701976776,
+      "rewards/chosen": -5.25,
+      "rewards/margins": 1.2109375,
+      "rewards/rejected": -6.46875,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 52.56243882325492,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -0.8828125,
+      "logits/rejected": -0.9609375,
+      "logps/chosen": -81.5,
+      "logps/rejected": -93.5,
+      "loss": 0.6206,
+      "rewards/accuracies": 0.10000000149011612,
+      "rewards/chosen": -5.625,
+      "rewards/margins": 1.0859375,
+      "rewards/rejected": -6.6875,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 0.06578735818761013,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -0.984375,
+      "logits/rejected": -0.98046875,
+      "logps/chosen": -78.5,
+      "logps/rejected": -87.0,
+      "loss": 0.635,
+      "rewards/accuracies": 0.10000000149011612,
+      "rewards/chosen": -5.25,
+      "rewards/margins": 0.83984375,
+      "rewards/rejected": -6.09375,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 0.6780286838032901,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -1.046875,
+      "logits/rejected": -1.0,
+      "logps/chosen": -77.5,
+      "logps/rejected": -84.5,
+      "loss": 0.6158,
+      "rewards/accuracies": 0.07500000298023224,
+      "rewards/chosen": -5.125,
+      "rewards/margins": 0.72265625,
+      "rewards/rejected": -5.84375,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 0.06689723594677775,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -0.9453125,
+      "logits/rejected": -1.0390625,
+      "logps/chosen": -73.0,
+      "logps/rejected": -82.0,
+      "loss": 0.5954,
+      "rewards/accuracies": 0.07500000298023224,
+      "rewards/chosen": -4.75,
+      "rewards/margins": 0.83203125,
+      "rewards/rejected": -5.5625,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 0.11174742388085977,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -1.1484375,
+      "logits/rejected": -1.046875,
+      "logps/chosen": -72.0,
+      "logps/rejected": -81.5,
+      "loss": 0.6171,
+      "rewards/accuracies": 0.125,
+      "rewards/chosen": -4.53125,
+      "rewards/margins": 1.0078125,
+      "rewards/rejected": -5.53125,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 0.08477487268874864,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -1.0859375,
+      "logits/rejected": -1.0703125,
+      "logps/chosen": -74.5,
+      "logps/rejected": -95.0,
+      "loss": 0.5923,
+      "rewards/accuracies": 0.1875,
+      "rewards/chosen": -4.8125,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -6.78125,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 0.05239889114118326,
+      "learning_rate": 1e-07,
+      "logits/chosen": -0.9765625,
+      "logits/rejected": -1.3359375,
+      "logps/chosen": -77.0,
+      "logps/rejected": -96.5,
+      "loss": 0.6119,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": -5.125,
+      "rewards/margins": 1.703125,
+      "rewards/rejected": -6.84375,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 0.16332563379342213,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -1.109375,
+      "logits/rejected": -1.1875,
+      "logps/chosen": -73.0,
+      "logps/rejected": -87.0,
+      "loss": 0.614,
+      "rewards/accuracies": 0.11249999701976776,
+      "rewards/chosen": -4.71875,
+      "rewards/margins": 1.2734375,
+      "rewards/rejected": -6.0,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 0.342943270640063,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -1.0625,
+      "logits/rejected": -0.97265625,
+      "logps/chosen": -70.0,
+      "logps/rejected": -81.5,
+      "loss": 0.628,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": -4.375,
+      "rewards/margins": 1.2109375,
+      "rewards/rejected": -5.59375,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 0.055314376786577586,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -1.0703125,
+      "logits/rejected": -1.109375,
+      "logps/chosen": -75.0,
+      "logps/rejected": -89.0,
+      "loss": 0.6338,
+      "rewards/accuracies": 0.11249999701976776,
+      "rewards/chosen": -4.90625,
+      "rewards/margins": 1.2734375,
+      "rewards/rejected": -6.1875,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 0.04877004086710131,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -1.109375,
+      "logits/rejected": -0.96484375,
+      "logps/chosen": -69.5,
+      "logps/rejected": -82.0,
+      "loss": 0.6206,
+      "rewards/accuracies": 0.13750000298023224,
+      "rewards/chosen": -4.28125,
+      "rewards/margins": 1.3359375,
+      "rewards/rejected": -5.625,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 0.05125558393087492,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -1.0234375,
+      "logits/rejected": -1.1640625,
+      "logps/chosen": -77.5,
+      "logps/rejected": -98.0,
+      "loss": 0.612,
+      "rewards/accuracies": 0.15000000596046448,
+      "rewards/chosen": -5.15625,
+      "rewards/margins": 1.8828125,
+      "rewards/rejected": -7.03125,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 0.06276234080739677,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -1.0234375,
+      "logits/rejected": -1.1171875,
+      "logps/chosen": -69.5,
+      "logps/rejected": -89.0,
+      "loss": 0.6209,
+      "rewards/accuracies": 0.17499999701976776,
+      "rewards/chosen": -4.375,
+      "rewards/margins": 1.78125,
+      "rewards/rejected": -6.15625,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 0.23531553131275804,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -1.046875,
+      "logits/rejected": -1.0234375,
+      "logps/chosen": -74.5,
+      "logps/rejected": -89.5,
+      "loss": 0.6302,
+      "rewards/accuracies": 0.125,
+      "rewards/chosen": -4.78125,
+      "rewards/margins": 1.484375,
+      "rewards/rejected": -6.25,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 0.4688889391540396,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -1.0546875,
+      "logits/rejected": -1.0546875,
+      "logps/chosen": -71.0,
+      "logps/rejected": -84.5,
+      "loss": 0.6162,
+      "rewards/accuracies": 0.125,
+      "rewards/chosen": -4.5,
+      "rewards/margins": 1.3046875,
+      "rewards/rejected": -5.78125,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 0.16709784182072895,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -0.90625,
+      "logits/rejected": -1.0390625,
+      "logps/chosen": -81.0,
+      "logps/rejected": -92.0,
+      "loss": 0.6119,
+      "rewards/accuracies": 0.07500000298023224,
+      "rewards/chosen": -5.53125,
+      "rewards/margins": 1.0078125,
+      "rewards/rejected": -6.5625,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 0.3793220360260412,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -1.0078125,
+      "logits/rejected": -0.99609375,
+      "logps/chosen": -82.5,
+      "logps/rejected": -89.0,
+      "loss": 0.6128,
+      "rewards/accuracies": 0.08749999850988388,
+      "rewards/chosen": -5.625,
+      "rewards/margins": 0.69921875,
+      "rewards/rejected": -6.34375,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 0.05518027666658511,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -0.9609375,
+      "logits/rejected": -1.0078125,
+      "logps/chosen": -80.0,
+      "logps/rejected": -90.0,
+      "loss": 0.6333,
+      "rewards/accuracies": 0.07500000298023224,
+      "rewards/chosen": -5.46875,
+      "rewards/margins": 0.9375,
+      "rewards/rejected": -6.40625,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 0.10639054633224729,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -1.1484375,
+      "logits/rejected": -1.015625,
+      "logps/chosen": -82.0,
+      "logps/rejected": -96.0,
+      "loss": 0.6075,
+      "rewards/accuracies": 0.15000000596046448,
+      "rewards/chosen": -5.375,
+      "rewards/margins": 1.5625,
+      "rewards/rejected": -6.9375,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 0.05765927599486169,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -0.921875,
+      "logits/rejected": -0.9609375,
+      "logps/chosen": -78.0,
+      "logps/rejected": -88.5,
+      "loss": 0.6147,
+      "rewards/accuracies": 0.10000000149011612,
+      "rewards/chosen": -5.28125,
+      "rewards/margins": 1.03125,
+      "rewards/rejected": -6.3125,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 0.06285322294345812,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -0.9453125,
+      "logits/rejected": -0.96484375,
+      "logps/chosen": -74.5,
+      "logps/rejected": -87.0,
+      "loss": 0.6118,
+      "rewards/accuracies": 0.11249999701976776,
+      "rewards/chosen": -4.875,
+      "rewards/margins": 1.2109375,
+      "rewards/rejected": -6.09375,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 0.06222781535738933,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -1.1328125,
+      "logits/rejected": -1.1484375,
+      "logps/chosen": -76.5,
+      "logps/rejected": -101.0,
+      "loss": 0.5967,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": -5.0,
+      "rewards/margins": 2.390625,
+      "rewards/rejected": -7.375,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 0.17237229041303392,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -1.171875,
+      "logits/rejected": -0.9453125,
+      "logps/chosen": -82.0,
+      "logps/rejected": -89.0,
+      "loss": 0.6408,
+      "rewards/accuracies": 0.07500000298023224,
+      "rewards/chosen": -5.5,
+      "rewards/margins": 0.828125,
+      "rewards/rejected": -6.3125,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -0.921875,
+      "eval_logits/rejected": -1.015625,
+      "eval_logps/chosen": -78.0,
+      "eval_logps/rejected": -85.5,
+      "eval_loss": 0.7425781488418579,
+      "eval_rewards/accuracies": 0.0892857164144516,
+      "eval_rewards/chosen": -5.3125,
+      "eval_rewards/margins": 0.6796875,
+      "eval_rewards/rejected": -6.0,
+      "eval_runtime": 15.1989,
+      "eval_samples_per_second": 13.159,
+      "eval_steps_per_second": 0.461,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }