g4rg commited on Oct 13, 2024

Commit

56e563a

verified ·

1 Parent(s): 820b672

Training in progress, step 128, checkpoint

Browse files

Files changed (22) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step128/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step128/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step128/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step128/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step128/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step128/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step128/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step128/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step128/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step128/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step128/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step128/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +235 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d281dead310dc912d96ea9c1ecf041030d9b9eda5a70050289f56893a32f795
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da66d7ae6c07456dfdb2566c5efbc9cb757f30489aab971f6c4fa69c36c8240
 size 763470136

last-checkpoint/global_step128/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab5c1eca63228d208fef21271623bf1dda90820685fa4ff73d43cc07b9e3a6bf
+size 385019984

last-checkpoint/global_step128/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3abba731438838d262e081ab6656053f5e7bc06db83dc0bfc411b549a9ed8b66
+size 385019984

last-checkpoint/global_step128/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:970afd7d80b6a61367bc12f47be0c512e1f32d2234943bd945faef7866167cfc
+size 385019984

last-checkpoint/global_step128/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:268eab3cb4ccc9209f280462a7d444c81c55f1a38862a93a265b1af32bb5b3a9
+size 385019984

last-checkpoint/global_step128/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bc2045f902a068e626ed65bd6cda8fa9d476d4b2a0b9e493e884673880b6dcd
+size 385019984

last-checkpoint/global_step128/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8289fec92c8b9638eef098d975c47ad2bf6029fbd1de8abc8ba4f347b8937d7f
+size 385019984

last-checkpoint/global_step128/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1fa8ae1ae93312dd1dd7e33d65813bc05af4ba623885861d5d6c01d66318f2b
+size 348711830

last-checkpoint/global_step128/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65af44adee25bbf11d802d36a8cccd8a9f081373b711850daae83bab3c78f086
+size 348711830

last-checkpoint/global_step128/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cea62ae08ed200f7243b5fd26222c0091c7afaad29120b4c8bc806a969947791
+size 348711830

last-checkpoint/global_step128/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b1ca8e65609885bb731a9e4a58657586a83392ffa40d95dab7739ae61e242ae
+size 348711830

last-checkpoint/global_step128/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c833e27ba8cdd45f29846b16e57c5f5928b3739f8d066bb48946d85a7d59e821
+size 348711830

last-checkpoint/global_step128/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59f9990347be616df13fac928c52ab06150bbabb50e8663cb2d2d03ee43991b9
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step96~~


1	+ global_step128

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18fb5e6493092cd8f71e5b3842d879509d55ae6cab2bf942dd56c48e7b8cc9fc
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:74fbe9c3428ed3e9c35b612dab93cb88760e9a705b6c000851dabad16e459b72
 size 15472

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fc4d72ba97fb58bd464a1fddcf7c6f2d733fa949f29b90e179d642b44eb624e
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:09696d37ecf847e753dcf238b8abaa5cd29c004c3225bbd9bb36e502bbd3e1d2
 size 15472

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c2da6915b4a587863bc60c730f828ac7764e70c41ebff8c368e95f045073b7f
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fddcb8b3b958d20b652b04c28b148d9888da159024072edc127f9894cb6961c
 size 15472

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89e0de0d83a177df7de41df7ea72b48a294a2d0589d8ca1035b9dd419b036e81
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f28a47ba026f0903768f763280985efa3436a6168461fd9e14c78c1da328d9c
 size 15472

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d6218d38ef6fd867f07998ab60de53f729af52921318b25e9685aae0a3d9044
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:183a725b6dcc281ea67c71bdd66ade19c4182db0091e458e1ec13520873d8d61
 size 15472

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10040054714cbe309f578c161884fad07491098cb4b32684d3d08fcb91914d00
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea090671e9e0107c57eb483ad64dfda3f8f03477d846083978fd325481ad13ae
 size 15472

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c8d252fdd44d3c445fb84b7c408c35fe553a7fa8fd66113443f48d6125c89b0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3b8cc489c9f7d5c810d95c1d7bed07638ecb58d3cdf988fa074bd79e5349fe0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6193548387096774,
   "eval_steps": 32,
-  "global_step": 96,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -711,6 +711,238 @@
       "eval_samples_per_second": 1.599,
       "eval_steps_per_second": 0.064,
       "step": 96
     }
   ],
   "logging_steps": 1,
@@ -730,7 +962,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 196559178301440.0,
   "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8258064516129032,
   "eval_steps": 32,
+  "global_step": 128,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.599,
       "eval_steps_per_second": 0.064,
       "step": 96
+    },
+    {
+      "epoch": 0.6258064516129033,
+      "grad_norm": 0.36219529568521813,
+      "learning_rate": 2.285588522547411e-05,
+      "loss": 1.2681,
+      "step": 97
+    },
+    {
+      "epoch": 0.632258064516129,
+      "grad_norm": 0.4601161674119361,
+      "learning_rate": 2.234861262612199e-05,
+      "loss": 1.2387,
+      "step": 98
+    },
+    {
+      "epoch": 0.6387096774193548,
+      "grad_norm": 0.6207212832715766,
+      "learning_rate": 2.184408872350019e-05,
+      "loss": 1.2087,
+      "step": 99
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.3655891991096712,
+      "learning_rate": 2.134258272337814e-05,
+      "loss": 1.2769,
+      "step": 100
+    },
+    {
+      "epoch": 0.6516129032258065,
+      "grad_norm": 0.4394265602792923,
+      "learning_rate": 2.084436222122142e-05,
+      "loss": 1.0799,
+      "step": 101
+    },
+    {
+      "epoch": 0.6580645161290323,
+      "grad_norm": 0.5059663574517834,
+      "learning_rate": 2.0349693059407215e-05,
+      "loss": 1.0953,
+      "step": 102
+    },
+    {
+      "epoch": 0.6645161290322581,
+      "grad_norm": 0.34732606007316424,
+      "learning_rate": 1.9858839185375123e-05,
+      "loss": 1.224,
+      "step": 103
+    },
+    {
+      "epoch": 0.6709677419354839,
+      "grad_norm": 0.5464551769086812,
+      "learning_rate": 1.9372062510789063e-05,
+      "loss": 1.2413,
+      "step": 104
+    },
+    {
+      "epoch": 0.6774193548387096,
+      "grad_norm": 0.977742231459624,
+      "learning_rate": 1.888962277178548e-05,
+      "loss": 1.2118,
+      "step": 105
+    },
+    {
+      "epoch": 0.6838709677419355,
+      "grad_norm": 2.537109489591264,
+      "learning_rate": 1.8411777390382367e-05,
+      "loss": 1.2513,
+      "step": 106
+    },
+    {
+      "epoch": 0.6903225806451613,
+      "grad_norm": 0.35948844839880034,
+      "learning_rate": 1.7938781337123016e-05,
+      "loss": 1.1404,
+      "step": 107
+    },
+    {
+      "epoch": 0.6967741935483871,
+      "grad_norm": 0.457105884170092,
+      "learning_rate": 1.747088699502789e-05,
+      "loss": 1.1514,
+      "step": 108
+    },
+    {
+      "epoch": 0.7032258064516129,
+      "grad_norm": 1.1486002566265734,
+      "learning_rate": 1.7008344024927168e-05,
+      "loss": 1.3249,
+      "step": 109
+    },
+    {
+      "epoch": 0.7096774193548387,
+      "grad_norm": 0.36043342663778255,
+      "learning_rate": 1.6551399232245737e-05,
+      "loss": 1.1239,
+      "step": 110
+    },
+    {
+      "epoch": 0.7161290322580646,
+      "grad_norm": 0.46594876338109426,
+      "learning_rate": 1.610029643531182e-05,
+      "loss": 1.2918,
+      "step": 111
+    },
+    {
+      "epoch": 0.7225806451612903,
+      "grad_norm": 0.32990660251070025,
+      "learning_rate": 1.5655276335259493e-05,
+      "loss": 1.2266,
+      "step": 112
+    },
+    {
+      "epoch": 0.7290322580645161,
+      "grad_norm": 0.30010478660077256,
+      "learning_rate": 1.5216576387594481e-05,
+      "loss": 1.2114,
+      "step": 113
+    },
+    {
+      "epoch": 0.7354838709677419,
+      "grad_norm": 0.49532244626831723,
+      "learning_rate": 1.4784430675491685e-05,
+      "loss": 1.2457,
+      "step": 114
+    },
+    {
+      "epoch": 0.7419354838709677,
+      "grad_norm": 0.5191609185311767,
+      "learning_rate": 1.4359069784892282e-05,
+      "loss": 1.2862,
+      "step": 115
+    },
+    {
+      "epoch": 0.7483870967741936,
+      "grad_norm": 0.3826327354484767,
+      "learning_rate": 1.3940720681466734e-05,
+      "loss": 1.1351,
+      "step": 116
+    },
+    {
+      "epoch": 0.7548387096774194,
+      "grad_norm": 0.330074625162551,
+      "learning_rate": 1.3529606589509647e-05,
+      "loss": 1.1871,
+      "step": 117
+    },
+    {
+      "epoch": 0.7612903225806451,
+      "grad_norm": 0.34233269430078184,
+      "learning_rate": 1.3125946872830877e-05,
+      "loss": 1.1411,
+      "step": 118
+    },
+    {
+      "epoch": 0.7677419354838709,
+      "grad_norm": 0.31326296304705775,
+      "learning_rate": 1.2729956917706545e-05,
+      "loss": 1.2387,
+      "step": 119
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 0.3176809107580838,
+      "learning_rate": 1.2341848017952464e-05,
+      "loss": 1.2451,
+      "step": 120
+    },
+    {
+      "epoch": 0.7806451612903226,
+      "grad_norm": 0.31420402228609556,
+      "learning_rate": 1.1961827262181141e-05,
+      "loss": 1.1766,
+      "step": 121
+    },
+    {
+      "epoch": 0.7870967741935484,
+      "grad_norm": 0.4637761844099348,
+      "learning_rate": 1.1590097423302684e-05,
+      "loss": 1.1542,
+      "step": 122
+    },
+    {
+      "epoch": 0.7935483870967742,
+      "grad_norm": 0.36159367839677437,
+      "learning_rate": 1.1226856850328434e-05,
+      "loss": 1.3127,
+      "step": 123
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.5010806704980222,
+      "learning_rate": 1.0872299362535173e-05,
+      "loss": 1.2729,
+      "step": 124
+    },
+    {
+      "epoch": 0.8064516129032258,
+      "grad_norm": 0.3461696613483525,
+      "learning_rate": 1.0526614146046312e-05,
+      "loss": 1.2425,
+      "step": 125
+    },
+    {
+      "epoch": 0.8129032258064516,
+      "grad_norm": 0.35751217338851793,
+      "learning_rate": 1.0189985652885225e-05,
+      "loss": 1.2222,
+      "step": 126
+    },
+    {
+      "epoch": 0.8193548387096774,
+      "grad_norm": 0.43059544412165696,
+      "learning_rate": 9.862593502554648e-06,
+      "loss": 1.1938,
+      "step": 127
+    },
+    {
+      "epoch": 0.8258064516129032,
+      "grad_norm": 0.7260092938036656,
+      "learning_rate": 9.544612386194612e-06,
+      "loss": 1.1063,
+      "step": 128
+    },
+    {
+      "epoch": 0.8258064516129032,
+      "eval_loss": 1.0231536626815796,
+      "eval_runtime": 62.2556,
+      "eval_samples_per_second": 1.606,
+      "eval_steps_per_second": 0.064,
+      "step": 128
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 262078904401920.0,
   "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null