Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step300/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step300/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step300/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a03e9eee1ec95bdd483369ad9faaa09779f119406744d2cbea8db7e18f4878e
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebc02da19989435043b7b50280b5e9e82d323b3ede799685ab53edfcf8cfad6a
 size 29034840

last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcec65547f98d4118b96be69731983017f2f333a68d02d5ce9689ed248dc562a
+size 43429616

last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c341c1a6d8148808aec43eb35448786321bb067a9ca71dadc61a74911a1f9f6
+size 43429616

last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2740539ed2059e956df237ac2f706f4b25f835b6ae12d4bdc9bb1f8b23af9016
+size 43429616

last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e843721141355f0ac18a33193ebcc9aed0c2db3101d416ca3ecab9a54fc15e03
+size 43429616

last-checkpoint/global_step300/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4de5206222f5f6bc48ade0dd830e1dc6401703feaf7328bb17787793a784ed8
+size 637299

last-checkpoint/global_step300/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9c15f3de1191eba8ee412eb11cf43d8297d842d97f58ff3416540e6e60132b4
+size 637171

last-checkpoint/global_step300/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3363de2e039012fbc15be9a390355ad5f78df5709c5a29467c717bbc3d0644c
+size 637171

last-checkpoint/global_step300/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78419129614e77d4f1d73fe2039db0059edfa88fe000e6d37b57f43d85197257
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step250~~


1	+ global_step300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:418a5f105ae834c3075024076916b2a9475918fe034c12d0dd5b6d91f1aba467
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef002048764051a71fb00f8f978e9ec32b780dc850bdb059af362cc56494234b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e07ace389d24bc1307b74f42a1e7b8f0117b0db853e2df64ff3f15cb92916a2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:37194a6d48612e1a46a2d5d317ead97c70d9fc4569b0118fcd5f84c3dc9daa5a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da6a990f346d7014dffb28fa2bc7d3b890bd3c53712503fce3656da48d3d6e50
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:17c179483659a784aa1ace2427daff48c556a6bcc3c330e6f3274e4dc95e4b49
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e95f356ca38179b05993f55daece0223e96fa10b9a1b9ea2102a739211333f63
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b56857c9b117629f35af2c3d64f522d33a9d8aa94faa81ec6956380a895118c4
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43c90daef563bf9da6472ff1b7ee2112c4adfee6f9c788cd62bafe8218e25e8c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a1fa61ac1b274c53a992ffd1c961be55a8fbae66f9b62e05652e59d94531535
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8934853076934814,
-  "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4/lora/sft/checkpoint-150",
-  "epoch": 0.12876641771825909,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -452,11 +452,100 @@
       "eval_steps_per_second": 0.769,
       "num_input_tokens_seen": 2924016,
       "step": 250
     }
   ],
   "logging_steps": 5,
   "max_steps": 3882,
-  "num_input_tokens_seen": 2924016,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -471,7 +560,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 192878045298688.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8932263255119324,
+  "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4/lora/sft/checkpoint-300",
+  "epoch": 0.1545197012619109,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.769,
       "num_input_tokens_seen": 2924016,
       "step": 250
+    },
+    {
+      "epoch": 0.13134174607262425,
+      "grad_norm": 0.44306061088962184,
+      "learning_rate": 9.993467169584824e-05,
+      "loss": 0.9012,
+      "num_input_tokens_seen": 2982520,
+      "step": 255
+    },
+    {
+      "epoch": 0.13391707442698944,
+      "grad_norm": 0.7851687259125024,
+      "learning_rate": 9.992333287565765e-05,
+      "loss": 0.9069,
+      "num_input_tokens_seen": 3041008,
+      "step": 260
+    },
+    {
+      "epoch": 0.13649240278135463,
+      "grad_norm": 0.5705235716557865,
+      "learning_rate": 9.991108791319066e-05,
+      "loss": 0.8918,
+      "num_input_tokens_seen": 3099464,
+      "step": 265
+    },
+    {
+      "epoch": 0.1390677311357198,
+      "grad_norm": 0.6202972137914602,
+      "learning_rate": 9.989793703070163e-05,
+      "loss": 0.8996,
+      "num_input_tokens_seen": 3157944,
+      "step": 270
+    },
+    {
+      "epoch": 0.141643059490085,
+      "grad_norm": 0.7583768377175583,
+      "learning_rate": 9.988388046688799e-05,
+      "loss": 0.9009,
+      "num_input_tokens_seen": 3216448,
+      "step": 275
+    },
+    {
+      "epoch": 0.14421838784445018,
+      "grad_norm": 0.7180540444266581,
+      "learning_rate": 9.986891847688587e-05,
+      "loss": 0.9059,
+      "num_input_tokens_seen": 3274928,
+      "step": 280
+    },
+    {
+      "epoch": 0.14679371619881534,
+      "grad_norm": 0.4173225854654158,
+      "learning_rate": 9.985305133226553e-05,
+      "loss": 0.8939,
+      "num_input_tokens_seen": 3333408,
+      "step": 285
+    },
+    {
+      "epoch": 0.14936904455318054,
+      "grad_norm": 0.7825855108807762,
+      "learning_rate": 9.983627932102638e-05,
+      "loss": 0.8899,
+      "num_input_tokens_seen": 3391896,
+      "step": 290
+    },
+    {
+      "epoch": 0.1519443729075457,
+      "grad_norm": 0.4850249272160501,
+      "learning_rate": 9.981860274759173e-05,
+      "loss": 0.9092,
+      "num_input_tokens_seen": 3450392,
+      "step": 295
+    },
+    {
+      "epoch": 0.1545197012619109,
+      "grad_norm": 0.3325682106309916,
+      "learning_rate": 9.980002193280342e-05,
+      "loss": 0.8901,
+      "num_input_tokens_seen": 3508888,
+      "step": 300
+    },
+    {
+      "epoch": 0.1545197012619109,
+      "eval_loss": 0.8932263255119324,
+      "eval_runtime": 19.7633,
+      "eval_samples_per_second": 3.036,
+      "eval_steps_per_second": 0.759,
+      "num_input_tokens_seen": 3508888,
+      "step": 300
     }
   ],
   "logging_steps": 5,
   "max_steps": 3882,
+  "num_input_tokens_seen": 3508888,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 231471715450880.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null