Upload 5 files

Browse files

Files changed (5) hide show

model.safetensors.index.json +298 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +573 -0
training_args.bin +3 -0

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 28966928384
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00006-of-00006.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.norm.weight": "model-00006-of-00006.safetensors"
+  }
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25c948628ba1804e0dc0e988e547ad05d27e9a4f2682e0d6f6481f21ae112fc2
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e14db31ee22b6717177e7897b0f1adad80b6d40c0fe2c22114c9e87b0214f9f5
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,573 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.7346053772766696,
+  "eval_steps": 200,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03469210754553339,
+      "eval_loss": 1.8023786544799805,
+      "eval_runtime": 572.3832,
+      "eval_samples_per_second": 10.074,
+      "eval_steps_per_second": 1.26,
+      "step": 200
+    },
+    {
+      "epoch": 0.06938421509106678,
+      "eval_loss": 1.7305923700332642,
+      "eval_runtime": 572.203,
+      "eval_samples_per_second": 10.077,
+      "eval_steps_per_second": 1.26,
+      "step": 400
+    },
+    {
+      "epoch": 0.08673026886383348,
+      "grad_norm": 6.57196569442749,
+      "learning_rate": 2.4566348655680836e-05,
+      "loss": 1.8068,
+      "step": 500
+    },
+    {
+      "epoch": 0.10407632263660017,
+      "eval_loss": 1.7001726627349854,
+      "eval_runtime": 572.0907,
+      "eval_samples_per_second": 10.079,
+      "eval_steps_per_second": 1.26,
+      "step": 600
+    },
+    {
+      "epoch": 0.13876843018213356,
+      "eval_loss": 1.6665369272232056,
+      "eval_runtime": 572.5138,
+      "eval_samples_per_second": 10.071,
+      "eval_steps_per_second": 1.259,
+      "step": 800
+    },
+    {
+      "epoch": 0.17346053772766695,
+      "grad_norm": 6.407934665679932,
+      "learning_rate": 2.4132697311361666e-05,
+      "loss": 1.6773,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17346053772766695,
+      "eval_loss": 1.645666480064392,
+      "eval_runtime": 572.4669,
+      "eval_samples_per_second": 10.072,
+      "eval_steps_per_second": 1.259,
+      "step": 1000
+    },
+    {
+      "epoch": 0.20815264527320035,
+      "eval_loss": 1.6295970678329468,
+      "eval_runtime": 572.6705,
+      "eval_samples_per_second": 10.069,
+      "eval_steps_per_second": 1.259,
+      "step": 1200
+    },
+    {
+      "epoch": 0.24284475281873374,
+      "eval_loss": 1.6119849681854248,
+      "eval_runtime": 572.6602,
+      "eval_samples_per_second": 10.069,
+      "eval_steps_per_second": 1.259,
+      "step": 1400
+    },
+    {
+      "epoch": 0.26019080659150046,
+      "grad_norm": 6.23416805267334,
+      "learning_rate": 2.36990459670425e-05,
+      "loss": 1.6291,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2775368603642671,
+      "eval_loss": 1.5977734327316284,
+      "eval_runtime": 572.802,
+      "eval_samples_per_second": 10.066,
+      "eval_steps_per_second": 1.259,
+      "step": 1600
+    },
+    {
+      "epoch": 0.31222896790980054,
+      "eval_loss": 1.5906885862350464,
+      "eval_runtime": 572.7238,
+      "eval_samples_per_second": 10.068,
+      "eval_steps_per_second": 1.259,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3469210754553339,
+      "grad_norm": 5.846036434173584,
+      "learning_rate": 2.326539462272333e-05,
+      "loss": 1.6032,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3469210754553339,
+      "eval_loss": 1.5792902708053589,
+      "eval_runtime": 572.6421,
+      "eval_samples_per_second": 10.069,
+      "eval_steps_per_second": 1.259,
+      "step": 2000
+    },
+    {
+      "epoch": 0.38161318300086733,
+      "eval_loss": 1.5674443244934082,
+      "eval_runtime": 572.94,
+      "eval_samples_per_second": 10.064,
+      "eval_steps_per_second": 1.258,
+      "step": 2200
+    },
+    {
+      "epoch": 0.4163052905464007,
+      "eval_loss": 1.5650794506072998,
+      "eval_runtime": 573.1561,
+      "eval_samples_per_second": 10.06,
+      "eval_steps_per_second": 1.258,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4336513443191674,
+      "grad_norm": 6.9578962326049805,
+      "learning_rate": 2.2831743278404163e-05,
+      "loss": 1.5699,
+      "step": 2500
+    },
+    {
+      "epoch": 0.45099739809193407,
+      "eval_loss": 1.5550028085708618,
+      "eval_runtime": 572.973,
+      "eval_samples_per_second": 10.063,
+      "eval_steps_per_second": 1.258,
+      "step": 2600
+    },
+    {
+      "epoch": 0.4856895056374675,
+      "eval_loss": 1.539338231086731,
+      "eval_runtime": 573.1731,
+      "eval_samples_per_second": 10.06,
+      "eval_steps_per_second": 1.258,
+      "step": 2800
+    },
+    {
+      "epoch": 0.5203816131830009,
+      "grad_norm": 6.062795639038086,
+      "learning_rate": 2.2398091934084997e-05,
+      "loss": 1.5555,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5203816131830009,
+      "eval_loss": 1.533992886543274,
+      "eval_runtime": 573.3108,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5550737207285342,
+      "eval_loss": 1.5279603004455566,
+      "eval_runtime": 573.3234,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5897658282740676,
+      "eval_loss": 1.5221937894821167,
+      "eval_runtime": 573.2462,
+      "eval_samples_per_second": 10.059,
+      "eval_steps_per_second": 1.258,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6071118820468343,
+      "grad_norm": 5.474059581756592,
+      "learning_rate": 2.196444058976583e-05,
+      "loss": 1.5258,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6244579358196011,
+      "eval_loss": 1.5145606994628906,
+      "eval_runtime": 573.1527,
+      "eval_samples_per_second": 10.06,
+      "eval_steps_per_second": 1.258,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6591500433651344,
+      "eval_loss": 1.5087436437606812,
+      "eval_runtime": 573.3236,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 3800
+    },
+    {
+      "epoch": 0.6938421509106678,
+      "grad_norm": 4.400829315185547,
+      "learning_rate": 2.1530789245446662e-05,
+      "loss": 1.5145,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6938421509106678,
+      "eval_loss": 1.501986026763916,
+      "eval_runtime": 572.9788,
+      "eval_samples_per_second": 10.063,
+      "eval_steps_per_second": 1.258,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7285342584562012,
+      "eval_loss": 1.4961259365081787,
+      "eval_runtime": 572.9318,
+      "eval_samples_per_second": 10.064,
+      "eval_steps_per_second": 1.258,
+      "step": 4200
+    },
+    {
+      "epoch": 0.7632263660017347,
+      "eval_loss": 1.4921443462371826,
+      "eval_runtime": 573.2197,
+      "eval_samples_per_second": 10.059,
+      "eval_steps_per_second": 1.258,
+      "step": 4400
+    },
+    {
+      "epoch": 0.7805724197745013,
+      "grad_norm": 5.124959945678711,
+      "learning_rate": 2.1097137901127496e-05,
+      "loss": 1.4981,
+      "step": 4500
+    },
+    {
+      "epoch": 0.797918473547268,
+      "eval_loss": 1.48764967918396,
+      "eval_runtime": 573.3463,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 4600
+    },
+    {
+      "epoch": 0.8326105810928014,
+      "eval_loss": 1.4827669858932495,
+      "eval_runtime": 573.3276,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8673026886383348,
+      "grad_norm": 5.631836414337158,
+      "learning_rate": 2.0663486556808327e-05,
+      "loss": 1.4758,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8673026886383348,
+      "eval_loss": 1.4766356945037842,
+      "eval_runtime": 573.3049,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 5000
+    },
+    {
+      "epoch": 0.9019947961838681,
+      "eval_loss": 1.4708250761032104,
+      "eval_runtime": 573.3902,
+      "eval_samples_per_second": 10.056,
+      "eval_steps_per_second": 1.257,
+      "step": 5200
+    },
+    {
+      "epoch": 0.9366869037294016,
+      "eval_loss": 1.4667783975601196,
+      "eval_runtime": 573.338,
+      "eval_samples_per_second": 10.057,
+      "eval_steps_per_second": 1.258,
+      "step": 5400
+    },
+    {
+      "epoch": 0.9540329575021682,
+      "grad_norm": 4.832674980163574,
+      "learning_rate": 2.0229835212489158e-05,
+      "loss": 1.4818,
+      "step": 5500
+    },
+    {
+      "epoch": 0.971379011274935,
+      "eval_loss": 1.4649358987808228,
+      "eval_runtime": 573.5907,
+      "eval_samples_per_second": 10.052,
+      "eval_steps_per_second": 1.257,
+      "step": 5600
+    },
+    {
+      "epoch": 1.0060711188204683,
+      "eval_loss": 1.4911904335021973,
+      "eval_runtime": 573.8034,
+      "eval_samples_per_second": 10.049,
+      "eval_steps_per_second": 1.257,
+      "step": 5800
+    },
+    {
+      "epoch": 1.0407632263660018,
+      "grad_norm": 6.181447982788086,
+      "learning_rate": 1.9796183868169993e-05,
+      "loss": 1.3108,
+      "step": 6000
+    },
+    {
+      "epoch": 1.0407632263660018,
+      "eval_loss": 1.5114498138427734,
+      "eval_runtime": 573.9439,
+      "eval_samples_per_second": 10.046,
+      "eval_steps_per_second": 1.256,
+      "step": 6000
+    },
+    {
+      "epoch": 1.0754553339115351,
+      "eval_loss": 1.5078836679458618,
+      "eval_runtime": 573.7341,
+      "eval_samples_per_second": 10.05,
+      "eval_steps_per_second": 1.257,
+      "step": 6200
+    },
+    {
+      "epoch": 1.1101474414570685,
+      "eval_loss": 1.512686848640442,
+      "eval_runtime": 573.5532,
+      "eval_samples_per_second": 10.053,
+      "eval_steps_per_second": 1.257,
+      "step": 6400
+    },
+    {
+      "epoch": 1.1274934952298352,
+      "grad_norm": 6.276436805725098,
+      "learning_rate": 1.9362532523850823e-05,
+      "loss": 1.1338,
+      "step": 6500
+    },
+    {
+      "epoch": 1.144839549002602,
+      "eval_loss": 1.5086950063705444,
+      "eval_runtime": 573.502,
+      "eval_samples_per_second": 10.054,
+      "eval_steps_per_second": 1.257,
+      "step": 6600
+    },
+    {
+      "epoch": 1.1795316565481353,
+      "eval_loss": 1.5138036012649536,
+      "eval_runtime": 573.4778,
+      "eval_samples_per_second": 10.054,
+      "eval_steps_per_second": 1.257,
+      "step": 6800
+    },
+    {
+      "epoch": 1.2142237640936686,
+      "grad_norm": 5.294378280639648,
+      "learning_rate": 1.8928881179531658e-05,
+      "loss": 1.1411,
+      "step": 7000
+    },
+    {
+      "epoch": 1.2142237640936686,
+      "eval_loss": 1.5119119882583618,
+      "eval_runtime": 573.2773,
+      "eval_samples_per_second": 10.058,
+      "eval_steps_per_second": 1.258,
+      "step": 7000
+    },
+    {
+      "epoch": 1.2489158716392021,
+      "eval_loss": 1.5059071779251099,
+      "eval_runtime": 573.2436,
+      "eval_samples_per_second": 10.059,
+      "eval_steps_per_second": 1.258,
+      "step": 7200
+    },
+    {
+      "epoch": 1.2836079791847355,
+      "eval_loss": 1.4931423664093018,
+      "eval_runtime": 573.2431,
+      "eval_samples_per_second": 10.059,
+      "eval_steps_per_second": 1.258,
+      "step": 7400
+    },
+    {
+      "epoch": 1.3009540329575022,
+      "grad_norm": 5.875624179840088,
+      "learning_rate": 1.8495229835212492e-05,
+      "loss": 1.1482,
+      "step": 7500
+    },
+    {
+      "epoch": 1.318300086730269,
+      "eval_loss": 1.4929821491241455,
+      "eval_runtime": 572.8059,
+      "eval_samples_per_second": 10.066,
+      "eval_steps_per_second": 1.259,
+      "step": 7600
+    },
+    {
+      "epoch": 1.3529921942758023,
+      "eval_loss": 1.490503191947937,
+      "eval_runtime": 572.7436,
+      "eval_samples_per_second": 10.067,
+      "eval_steps_per_second": 1.259,
+      "step": 7800
+    },
+    {
+      "epoch": 1.3876843018213356,
+      "grad_norm": 5.962628364562988,
+      "learning_rate": 1.8061578490893323e-05,
+      "loss": 1.1534,
+      "step": 8000
+    },
+    {
+      "epoch": 1.3876843018213356,
+      "eval_loss": 1.4796279668807983,
+      "eval_runtime": 572.5741,
+      "eval_samples_per_second": 10.07,
+      "eval_steps_per_second": 1.259,
+      "step": 8000
+    },
+    {
+      "epoch": 1.4223764093668692,
+      "eval_loss": 1.4942739009857178,
+      "eval_runtime": 572.7895,
+      "eval_samples_per_second": 10.067,
+      "eval_steps_per_second": 1.259,
+      "step": 8200
+    },
+    {
+      "epoch": 1.4570685169124025,
+      "eval_loss": 1.478100299835205,
+      "eval_runtime": 574.02,
+      "eval_samples_per_second": 10.045,
+      "eval_steps_per_second": 1.256,
+      "step": 8400
+    },
+    {
+      "epoch": 1.4744145706851692,
+      "grad_norm": 5.818081855773926,
+      "learning_rate": 1.7627927146574154e-05,
+      "loss": 1.1493,
+      "step": 8500
+    },
+    {
+      "epoch": 1.4917606244579358,
+      "eval_loss": 1.4706262350082397,
+      "eval_runtime": 573.645,
+      "eval_samples_per_second": 10.052,
+      "eval_steps_per_second": 1.257,
+      "step": 8600
+    },
+    {
+      "epoch": 1.5264527320034693,
+      "eval_loss": 1.4702831506729126,
+      "eval_runtime": 573.6402,
+      "eval_samples_per_second": 10.052,
+      "eval_steps_per_second": 1.257,
+      "step": 8800
+    },
+    {
+      "epoch": 1.5611448395490026,
+      "grad_norm": 6.020638465881348,
+      "learning_rate": 1.7194275802254988e-05,
+      "loss": 1.1517,
+      "step": 9000
+    },
+    {
+      "epoch": 1.5611448395490026,
+      "eval_loss": 1.4639151096343994,
+      "eval_runtime": 573.5071,
+      "eval_samples_per_second": 10.054,
+      "eval_steps_per_second": 1.257,
+      "step": 9000
+    },
+    {
+      "epoch": 1.595836947094536,
+      "eval_loss": 1.4722236394882202,
+      "eval_runtime": 573.4545,
+      "eval_samples_per_second": 10.055,
+      "eval_steps_per_second": 1.257,
+      "step": 9200
+    },
+    {
+      "epoch": 1.6305290546400695,
+      "eval_loss": 1.4613826274871826,
+      "eval_runtime": 573.2765,
+      "eval_samples_per_second": 10.058,
+      "eval_steps_per_second": 1.258,
+      "step": 9400
+    },
+    {
+      "epoch": 1.647875108412836,
+      "grad_norm": 5.535754680633545,
+      "learning_rate": 1.676062445793582e-05,
+      "loss": 1.1428,
+      "step": 9500
+    },
+    {
+      "epoch": 1.6652211621856028,
+      "eval_loss": 1.4539824724197388,
+      "eval_runtime": 573.1598,
+      "eval_samples_per_second": 10.06,
+      "eval_steps_per_second": 1.258,
+      "step": 9600
+    },
+    {
+      "epoch": 1.699913269731136,
+      "eval_loss": 1.457112431526184,
+      "eval_runtime": 573.1778,
+      "eval_samples_per_second": 10.06,
+      "eval_steps_per_second": 1.258,
+      "step": 9800
+    },
+    {
+      "epoch": 1.7346053772766696,
+      "grad_norm": 6.019700527191162,
+      "learning_rate": 1.6326973113616653e-05,
+      "loss": 1.1466,
+      "step": 10000
+    },
+    {
+      "epoch": 1.7346053772766696,
+      "eval_loss": 1.4443352222442627,
+      "eval_runtime": 573.1133,
+      "eval_samples_per_second": 10.061,
+      "eval_steps_per_second": 1.258,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 28825,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.74751582519296e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f87cb79de6d9eb36422abe1dc46db0622a665c5fd5008b478e9dc7668d9ce82
+size 5304