ezosa commited on 16 days ago

Commit

e1e2750

1 Parent(s): ef14d95

uploaded model and tokenizer

Files changed (25) hide show

all_results.json +13 -0
config.json +26 -0
eval_results.json +8 -0
generation_config.json +8 -0
model-00001-of-00014.safetensors +3 -0
model-00002-of-00014.safetensors +3 -0
model-00003-of-00014.safetensors +3 -0
model-00004-of-00014.safetensors +3 -0
model-00005-of-00014.safetensors +3 -0
model-00006-of-00014.safetensors +3 -0
model-00007-of-00014.safetensors +3 -0
model-00008-of-00014.safetensors +3 -0
model-00009-of-00014.safetensors +3 -0
model-00010-of-00014.safetensors +3 -0
model-00011-of-00014.safetensors +3 -0
model-00012-of-00014.safetensors +3 -0
model-00013-of-00014.safetensors +3 -0
model-00014-of-00014.safetensors +3 -0
model.safetensors.index.json +660 -0
special_tokens_map.json +28 -0
tokenizer.json +0 -0
tokenizer_config.json +228 -0
train_results.json +8 -0
trainer_state.json +118 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 1.6578937768936157,
+    "eval_runtime": 33.3088,
+    "eval_samples": 423,
+    "eval_samples_per_second": 12.699,
+    "eval_steps_per_second": 0.12,
+    "train_loss": 1.0299149649483816,
+    "train_runtime": 7625.9144,
+    "train_samples": 8916,
+    "train_samples_per_second": 3.508,
+    "train_steps_per_second": 0.028
+}

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "/scratch/project_462000444/zosaelai2/models/Poro-34b-Chat",
+  "apply_residual_connection_post_layernorm": false,
+  "architectures": [
+    "BloomForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "attention_softmax_in_fp32": true,
+  "bos_token_id": 1,
+  "eos_token_id": 5,
+  "hidden_dropout": 0.0,
+  "hidden_size": 7168,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "masked_softmax_fusion": true,
+  "model_type": "bloom",
+  "n_head": 56,
+  "n_layer": 54,
+  "pad_token_id": 3,
+  "pretraining_tp": 2,
+  "slow_but_exact": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.35.1",
+  "use_cache": true,
+  "vocab_size": 128000
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 1.6578937768936157,
+    "eval_runtime": 33.3088,
+    "eval_samples": 423,
+    "eval_samples_per_second": 12.699,
+    "eval_steps_per_second": 0.12
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 5,
+  "pad_token_id": 3,
+  "transformers_version": "4.35.1",
+  "use_cache": false
+}

model-00001-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee199c4bd755e159796c8b6fa395e3fec3eb98d90deedbbb084146b2d012799b
+size 4712820784

model-00002-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5133cb57d09c73ea22684b696d04f11f31d0e3c02b055f90497f43ae61227df
+size 4933252680

model-00003-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9bba694dd34dae1e5a70d339ab15847f530d588ee7bc11b9affb8ed7ea23dbe
+size 4933252648

model-00004-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cfed0773e32c74132b23f97db3a92e1d99b030a4e381adf13130c5c2aa20f1d
+size 4933252728

model-00005-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9af1587762d374c9a573548341af9e4f6b31074d5f7bc81213b35a796191bb9
+size 4933252728

model-00006-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d81234b656d84ae1262eacf48d861dc384a523ee0880372d8d12eefdbf7bd8e
+size 4933252728

model-00007-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3ddcbf427c2819f515f45540af5e30af6448b7ba64da2a1861fd687897b7a81
+size 4933252728

model-00008-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bb72f045cfe7a883afa6ae03a01361cae8080c9b856bb4757d79ecf97a0584b
+size 4933252728

model-00009-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e44c81b4029f8a09290787a3c59d8888b3170b61d7f3795ac72cc72b5fc27e16
+size 4933252728

model-00010-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:535a28cb5dccdae21a50ca4b3120a3d717b59c961eeff2ea95bf5ad3a36abbcf
+size 4933252728

model-00011-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:601ec762dded30a18aac20d2927189d1965348bcec94e59223a0534d0bb56772
+size 4933252728

model-00012-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5d5654acf4619e0e145f46afa51757ecf1e522139178cbd39a8c1897b054cd8
+size 4933252728

model-00013-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96cad65156b3e2dc59cd83ef3a6c3da540c8a016ab453ad8e8cf73016ba32987
+size 4933252728

model-00014-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b79476fe160a638cba1373f7641d31e8031c4c6897c4e65bb747e75a9d2140d
+size 4522124144

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,660 @@

+{
+  "metadata": {
+    "total_size": 68433899520
+  },
+  "weight_map": {
+    "transformer.h.0.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.10.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.10.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.11.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.14.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.15.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.18.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.19.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.2.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.2.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.20.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.22.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.23.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.26.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.27.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.3.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.30.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.30.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.31.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.34.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.35.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.38.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.39.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.4.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.40.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.42.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.43.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.46.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.47.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.5.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.50.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.50.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.51.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.6.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.6.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.7.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.ln_f.bias": "model-00014-of-00014.safetensors",
+    "transformer.ln_f.weight": "model-00014-of-00014.safetensors",
+    "transformer.word_embeddings.weight": "model-00001-of-00014.safetensors",
+    "transformer.word_embeddings_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.word_embeddings_layernorm.weight": "model-00001-of-00014.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<s>",
+  "eos_token": "<|im_end|>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,228 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "19": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "20": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "21": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "22": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "23": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<s>",
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "model_max_length": 2048,
+  "pad_token": "<pad>",
+  "padding_side": "left",
+  "tokenizer_class": "BloomTokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 1.0299149649483816,
+    "train_runtime": 7625.9144,
+    "train_samples": 8916,
+    "train_samples_per_second": 3.508,
+    "train_steps_per_second": 0.028
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,118 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 210,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.523809523809525e-07,
+      "loss": 2.286,
+      "step": 1
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.904761904761905e-05,
+      "loss": 1.8049,
+      "step": 20
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.9505415489478293e-05,
+      "loss": 1.4705,
+      "step": 40
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.7971325072229227e-05,
+      "loss": 1.4275,
+      "step": 60
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.4452016353607178,
+      "eval_runtime": 33.7692,
+      "eval_samples_per_second": 12.526,
+      "eval_steps_per_second": 0.118,
+      "step": 70
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.5564337355766412e-05,
+      "loss": 1.2701,
+      "step": 80
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.2548028728946548e-05,
+      "loss": 0.9577,
+      "step": 100
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.252699064135759e-06,
+      "loss": 0.8857,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 6.039202339608432e-06,
+      "loss": 0.8585,
+      "step": 140
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.5615026950836182,
+      "eval_runtime": 33.3263,
+      "eval_samples_per_second": 12.693,
+      "eval_steps_per_second": 0.12,
+      "step": 140
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 3.2594314447468457e-06,
+      "loss": 0.6339,
+      "step": 160
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.2177842662977136e-06,
+      "loss": 0.5752,
+      "step": 180
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.3783069908621772e-07,
+      "loss": 0.5848,
+      "step": 200
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.6578937768936157,
+      "eval_runtime": 33.3303,
+      "eval_samples_per_second": 12.691,
+      "eval_steps_per_second": 0.12,
+      "step": 210
+    },
+    {
+      "epoch": 3.0,
+      "step": 210,
+      "total_flos": 440321248854016.0,
+      "train_loss": 1.0299149649483816,
+      "train_runtime": 7625.9144,
+      "train_samples_per_second": 3.508,
+      "train_steps_per_second": 0.028
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 210,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 440321248854016.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:668c3c859d834e0ac267f50ae415b577d5305a7a0f31bd9cf31c299759e1ae14
+size 5752