zitongyang commited on Dec 23, 2024

Commit

d323924

verified ·

1 Parent(s): 049b2c2

Upload folder using huggingface_hub

Browse files

Files changed (34) hide show

checkpoint-488/config.json +29 -0
checkpoint-488/generation_config.json +14 -0
checkpoint-488/model-00001-of-00029.safetensors +3 -0
checkpoint-488/model-00002-of-00029.safetensors +3 -0
checkpoint-488/model-00003-of-00029.safetensors +3 -0
checkpoint-488/model-00004-of-00029.safetensors +3 -0
checkpoint-488/model-00005-of-00029.safetensors +3 -0
checkpoint-488/model-00006-of-00029.safetensors +3 -0
checkpoint-488/model-00007-of-00029.safetensors +3 -0
checkpoint-488/model-00008-of-00029.safetensors +3 -0
checkpoint-488/model-00009-of-00029.safetensors +3 -0
checkpoint-488/model-00010-of-00029.safetensors +3 -0
checkpoint-488/model-00011-of-00029.safetensors +3 -0
checkpoint-488/model-00012-of-00029.safetensors +3 -0
checkpoint-488/model-00013-of-00029.safetensors +3 -0
checkpoint-488/model-00014-of-00029.safetensors +3 -0
checkpoint-488/model-00015-of-00029.safetensors +3 -0
checkpoint-488/model-00016-of-00029.safetensors +3 -0
checkpoint-488/model-00017-of-00029.safetensors +3 -0
checkpoint-488/model-00018-of-00029.safetensors +3 -0
checkpoint-488/model-00019-of-00029.safetensors +3 -0
checkpoint-488/model-00020-of-00029.safetensors +3 -0
checkpoint-488/model-00021-of-00029.safetensors +3 -0
checkpoint-488/model-00022-of-00029.safetensors +3 -0
checkpoint-488/model-00023-of-00029.safetensors +3 -0
checkpoint-488/model-00024-of-00029.safetensors +3 -0
checkpoint-488/model-00025-of-00029.safetensors +3 -0
checkpoint-488/model-00026-of-00029.safetensors +3 -0
checkpoint-488/model-00027-of-00029.safetensors +3 -0
checkpoint-488/model-00028-of-00029.safetensors +3 -0
checkpoint-488/model-00029-of-00029.safetensors +3 -0
checkpoint-488/model.safetensors.index.json +778 -0
checkpoint-488/trainer_state.json +3449 -0
checkpoint-488/training_args.bin +3 -0

checkpoint-488/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-32B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 27648,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 70,
+  "model_type": "qwen2",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 64,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

checkpoint-488/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.46.1"
+}

checkpoint-488/model-00001-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3925686029c5d68f2d1b127f111b6d4c86408a56e2b799e123d2d62163eb038f
+size 4498420872

checkpoint-488/model-00002-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc21d957d2ba08c653cb9d700fda1892e2c299af1f0aaf96b951f89591352d91
+size 4718804768

checkpoint-488/model-00003-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11312f0e892e58511850e04d173503ae9072bb10f1ab1e8001e920724aaccb12
+size 4467075880

checkpoint-488/model-00004-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:144e44afde7d7b2c4310f9e048eb68247bb12dde481d61303eedb9d52e0929dc
+size 4467075880

checkpoint-488/model-00005-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:172f1542703f7b4a844a1837410270839a062c66ce1ccad4cf75b38d4e366344
+size 4718804760

checkpoint-488/model-00006-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:622580e9769c07789ded808118ceef8fdedc84f4b13ddfc643e979c42ab58d3d
+size 4467075904

checkpoint-488/model-00007-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:410dd6e20d83e0e5458d16f95ba94ce969eea5b9c80a78f449e56e3479e7382f
+size 4467075904

checkpoint-488/model-00008-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ae1603fae21f7f3c615fb6a0f9670f68caed49d6a0db540c7399978ea08f7a4
+size 4718804800

checkpoint-488/model-00009-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae2bcdfadc16fcb33161a161410e2c746da0995303bbfd69caf0803995841873
+size 4467075904

checkpoint-488/model-00010-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4e3a72135703d600c4679d9da1859398cd52517f937190503c9e6ab3ebd0ef3
+size 4467075904

checkpoint-488/model-00011-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a2baee1f6409b0b88613043924c4a8c4a883e61794c6a5cbbf9e1b6b704f598
+size 4718804800

checkpoint-488/model-00012-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7792a83f806800fd9eca9c30b3d85476ff3810fef24825768b957203cf09b59e
+size 4467075904

checkpoint-488/model-00013-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0b733cdc5273beda1948b56863de9a9fdbc688ce8a5200e1c43bbf4a7ac3fe
+size 4467075904

checkpoint-488/model-00014-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69bc5dc84b0ea161e5dc22c7194c1bf35971d7b0d7796e999c69cbe1fa2eed93
+size 4718804800

checkpoint-488/model-00015-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce19764f387e71683bbae4573b8887ce993e56bc7a77b0a0c84b62efe397dbd4
+size 4467075904

checkpoint-488/model-00016-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:426b134a84cae9c9fdbd49b73da4bcdd6e439186724d18d526eda758f0134d25
+size 4467075904

checkpoint-488/model-00017-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb3a1b8c1e43dd613d6357989de03b5b49324d718a860912ec2fb6446b4a0bbe
+size 4718804800

checkpoint-488/model-00018-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2018b61b60747f3c4ec8ac8d77273757abad2544f0bf394c97c8349c933fd9a7
+size 4467075904

checkpoint-488/model-00019-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6bba325e2b8c5203e3034204209ee16893a9b8440dc2dc2a850b5d83dd5a2de
+size 4467075904

checkpoint-488/model-00020-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a54e0dfd050eb03ba5d546cb9b76254aba70625dcbffd64def908ab0fc66497
+size 4718804800

checkpoint-488/model-00021-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccc2602b69befd91b280176df98b369fe2cde0aee2650617f1a8009a507b9b9c
+size 4467075904

checkpoint-488/model-00022-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:418c77430d1daf488d466f872456b53e25040ab3d79a9e5ad87d3f203bc94303
+size 4467075904

checkpoint-488/model-00023-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d33779735bb220cb23551b6b74454c7c3fbb4a5657d62124d67ec32816f32e2f
+size 4718804800

checkpoint-488/model-00024-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efeefa8c6d25087f63fcf890137494393b4e65a3b76fd57560c6b13abd959f53
+size 4467075904

checkpoint-488/model-00025-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:580ac3b0a596e5a2ae8c12d73d256be2a2f9ffaeb42984504dccf25ab61ff65c
+size 4467075904

checkpoint-488/model-00026-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f99131a1d542e95587aa7c3a79611ffe21387e3ea921a6eec220e2a61cb16386
+size 4718804800

checkpoint-488/model-00027-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e52396fc8995a006fa3c7ecc12186d1217344bfd8c9ae3a1bc29b9ef76bbba18
+size 4467075904

checkpoint-488/model-00028-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:071309069403e6aa797ab7355d9138ff3ac9f70d1dfc0cad6a5fe0ff51f5cb1e
+size 4467075904

checkpoint-488/model-00029-of-00029.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81a3f62120924ac5b3d07a05b0cd770cb8996dc30aade1a40992031f0b37ee4f
+size 3680563768

checkpoint-488/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,778 @@

+{
+  "metadata": {
+    "total_size": 131055505408
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00029-of-00029.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00029.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00002-of-00029.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00029.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00029.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00029.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00029.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00029.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00029.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00029.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00029.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00029.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00029.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00006-of-00029.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00006-of-00029.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00006-of-00029.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00007-of-00029.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00007-of-00029.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00006-of-00029.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00006-of-00029.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00006-of-00029.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00006-of-00029.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00007-of-00029.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00008-of-00029.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00008-of-00029.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00007-of-00029.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00007-of-00029.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00007-of-00029.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00007-of-00029.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00009-of-00029.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00009-of-00029.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00008-of-00029.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00008-of-00029.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00009-of-00029.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00010-of-00029.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00010-of-00029.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00009-of-00029.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00009-of-00029.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00009-of-00029.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00009-of-00029.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00010-of-00029.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00011-of-00029.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00011-of-00029.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00010-of-00029.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00010-of-00029.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00010-of-00029.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00010-of-00029.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00012-of-00029.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00012-of-00029.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00011-of-00029.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00011-of-00029.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00012-of-00029.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00013-of-00029.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00013-of-00029.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00012-of-00029.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00012-of-00029.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00012-of-00029.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00012-of-00029.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00013-of-00029.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00014-of-00029.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00014-of-00029.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00013-of-00029.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00013-of-00029.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00013-of-00029.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00013-of-00029.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00003-of-00029.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00003-of-00029.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00029.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00029.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00015-of-00029.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00015-of-00029.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00014-of-00029.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00014-of-00029.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00015-of-00029.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00016-of-00029.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00016-of-00029.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00015-of-00029.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00015-of-00029.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00015-of-00029.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00015-of-00029.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00016-of-00029.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00017-of-00029.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00017-of-00029.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00016-of-00029.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00016-of-00029.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00016-of-00029.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00016-of-00029.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00018-of-00029.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00018-of-00029.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00017-of-00029.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00017-of-00029.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00018-of-00029.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00003-of-00029.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00019-of-00029.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00019-of-00029.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00018-of-00029.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00018-of-00029.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00018-of-00029.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00018-of-00029.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00019-of-00029.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00020-of-00029.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00020-of-00029.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00019-of-00029.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00019-of-00029.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00019-of-00029.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00019-of-00029.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00021-of-00029.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00021-of-00029.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00020-of-00029.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00020-of-00029.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00021-of-00029.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00022-of-00029.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00022-of-00029.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00021-of-00029.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00021-of-00029.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00021-of-00029.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00021-of-00029.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.k_proj.bias": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.q_proj.bias": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.v_proj.bias": "model-00022-of-00029.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00023-of-00029.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00023-of-00029.safetensors",
+    "model.layers.49.self_attn.k_proj.bias": "model-00022-of-00029.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.49.self_attn.q_proj.bias": "model-00022-of-00029.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.49.self_attn.v_proj.bias": "model-00022-of-00029.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00022-of-00029.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00004-of-00029.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00004-of-00029.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00003-of-00029.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00003-of-00029.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00003-of-00029.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00003-of-00029.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.k_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.q_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.v_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.k_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.q_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.v_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00024-of-00029.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00024-of-00029.safetensors",
+    "model.layers.52.self_attn.k_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.52.self_attn.q_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.52.self_attn.v_proj.bias": "model-00023-of-00029.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00023-of-00029.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.k_proj.bias": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.q_proj.bias": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.v_proj.bias": "model-00024-of-00029.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00025-of-00029.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00025-of-00029.safetensors",
+    "model.layers.54.self_attn.k_proj.bias": "model-00024-of-00029.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.54.self_attn.q_proj.bias": "model-00024-of-00029.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.54.self_attn.v_proj.bias": "model-00024-of-00029.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00024-of-00029.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.k_proj.bias": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.q_proj.bias": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.v_proj.bias": "model-00025-of-00029.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00026-of-00029.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00026-of-00029.safetensors",
+    "model.layers.56.self_attn.k_proj.bias": "model-00025-of-00029.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.56.self_attn.q_proj.bias": "model-00025-of-00029.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.56.self_attn.v_proj.bias": "model-00025-of-00029.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00025-of-00029.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.k_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.q_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.v_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.k_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.q_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.v_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00027-of-00029.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00027-of-00029.safetensors",
+    "model.layers.59.self_attn.k_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.59.self_attn.q_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.59.self_attn.v_proj.bias": "model-00026-of-00029.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00026-of-00029.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00004-of-00029.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.k_proj.bias": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.q_proj.bias": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.v_proj.bias": "model-00027-of-00029.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00028-of-00029.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00028-of-00029.safetensors",
+    "model.layers.61.self_attn.k_proj.bias": "model-00027-of-00029.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.61.self_attn.q_proj.bias": "model-00027-of-00029.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.61.self_attn.v_proj.bias": "model-00027-of-00029.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00027-of-00029.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.k_proj.bias": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.q_proj.bias": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.v_proj.bias": "model-00028-of-00029.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00029-of-00029.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00029-of-00029.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00029-of-00029.safetensors",
+    "model.layers.63.self_attn.k_proj.bias": "model-00028-of-00029.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.63.self_attn.q_proj.bias": "model-00028-of-00029.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.63.self_attn.v_proj.bias": "model-00028-of-00029.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00028-of-00029.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00005-of-00029.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00005-of-00029.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00004-of-00029.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00004-of-00029.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00004-of-00029.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00004-of-00029.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00005-of-00029.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00005-of-00029.safetensors",
+    "model.norm.weight": "model-00029-of-00029.safetensors"
+  }
+}

checkpoint-488/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3449 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 488,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004098360655737705,
+      "grad_norm": 4500.83056640625,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 2.2104,
+      "step": 1
+    },
+    {
+      "epoch": 0.00819672131147541,
+      "grad_norm": 397.61431884765625,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 2.1402,
+      "step": 2
+    },
+    {
+      "epoch": 0.012295081967213115,
+      "grad_norm": 3.9326436519622803,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 1.8288,
+      "step": 3
+    },
+    {
+      "epoch": 0.01639344262295082,
+      "grad_norm": 42.71533966064453,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 2.121,
+      "step": 4
+    },
+    {
+      "epoch": 0.020491803278688523,
+      "grad_norm": 2230.4404296875,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 2.507,
+      "step": 5
+    },
+    {
+      "epoch": 0.02459016393442623,
+      "grad_norm": 53.295406341552734,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 2.0578,
+      "step": 6
+    },
+    {
+      "epoch": 0.028688524590163935,
+      "grad_norm": 3.917754650115967,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 1.8235,
+      "step": 7
+    },
+    {
+      "epoch": 0.03278688524590164,
+      "grad_norm": 306.2715759277344,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 2.2922,
+      "step": 8
+    },
+    {
+      "epoch": 0.036885245901639344,
+      "grad_norm": 367.69854736328125,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 1.8594,
+      "step": 9
+    },
+    {
+      "epoch": 0.040983606557377046,
+      "grad_norm": 758.4432373046875,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.9712,
+      "step": 10
+    },
+    {
+      "epoch": 0.045081967213114756,
+      "grad_norm": 62.54020690917969,
+      "learning_rate": 2.2e-06,
+      "loss": 1.7428,
+      "step": 11
+    },
+    {
+      "epoch": 0.04918032786885246,
+      "grad_norm": 3.542401075363159,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.7951,
+      "step": 12
+    },
+    {
+      "epoch": 0.05327868852459016,
+      "grad_norm": 874.4238891601562,
+      "learning_rate": 2.6e-06,
+      "loss": 1.7743,
+      "step": 13
+    },
+    {
+      "epoch": 0.05737704918032787,
+      "grad_norm": 276.30157470703125,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 1.7664,
+      "step": 14
+    },
+    {
+      "epoch": 0.06147540983606557,
+      "grad_norm": 2.58331561088562,
+      "learning_rate": 3e-06,
+      "loss": 1.7405,
+      "step": 15
+    },
+    {
+      "epoch": 0.06557377049180328,
+      "grad_norm": 2.7265381813049316,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 1.7416,
+      "step": 16
+    },
+    {
+      "epoch": 0.06967213114754098,
+      "grad_norm": 306.4642333984375,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 1.6298,
+      "step": 17
+    },
+    {
+      "epoch": 0.07377049180327869,
+      "grad_norm": 2.506108522415161,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 1.6869,
+      "step": 18
+    },
+    {
+      "epoch": 0.0778688524590164,
+      "grad_norm": 2880.666015625,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 1.4786,
+      "step": 19
+    },
+    {
+      "epoch": 0.08196721311475409,
+      "grad_norm": 1.6825494766235352,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.6626,
+      "step": 20
+    },
+    {
+      "epoch": 0.0860655737704918,
+      "grad_norm": 108.04601287841797,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 1.523,
+      "step": 21
+    },
+    {
+      "epoch": 0.09016393442622951,
+      "grad_norm": 87.35586547851562,
+      "learning_rate": 4.4e-06,
+      "loss": 1.402,
+      "step": 22
+    },
+    {
+      "epoch": 0.0942622950819672,
+      "grad_norm": 1.2605695724487305,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 1.5923,
+      "step": 23
+    },
+    {
+      "epoch": 0.09836065573770492,
+      "grad_norm": 126.99231719970703,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.4233,
+      "step": 24
+    },
+    {
+      "epoch": 0.10245901639344263,
+      "grad_norm": 1.4333895444869995,
+      "learning_rate": 5e-06,
+      "loss": 1.5595,
+      "step": 25
+    },
+    {
+      "epoch": 0.10655737704918032,
+      "grad_norm": 31.390945434570312,
+      "learning_rate": 4.999942449896355e-06,
+      "loss": 1.2143,
+      "step": 26
+    },
+    {
+      "epoch": 0.11065573770491803,
+      "grad_norm": 26.53938865661621,
+      "learning_rate": 4.999769802235034e-06,
+      "loss": 1.3683,
+      "step": 27
+    },
+    {
+      "epoch": 0.11475409836065574,
+      "grad_norm": 3.3473479747772217,
+      "learning_rate": 4.999482064964746e-06,
+      "loss": 1.3561,
+      "step": 28
+    },
+    {
+      "epoch": 0.11885245901639344,
+      "grad_norm": 1.256771445274353,
+      "learning_rate": 4.999079251332942e-06,
+      "loss": 1.4949,
+      "step": 29
+    },
+    {
+      "epoch": 0.12295081967213115,
+      "grad_norm": 188.88003540039062,
+      "learning_rate": 4.998561379885193e-06,
+      "loss": 1.3125,
+      "step": 30
+    },
+    {
+      "epoch": 0.12704918032786885,
+      "grad_norm": 2.2714405059814453,
+      "learning_rate": 4.997928474464344e-06,
+      "loss": 1.3107,
+      "step": 31
+    },
+    {
+      "epoch": 0.13114754098360656,
+      "grad_norm": 1.0286980867385864,
+      "learning_rate": 4.997180564209414e-06,
+      "loss": 1.4724,
+      "step": 32
+    },
+    {
+      "epoch": 0.13524590163934427,
+      "grad_norm": 12.763178825378418,
+      "learning_rate": 4.996317683554252e-06,
+      "loss": 1.2771,
+      "step": 33
+    },
+    {
+      "epoch": 0.13934426229508196,
+      "grad_norm": 0.8430377840995789,
+      "learning_rate": 4.9953398722259546e-06,
+      "loss": 1.4282,
+      "step": 34
+    },
+    {
+      "epoch": 0.14344262295081966,
+      "grad_norm": 0.7248494029045105,
+      "learning_rate": 4.994247175243038e-06,
+      "loss": 1.4255,
+      "step": 35
+    },
+    {
+      "epoch": 0.14754098360655737,
+      "grad_norm": 2.6341772079467773,
+      "learning_rate": 4.993039642913361e-06,
+      "loss": 1.0992,
+      "step": 36
+    },
+    {
+      "epoch": 0.15163934426229508,
+      "grad_norm": 39.01789474487305,
+      "learning_rate": 4.991717330831813e-06,
+      "loss": 1.0712,
+      "step": 37
+    },
+    {
+      "epoch": 0.1557377049180328,
+      "grad_norm": 42.48202896118164,
+      "learning_rate": 4.990280299877749e-06,
+      "loss": 1.0842,
+      "step": 38
+    },
+    {
+      "epoch": 0.1598360655737705,
+      "grad_norm": 0.9557873010635376,
+      "learning_rate": 4.988728616212197e-06,
+      "loss": 1.2174,
+      "step": 39
+    },
+    {
+      "epoch": 0.16393442622950818,
+      "grad_norm": 1.3529239892959595,
+      "learning_rate": 4.9870623512748e-06,
+      "loss": 1.219,
+      "step": 40
+    },
+    {
+      "epoch": 0.1680327868852459,
+      "grad_norm": 0.8343617916107178,
+      "learning_rate": 4.985281581780532e-06,
+      "loss": 1.3546,
+      "step": 41
+    },
+    {
+      "epoch": 0.1721311475409836,
+      "grad_norm": 0.6154312491416931,
+      "learning_rate": 4.9833863897161715e-06,
+      "loss": 0.919,
+      "step": 42
+    },
+    {
+      "epoch": 0.1762295081967213,
+      "grad_norm": 0.657593846321106,
+      "learning_rate": 4.9813768623365164e-06,
+      "loss": 1.2144,
+      "step": 43
+    },
+    {
+      "epoch": 0.18032786885245902,
+      "grad_norm": 0.6682307124137878,
+      "learning_rate": 4.979253092160374e-06,
+      "loss": 1.2024,
+      "step": 44
+    },
+    {
+      "epoch": 0.18442622950819673,
+      "grad_norm": 0.5644441843032837,
+      "learning_rate": 4.9770151769663e-06,
+      "loss": 1.0372,
+      "step": 45
+    },
+    {
+      "epoch": 0.1885245901639344,
+      "grad_norm": 0.6462714076042175,
+      "learning_rate": 4.974663219788095e-06,
+      "loss": 1.3359,
+      "step": 46
+    },
+    {
+      "epoch": 0.19262295081967212,
+      "grad_norm": 0.40336307883262634,
+      "learning_rate": 4.972197328910063e-06,
+      "loss": 0.7266,
+      "step": 47
+    },
+    {
+      "epoch": 0.19672131147540983,
+      "grad_norm": 0.574533998966217,
+      "learning_rate": 4.969617617862023e-06,
+      "loss": 1.1839,
+      "step": 48
+    },
+    {
+      "epoch": 0.20081967213114754,
+      "grad_norm": 0.6555280089378357,
+      "learning_rate": 4.966924205414088e-06,
+      "loss": 1.3378,
+      "step": 49
+    },
+    {
+      "epoch": 0.20491803278688525,
+      "grad_norm": 0.6314173936843872,
+      "learning_rate": 4.964117215571188e-06,
+      "loss": 1.3412,
+      "step": 50
+    },
+    {
+      "epoch": 0.20901639344262296,
+      "grad_norm": 0.5218219757080078,
+      "learning_rate": 4.9611967775673694e-06,
+      "loss": 1.1575,
+      "step": 51
+    },
+    {
+      "epoch": 0.21311475409836064,
+      "grad_norm": 0.5445213317871094,
+      "learning_rate": 4.95816302585984e-06,
+      "loss": 1.1678,
+      "step": 52
+    },
+    {
+      "epoch": 0.21721311475409835,
+      "grad_norm": 0.44126632809638977,
+      "learning_rate": 4.9550161001227795e-06,
+      "loss": 1.1573,
+      "step": 53
+    },
+    {
+      "epoch": 0.22131147540983606,
+      "grad_norm": 0.5242781639099121,
+      "learning_rate": 4.95175614524091e-06,
+      "loss": 1.1674,
+      "step": 54
+    },
+    {
+      "epoch": 0.22540983606557377,
+      "grad_norm": 0.445451021194458,
+      "learning_rate": 4.9483833113028245e-06,
+      "loss": 0.8661,
+      "step": 55
+    },
+    {
+      "epoch": 0.22950819672131148,
+      "grad_norm": 0.5405259728431702,
+      "learning_rate": 4.944897753594078e-06,
+      "loss": 1.1522,
+      "step": 56
+    },
+    {
+      "epoch": 0.2336065573770492,
+      "grad_norm": 0.45289111137390137,
+      "learning_rate": 4.941299632590035e-06,
+      "loss": 1.1482,
+      "step": 57
+    },
+    {
+      "epoch": 0.23770491803278687,
+      "grad_norm": 0.45396503806114197,
+      "learning_rate": 4.937589113948485e-06,
+      "loss": 1.0029,
+      "step": 58
+    },
+    {
+      "epoch": 0.24180327868852458,
+      "grad_norm": 0.5364096164703369,
+      "learning_rate": 4.933766368502015e-06,
+      "loss": 1.1566,
+      "step": 59
+    },
+    {
+      "epoch": 0.2459016393442623,
+      "grad_norm": 0.44701170921325684,
+      "learning_rate": 4.929831572250142e-06,
+      "loss": 0.9908,
+      "step": 60
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.4584234356880188,
+      "learning_rate": 4.925784906351212e-06,
+      "loss": 1.1334,
+      "step": 61
+    },
+    {
+      "epoch": 0.2540983606557377,
+      "grad_norm": 0.5813693404197693,
+      "learning_rate": 4.9216265571140565e-06,
+      "loss": 1.2994,
+      "step": 62
+    },
+    {
+      "epoch": 0.2581967213114754,
+      "grad_norm": 0.43892839550971985,
+      "learning_rate": 4.917356715989421e-06,
+      "loss": 1.1369,
+      "step": 63
+    },
+    {
+      "epoch": 0.26229508196721313,
+      "grad_norm": 0.4868036210536957,
+      "learning_rate": 4.912975579561146e-06,
+      "loss": 1.2841,
+      "step": 64
+    },
+    {
+      "epoch": 0.26639344262295084,
+      "grad_norm": 0.3914739787578583,
+      "learning_rate": 4.908483349537113e-06,
+      "loss": 0.9917,
+      "step": 65
+    },
+    {
+      "epoch": 0.27049180327868855,
+      "grad_norm": 0.4883388578891754,
+      "learning_rate": 4.903880232739967e-06,
+      "loss": 1.2944,
+      "step": 66
+    },
+    {
+      "epoch": 0.27459016393442626,
+      "grad_norm": 0.45264574885368347,
+      "learning_rate": 4.899166441097586e-06,
+      "loss": 1.1421,
+      "step": 67
+    },
+    {
+      "epoch": 0.2786885245901639,
+      "grad_norm": 0.4849913716316223,
+      "learning_rate": 4.8943421916333275e-06,
+      "loss": 1.2714,
+      "step": 68
+    },
+    {
+      "epoch": 0.2827868852459016,
+      "grad_norm": 0.4818207025527954,
+      "learning_rate": 4.889407706456039e-06,
+      "loss": 1.2748,
+      "step": 69
+    },
+    {
+      "epoch": 0.28688524590163933,
+      "grad_norm": 0.43514296412467957,
+      "learning_rate": 4.884363212749825e-06,
+      "loss": 1.1162,
+      "step": 70
+    },
+    {
+      "epoch": 0.29098360655737704,
+      "grad_norm": 0.448426753282547,
+      "learning_rate": 4.879208942763595e-06,
+      "loss": 1.1156,
+      "step": 71
+    },
+    {
+      "epoch": 0.29508196721311475,
+      "grad_norm": 0.5787432193756104,
+      "learning_rate": 4.8739451338003675e-06,
+      "loss": 1.2675,
+      "step": 72
+    },
+    {
+      "epoch": 0.29918032786885246,
+      "grad_norm": 0.5253551602363586,
+      "learning_rate": 4.868572028206342e-06,
+      "loss": 1.2693,
+      "step": 73
+    },
+    {
+      "epoch": 0.30327868852459017,
+      "grad_norm": 0.4342573285102844,
+      "learning_rate": 4.863089873359746e-06,
+      "loss": 1.1278,
+      "step": 74
+    },
+    {
+      "epoch": 0.3073770491803279,
+      "grad_norm": 0.4752373993396759,
+      "learning_rate": 4.857498921659443e-06,
+      "loss": 1.1225,
+      "step": 75
+    },
+    {
+      "epoch": 0.3114754098360656,
+      "grad_norm": 0.48717620968818665,
+      "learning_rate": 4.8517994305133135e-06,
+      "loss": 1.1154,
+      "step": 76
+    },
+    {
+      "epoch": 0.3155737704918033,
+      "grad_norm": 0.4144691228866577,
+      "learning_rate": 4.845991662326402e-06,
+      "loss": 0.9699,
+      "step": 77
+    },
+    {
+      "epoch": 0.319672131147541,
+      "grad_norm": 0.5019151568412781,
+      "learning_rate": 4.840075884488838e-06,
+      "loss": 1.1027,
+      "step": 78
+    },
+    {
+      "epoch": 0.3237704918032787,
+      "grad_norm": 0.4522932767868042,
+      "learning_rate": 4.834052369363522e-06,
+      "loss": 1.1246,
+      "step": 79
+    },
+    {
+      "epoch": 0.32786885245901637,
+      "grad_norm": 0.48509010672569275,
+      "learning_rate": 4.827921394273592e-06,
+      "loss": 1.2707,
+      "step": 80
+    },
+    {
+      "epoch": 0.3319672131147541,
+      "grad_norm": 0.4448527693748474,
+      "learning_rate": 4.821683241489648e-06,
+      "loss": 1.1272,
+      "step": 81
+    },
+    {
+      "epoch": 0.3360655737704918,
+      "grad_norm": 0.4774729609489441,
+      "learning_rate": 4.815338198216762e-06,
+      "loss": 1.1391,
+      "step": 82
+    },
+    {
+      "epoch": 0.3401639344262295,
+      "grad_norm": 0.626939058303833,
+      "learning_rate": 4.808886556581252e-06,
+      "loss": 1.2457,
+      "step": 83
+    },
+    {
+      "epoch": 0.3442622950819672,
+      "grad_norm": 0.4404904842376709,
+      "learning_rate": 4.802328613617234e-06,
+      "loss": 1.2538,
+      "step": 84
+    },
+    {
+      "epoch": 0.3483606557377049,
+      "grad_norm": 0.5053931474685669,
+      "learning_rate": 4.795664671252947e-06,
+      "loss": 1.1163,
+      "step": 85
+    },
+    {
+      "epoch": 0.3524590163934426,
+      "grad_norm": 0.5418112874031067,
+      "learning_rate": 4.788895036296848e-06,
+      "loss": 1.2381,
+      "step": 86
+    },
+    {
+      "epoch": 0.35655737704918034,
+      "grad_norm": 0.5010538697242737,
+      "learning_rate": 4.782020020423492e-06,
+      "loss": 1.2513,
+      "step": 87
+    },
+    {
+      "epoch": 0.36065573770491804,
+      "grad_norm": 0.4736756384372711,
+      "learning_rate": 4.775039940159182e-06,
+      "loss": 1.0977,
+      "step": 88
+    },
+    {
+      "epoch": 0.36475409836065575,
+      "grad_norm": 0.46083852648735046,
+      "learning_rate": 4.76795511686739e-06,
+      "loss": 1.1,
+      "step": 89
+    },
+    {
+      "epoch": 0.36885245901639346,
+      "grad_norm": 0.4447672367095947,
+      "learning_rate": 4.760765876733967e-06,
+      "loss": 1.2445,
+      "step": 90
+    },
+    {
+      "epoch": 0.3729508196721312,
+      "grad_norm": 0.44670748710632324,
+      "learning_rate": 4.753472550752128e-06,
+      "loss": 1.1072,
+      "step": 91
+    },
+    {
+      "epoch": 0.3770491803278688,
+      "grad_norm": 0.46701523661613464,
+      "learning_rate": 4.746075474707204e-06,
+      "loss": 1.2482,
+      "step": 92
+    },
+    {
+      "epoch": 0.38114754098360654,
+      "grad_norm": 0.47101953625679016,
+      "learning_rate": 4.738574989161189e-06,
+      "loss": 1.2585,
+      "step": 93
+    },
+    {
+      "epoch": 0.38524590163934425,
+      "grad_norm": 0.47528576850891113,
+      "learning_rate": 4.73097143943706e-06,
+      "loss": 1.2438,
+      "step": 94
+    },
+    {
+      "epoch": 0.38934426229508196,
+      "grad_norm": 0.4908735454082489,
+      "learning_rate": 4.723265175602877e-06,
+      "loss": 1.2403,
+      "step": 95
+    },
+    {
+      "epoch": 0.39344262295081966,
+      "grad_norm": 0.45603206753730774,
+      "learning_rate": 4.7154565524556655e-06,
+      "loss": 1.1163,
+      "step": 96
+    },
+    {
+      "epoch": 0.3975409836065574,
+      "grad_norm": 0.448993980884552,
+      "learning_rate": 4.707545929505083e-06,
+      "loss": 1.2372,
+      "step": 97
+    },
+    {
+      "epoch": 0.4016393442622951,
+      "grad_norm": 0.47324758768081665,
+      "learning_rate": 4.699533670956866e-06,
+      "loss": 1.2466,
+      "step": 98
+    },
+    {
+      "epoch": 0.4057377049180328,
+      "grad_norm": 0.4399038553237915,
+      "learning_rate": 4.691420145696062e-06,
+      "loss": 1.2268,
+      "step": 99
+    },
+    {
+      "epoch": 0.4098360655737705,
+      "grad_norm": 0.5177188515663147,
+      "learning_rate": 4.683205727270047e-06,
+      "loss": 1.0946,
+      "step": 100
+    },
+    {
+      "epoch": 0.4139344262295082,
+      "grad_norm": 0.49126148223876953,
+      "learning_rate": 4.674890793871327e-06,
+      "loss": 1.239,
+      "step": 101
+    },
+    {
+      "epoch": 0.4180327868852459,
+      "grad_norm": 0.44006577134132385,
+      "learning_rate": 4.666475728320124e-06,
+      "loss": 1.2425,
+      "step": 102
+    },
+    {
+      "epoch": 0.42213114754098363,
+      "grad_norm": 0.4243885278701782,
+      "learning_rate": 4.657960918046755e-06,
+      "loss": 0.9624,
+      "step": 103
+    },
+    {
+      "epoch": 0.4262295081967213,
+      "grad_norm": 0.5435347557067871,
+      "learning_rate": 4.64934675507379e-06,
+      "loss": 1.2487,
+      "step": 104
+    },
+    {
+      "epoch": 0.430327868852459,
+      "grad_norm": 0.45237934589385986,
+      "learning_rate": 4.6406336359980075e-06,
+      "loss": 1.2297,
+      "step": 105
+    },
+    {
+      "epoch": 0.4344262295081967,
+      "grad_norm": 0.37015944719314575,
+      "learning_rate": 4.631821961972131e-06,
+      "loss": 0.9531,
+      "step": 106
+    },
+    {
+      "epoch": 0.4385245901639344,
+      "grad_norm": 0.41605710983276367,
+      "learning_rate": 4.622912138686364e-06,
+      "loss": 1.1215,
+      "step": 107
+    },
+    {
+      "epoch": 0.4426229508196721,
+      "grad_norm": 0.41787323355674744,
+      "learning_rate": 4.613904576349709e-06,
+      "loss": 0.9494,
+      "step": 108
+    },
+    {
+      "epoch": 0.44672131147540983,
+      "grad_norm": 0.4963286221027374,
+      "learning_rate": 4.604799689671083e-06,
+      "loss": 1.242,
+      "step": 109
+    },
+    {
+      "epoch": 0.45081967213114754,
+      "grad_norm": 0.38304510712623596,
+      "learning_rate": 4.595597897840224e-06,
+      "loss": 0.935,
+      "step": 110
+    },
+    {
+      "epoch": 0.45491803278688525,
+      "grad_norm": 0.4239124059677124,
+      "learning_rate": 4.58629962450839e-06,
+      "loss": 1.0936,
+      "step": 111
+    },
+    {
+      "epoch": 0.45901639344262296,
+      "grad_norm": 0.440853089094162,
+      "learning_rate": 4.576905297768856e-06,
+      "loss": 1.1029,
+      "step": 112
+    },
+    {
+      "epoch": 0.46311475409836067,
+      "grad_norm": 0.35043877363204956,
+      "learning_rate": 4.567415350137206e-06,
+      "loss": 0.8043,
+      "step": 113
+    },
+    {
+      "epoch": 0.4672131147540984,
+      "grad_norm": 0.4636719226837158,
+      "learning_rate": 4.557830218531414e-06,
+      "loss": 1.2464,
+      "step": 114
+    },
+    {
+      "epoch": 0.4713114754098361,
+      "grad_norm": 0.44369155168533325,
+      "learning_rate": 4.548150344251735e-06,
+      "loss": 1.2288,
+      "step": 115
+    },
+    {
+      "epoch": 0.47540983606557374,
+      "grad_norm": 0.44172561168670654,
+      "learning_rate": 4.538376172960382e-06,
+      "loss": 1.0849,
+      "step": 116
+    },
+    {
+      "epoch": 0.47950819672131145,
+      "grad_norm": 0.44152316451072693,
+      "learning_rate": 4.528508154661013e-06,
+      "loss": 1.2429,
+      "step": 117
+    },
+    {
+      "epoch": 0.48360655737704916,
+      "grad_norm": 0.5085294842720032,
+      "learning_rate": 4.518546743678008e-06,
+      "loss": 1.0935,
+      "step": 118
+    },
+    {
+      "epoch": 0.48770491803278687,
+      "grad_norm": 0.4440874755382538,
+      "learning_rate": 4.508492398635556e-06,
+      "loss": 1.0804,
+      "step": 119
+    },
+    {
+      "epoch": 0.4918032786885246,
+      "grad_norm": 0.4199363589286804,
+      "learning_rate": 4.498345582436534e-06,
+      "loss": 1.0937,
+      "step": 120
+    },
+    {
+      "epoch": 0.4959016393442623,
+      "grad_norm": 0.4209626615047455,
+      "learning_rate": 4.488106762241202e-06,
+      "loss": 1.0989,
+      "step": 121
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.4250634014606476,
+      "learning_rate": 4.477776409445692e-06,
+      "loss": 1.0778,
+      "step": 122
+    },
+    {
+      "epoch": 0.5040983606557377,
+      "grad_norm": 0.37539830803871155,
+      "learning_rate": 4.4673549996603025e-06,
+      "loss": 0.9401,
+      "step": 123
+    },
+    {
+      "epoch": 0.5081967213114754,
+      "grad_norm": 0.5044989585876465,
+      "learning_rate": 4.4568430126876036e-06,
+      "loss": 1.2288,
+      "step": 124
+    },
+    {
+      "epoch": 0.5122950819672131,
+      "grad_norm": 0.42166656255722046,
+      "learning_rate": 4.446240932500349e-06,
+      "loss": 1.0905,
+      "step": 125
+    },
+    {
+      "epoch": 0.5163934426229508,
+      "grad_norm": 0.46548137068748474,
+      "learning_rate": 4.435549247219187e-06,
+      "loss": 1.2341,
+      "step": 126
+    },
+    {
+      "epoch": 0.5204918032786885,
+      "grad_norm": 0.4220496714115143,
+      "learning_rate": 4.424768449090195e-06,
+      "loss": 1.0803,
+      "step": 127
+    },
+    {
+      "epoch": 0.5245901639344263,
+      "grad_norm": 0.4304647743701935,
+      "learning_rate": 4.413899034462215e-06,
+      "loss": 1.0746,
+      "step": 128
+    },
+    {
+      "epoch": 0.5286885245901639,
+      "grad_norm": 0.4345115125179291,
+      "learning_rate": 4.402941503763996e-06,
+      "loss": 1.0885,
+      "step": 129
+    },
+    {
+      "epoch": 0.5327868852459017,
+      "grad_norm": 0.37969139218330383,
+      "learning_rate": 4.391896361481158e-06,
+      "loss": 0.9346,
+      "step": 130
+    },
+    {
+      "epoch": 0.5368852459016393,
+      "grad_norm": 0.4811060130596161,
+      "learning_rate": 4.380764116132972e-06,
+      "loss": 1.1062,
+      "step": 131
+    },
+    {
+      "epoch": 0.5409836065573771,
+      "grad_norm": 0.43868470191955566,
+      "learning_rate": 4.369545280248932e-06,
+      "loss": 1.075,
+      "step": 132
+    },
+    {
+      "epoch": 0.5450819672131147,
+      "grad_norm": 0.5028568506240845,
+      "learning_rate": 4.358240370345177e-06,
+      "loss": 1.2363,
+      "step": 133
+    },
+    {
+      "epoch": 0.5491803278688525,
+      "grad_norm": 0.4681834876537323,
+      "learning_rate": 4.346849906900693e-06,
+      "loss": 1.2304,
+      "step": 134
+    },
+    {
+      "epoch": 0.5532786885245902,
+      "grad_norm": 0.434079647064209,
+      "learning_rate": 4.335374414333362e-06,
+      "loss": 0.9546,
+      "step": 135
+    },
+    {
+      "epoch": 0.5573770491803278,
+      "grad_norm": 0.49351316690444946,
+      "learning_rate": 4.323814420975815e-06,
+      "loss": 1.092,
+      "step": 136
+    },
+    {
+      "epoch": 0.5614754098360656,
+      "grad_norm": 0.4992028772830963,
+      "learning_rate": 4.312170459051103e-06,
+      "loss": 1.2141,
+      "step": 137
+    },
+    {
+      "epoch": 0.5655737704918032,
+      "grad_norm": 0.44842249155044556,
+      "learning_rate": 4.300443064648198e-06,
+      "loss": 1.0836,
+      "step": 138
+    },
+    {
+      "epoch": 0.569672131147541,
+      "grad_norm": 0.48587048053741455,
+      "learning_rate": 4.288632777697313e-06,
+      "loss": 1.2317,
+      "step": 139
+    },
+    {
+      "epoch": 0.5737704918032787,
+      "grad_norm": 0.4601718783378601,
+      "learning_rate": 4.276740141945035e-06,
+      "loss": 1.0736,
+      "step": 140
+    },
+    {
+      "epoch": 0.5778688524590164,
+      "grad_norm": 0.4077562987804413,
+      "learning_rate": 4.264765704929305e-06,
+      "loss": 1.0838,
+      "step": 141
+    },
+    {
+      "epoch": 0.5819672131147541,
+      "grad_norm": 0.3944692611694336,
+      "learning_rate": 4.252710017954191e-06,
+      "loss": 0.928,
+      "step": 142
+    },
+    {
+      "epoch": 0.5860655737704918,
+      "grad_norm": 0.5090078115463257,
+      "learning_rate": 4.240573636064525e-06,
+      "loss": 1.2291,
+      "step": 143
+    },
+    {
+      "epoch": 0.5901639344262295,
+      "grad_norm": 0.5023549199104309,
+      "learning_rate": 4.228357118020332e-06,
+      "loss": 1.2277,
+      "step": 144
+    },
+    {
+      "epoch": 0.5942622950819673,
+      "grad_norm": 0.42317765951156616,
+      "learning_rate": 4.216061026271119e-06,
+      "loss": 1.1034,
+      "step": 145
+    },
+    {
+      "epoch": 0.5983606557377049,
+      "grad_norm": 0.4723348021507263,
+      "learning_rate": 4.203685926929968e-06,
+      "loss": 1.2311,
+      "step": 146
+    },
+    {
+      "epoch": 0.6024590163934426,
+      "grad_norm": 0.41492870450019836,
+      "learning_rate": 4.191232389747477e-06,
+      "loss": 1.0872,
+      "step": 147
+    },
+    {
+      "epoch": 0.6065573770491803,
+      "grad_norm": 0.45762187242507935,
+      "learning_rate": 4.178700988085534e-06,
+      "loss": 1.2289,
+      "step": 148
+    },
+    {
+      "epoch": 0.610655737704918,
+      "grad_norm": 0.39948973059654236,
+      "learning_rate": 4.166092298890909e-06,
+      "loss": 0.9464,
+      "step": 149
+    },
+    {
+      "epoch": 0.6147540983606558,
+      "grad_norm": 0.4192037880420685,
+      "learning_rate": 4.1534069026686975e-06,
+      "loss": 1.0886,
+      "step": 150
+    },
+    {
+      "epoch": 0.6188524590163934,
+      "grad_norm": 0.4573190212249756,
+      "learning_rate": 4.140645383455593e-06,
+      "loss": 0.9762,
+      "step": 151
+    },
+    {
+      "epoch": 0.6229508196721312,
+      "grad_norm": 0.5367359519004822,
+      "learning_rate": 4.127808328793e-06,
+      "loss": 1.2318,
+      "step": 152
+    },
+    {
+      "epoch": 0.6270491803278688,
+      "grad_norm": 0.40376120805740356,
+      "learning_rate": 4.114896329699979e-06,
+      "loss": 1.0804,
+      "step": 153
+    },
+    {
+      "epoch": 0.6311475409836066,
+      "grad_norm": 0.4679541289806366,
+      "learning_rate": 4.101909980646037e-06,
+      "loss": 1.2113,
+      "step": 154
+    },
+    {
+      "epoch": 0.6352459016393442,
+      "grad_norm": 0.4209458529949188,
+      "learning_rate": 4.088849879523763e-06,
+      "loss": 1.0744,
+      "step": 155
+    },
+    {
+      "epoch": 0.639344262295082,
+      "grad_norm": 0.430154025554657,
+      "learning_rate": 4.075716627621295e-06,
+      "loss": 1.0781,
+      "step": 156
+    },
+    {
+      "epoch": 0.6434426229508197,
+      "grad_norm": 0.53505539894104,
+      "learning_rate": 4.062510829594641e-06,
+      "loss": 1.2121,
+      "step": 157
+    },
+    {
+      "epoch": 0.6475409836065574,
+      "grad_norm": 0.4071391224861145,
+      "learning_rate": 4.049233093439834e-06,
+      "loss": 1.0753,
+      "step": 158
+    },
+    {
+      "epoch": 0.6516393442622951,
+      "grad_norm": 0.35387763381004333,
+      "learning_rate": 4.035884030464951e-06,
+      "loss": 0.9405,
+      "step": 159
+    },
+    {
+      "epoch": 0.6557377049180327,
+      "grad_norm": 0.4813622534275055,
+      "learning_rate": 4.022464255261956e-06,
+      "loss": 1.0739,
+      "step": 160
+    },
+    {
+      "epoch": 0.6598360655737705,
+      "grad_norm": 0.38495829701423645,
+      "learning_rate": 4.008974385678412e-06,
+      "loss": 0.9311,
+      "step": 161
+    },
+    {
+      "epoch": 0.6639344262295082,
+      "grad_norm": 0.41135096549987793,
+      "learning_rate": 3.995415042789034e-06,
+      "loss": 0.9564,
+      "step": 162
+    },
+    {
+      "epoch": 0.6680327868852459,
+      "grad_norm": 0.37345942854881287,
+      "learning_rate": 3.9817868508670925e-06,
+      "loss": 0.9599,
+      "step": 163
+    },
+    {
+      "epoch": 0.6721311475409836,
+      "grad_norm": 0.40914052724838257,
+      "learning_rate": 3.9680904373556735e-06,
+      "loss": 1.075,
+      "step": 164
+    },
+    {
+      "epoch": 0.6762295081967213,
+      "grad_norm": 0.4219646453857422,
+      "learning_rate": 3.954326432838792e-06,
+      "loss": 0.9285,
+      "step": 165
+    },
+    {
+      "epoch": 0.680327868852459,
+      "grad_norm": 0.4729180335998535,
+      "learning_rate": 3.940495471012355e-06,
+      "loss": 1.2179,
+      "step": 166
+    },
+    {
+      "epoch": 0.6844262295081968,
+      "grad_norm": 0.45373761653900146,
+      "learning_rate": 3.926598188654993e-06,
+      "loss": 1.2178,
+      "step": 167
+    },
+    {
+      "epoch": 0.6885245901639344,
+      "grad_norm": 0.37693753838539124,
+      "learning_rate": 3.912635225598739e-06,
+      "loss": 0.923,
+      "step": 168
+    },
+    {
+      "epoch": 0.6926229508196722,
+      "grad_norm": 0.42904287576675415,
+      "learning_rate": 3.898607224699568e-06,
+      "loss": 1.0734,
+      "step": 169
+    },
+    {
+      "epoch": 0.6967213114754098,
+      "grad_norm": 0.46242570877075195,
+      "learning_rate": 3.884514831807805e-06,
+      "loss": 1.2135,
+      "step": 170
+    },
+    {
+      "epoch": 0.7008196721311475,
+      "grad_norm": 0.4614650309085846,
+      "learning_rate": 3.870358695738389e-06,
+      "loss": 1.217,
+      "step": 171
+    },
+    {
+      "epoch": 0.7049180327868853,
+      "grad_norm": 0.4565180540084839,
+      "learning_rate": 3.856139468240996e-06,
+      "loss": 1.2224,
+      "step": 172
+    },
+    {
+      "epoch": 0.7090163934426229,
+      "grad_norm": 0.44657179713249207,
+      "learning_rate": 3.841857803970039e-06,
+      "loss": 1.2107,
+      "step": 173
+    },
+    {
+      "epoch": 0.7131147540983607,
+      "grad_norm": 0.4340556859970093,
+      "learning_rate": 3.827514360454529e-06,
+      "loss": 1.0799,
+      "step": 174
+    },
+    {
+      "epoch": 0.7172131147540983,
+      "grad_norm": 0.4708877205848694,
+      "learning_rate": 3.813109798067789e-06,
+      "loss": 1.2046,
+      "step": 175
+    },
+    {
+      "epoch": 0.7213114754098361,
+      "grad_norm": 0.441154420375824,
+      "learning_rate": 3.79864477999707e-06,
+      "loss": 1.097,
+      "step": 176
+    },
+    {
+      "epoch": 0.7254098360655737,
+      "grad_norm": 0.4938986599445343,
+      "learning_rate": 3.7841199722130016e-06,
+      "loss": 1.0759,
+      "step": 177
+    },
+    {
+      "epoch": 0.7295081967213115,
+      "grad_norm": 0.3727339506149292,
+      "learning_rate": 3.7695360434389385e-06,
+      "loss": 0.946,
+      "step": 178
+    },
+    {
+      "epoch": 0.7336065573770492,
+      "grad_norm": 0.4473823010921478,
+      "learning_rate": 3.754893665120171e-06,
+      "loss": 1.0656,
+      "step": 179
+    },
+    {
+      "epoch": 0.7377049180327869,
+      "grad_norm": 0.4689042866230011,
+      "learning_rate": 3.7401935113930115e-06,
+      "loss": 1.0684,
+      "step": 180
+    },
+    {
+      "epoch": 0.7418032786885246,
+      "grad_norm": 0.40667393803596497,
+      "learning_rate": 3.7254362590537555e-06,
+      "loss": 1.0817,
+      "step": 181
+    },
+    {
+      "epoch": 0.7459016393442623,
+      "grad_norm": 0.44492149353027344,
+      "learning_rate": 3.7106225875275257e-06,
+      "loss": 1.076,
+      "step": 182
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.438416063785553,
+      "learning_rate": 3.695753178836986e-06,
+      "loss": 1.2181,
+      "step": 183
+    },
+    {
+      "epoch": 0.7540983606557377,
+      "grad_norm": 0.4017588794231415,
+      "learning_rate": 3.680828717570946e-06,
+      "loss": 1.0667,
+      "step": 184
+    },
+    {
+      "epoch": 0.7581967213114754,
+      "grad_norm": 0.42772918939590454,
+      "learning_rate": 3.6658498908528394e-06,
+      "loss": 1.2133,
+      "step": 185
+    },
+    {
+      "epoch": 0.7622950819672131,
+      "grad_norm": 0.4016564190387726,
+      "learning_rate": 3.6508173883090915e-06,
+      "loss": 1.0724,
+      "step": 186
+    },
+    {
+      "epoch": 0.7663934426229508,
+      "grad_norm": 0.4046074151992798,
+      "learning_rate": 3.635731902037364e-06,
+      "loss": 1.0711,
+      "step": 187
+    },
+    {
+      "epoch": 0.7704918032786885,
+      "grad_norm": 0.42936643958091736,
+      "learning_rate": 3.6205941265746976e-06,
+      "loss": 1.0584,
+      "step": 188
+    },
+    {
+      "epoch": 0.7745901639344263,
+      "grad_norm": 0.4360021650791168,
+      "learning_rate": 3.6054047588655287e-06,
+      "loss": 1.2024,
+      "step": 189
+    },
+    {
+      "epoch": 0.7786885245901639,
+      "grad_norm": 0.3777562379837036,
+      "learning_rate": 3.5901644982296058e-06,
+      "loss": 0.9291,
+      "step": 190
+    },
+    {
+      "epoch": 0.7827868852459017,
+      "grad_norm": 0.4032043218612671,
+      "learning_rate": 3.5748740463297926e-06,
+      "loss": 1.1005,
+      "step": 191
+    },
+    {
+      "epoch": 0.7868852459016393,
+      "grad_norm": 0.4494157135486603,
+      "learning_rate": 3.5595341071397627e-06,
+      "loss": 1.2113,
+      "step": 192
+    },
+    {
+      "epoch": 0.7909836065573771,
+      "grad_norm": 0.4484882652759552,
+      "learning_rate": 3.5441453869115885e-06,
+      "loss": 1.2219,
+      "step": 193
+    },
+    {
+      "epoch": 0.7950819672131147,
+      "grad_norm": 0.39648738503456116,
+      "learning_rate": 3.5287085941432246e-06,
+      "loss": 1.0656,
+      "step": 194
+    },
+    {
+      "epoch": 0.7991803278688525,
+      "grad_norm": 0.4165459871292114,
+      "learning_rate": 3.51322443954589e-06,
+      "loss": 1.2178,
+      "step": 195
+    },
+    {
+      "epoch": 0.8032786885245902,
+      "grad_norm": 0.40044641494750977,
+      "learning_rate": 3.4976936360113475e-06,
+      "loss": 1.0698,
+      "step": 196
+    },
+    {
+      "epoch": 0.8073770491803278,
+      "grad_norm": 0.40902015566825867,
+      "learning_rate": 3.4821168985790776e-06,
+      "loss": 1.0673,
+      "step": 197
+    },
+    {
+      "epoch": 0.8114754098360656,
+      "grad_norm": 0.4534085690975189,
+      "learning_rate": 3.4664949444033648e-06,
+      "loss": 1.0669,
+      "step": 198
+    },
+    {
+      "epoch": 0.8155737704918032,
+      "grad_norm": 0.4562125504016876,
+      "learning_rate": 3.4508284927202733e-06,
+      "loss": 1.2094,
+      "step": 199
+    },
+    {
+      "epoch": 0.819672131147541,
+      "grad_norm": 0.3738682270050049,
+      "learning_rate": 3.4351182648145388e-06,
+      "loss": 0.9329,
+      "step": 200
+    },
+    {
+      "epoch": 0.8237704918032787,
+      "grad_norm": 0.37695175409317017,
+      "learning_rate": 3.4193649839863563e-06,
+      "loss": 0.9267,
+      "step": 201
+    },
+    {
+      "epoch": 0.8278688524590164,
+      "grad_norm": 0.43658244609832764,
+      "learning_rate": 3.4035693755180817e-06,
+      "loss": 1.2137,
+      "step": 202
+    },
+    {
+      "epoch": 0.8319672131147541,
+      "grad_norm": 0.4023456573486328,
+      "learning_rate": 3.387732166640837e-06,
+      "loss": 1.0668,
+      "step": 203
+    },
+    {
+      "epoch": 0.8360655737704918,
+      "grad_norm": 0.39854827523231506,
+      "learning_rate": 3.3718540865010348e-06,
+      "loss": 1.0573,
+      "step": 204
+    },
+    {
+      "epoch": 0.8401639344262295,
+      "grad_norm": 0.43412265181541443,
+      "learning_rate": 3.355935866126798e-06,
+      "loss": 1.2174,
+      "step": 205
+    },
+    {
+      "epoch": 0.8442622950819673,
+      "grad_norm": 0.4094075858592987,
+      "learning_rate": 3.3399782383943153e-06,
+      "loss": 1.0851,
+      "step": 206
+    },
+    {
+      "epoch": 0.8483606557377049,
+      "grad_norm": 0.35956600308418274,
+      "learning_rate": 3.3239819379940896e-06,
+      "loss": 0.9296,
+      "step": 207
+    },
+    {
+      "epoch": 0.8524590163934426,
+      "grad_norm": 0.4750164747238159,
+      "learning_rate": 3.3079477013971173e-06,
+      "loss": 1.2161,
+      "step": 208
+    },
+    {
+      "epoch": 0.8565573770491803,
+      "grad_norm": 0.4241454601287842,
+      "learning_rate": 3.2918762668209815e-06,
+      "loss": 1.2151,
+      "step": 209
+    },
+    {
+      "epoch": 0.860655737704918,
+      "grad_norm": 0.39696815609931946,
+      "learning_rate": 3.275768374195862e-06,
+      "loss": 1.0917,
+      "step": 210
+    },
+    {
+      "epoch": 0.8647540983606558,
+      "grad_norm": 0.43563538789749146,
+      "learning_rate": 3.2596247651304715e-06,
+      "loss": 1.2044,
+      "step": 211
+    },
+    {
+      "epoch": 0.8688524590163934,
+      "grad_norm": 0.4409486949443817,
+      "learning_rate": 3.2434461828779096e-06,
+      "loss": 1.0891,
+      "step": 212
+    },
+    {
+      "epoch": 0.8729508196721312,
+      "grad_norm": 0.41782939434051514,
+      "learning_rate": 3.227233372301444e-06,
+      "loss": 1.0679,
+      "step": 213
+    },
+    {
+      "epoch": 0.8770491803278688,
+      "grad_norm": 0.4401546120643616,
+      "learning_rate": 3.2109870798402186e-06,
+      "loss": 1.0658,
+      "step": 214
+    },
+    {
+      "epoch": 0.8811475409836066,
+      "grad_norm": 0.38349413871765137,
+      "learning_rate": 3.194708053474885e-06,
+      "loss": 0.9233,
+      "step": 215
+    },
+    {
+      "epoch": 0.8852459016393442,
+      "grad_norm": 0.42847752571105957,
+      "learning_rate": 3.1783970426931686e-06,
+      "loss": 1.0621,
+      "step": 216
+    },
+    {
+      "epoch": 0.889344262295082,
+      "grad_norm": 0.45880404114723206,
+      "learning_rate": 3.1620547984553563e-06,
+      "loss": 1.2074,
+      "step": 217
+    },
+    {
+      "epoch": 0.8934426229508197,
+      "grad_norm": 0.4133684039115906,
+      "learning_rate": 3.1456820731597283e-06,
+      "loss": 1.0612,
+      "step": 218
+    },
+    {
+      "epoch": 0.8975409836065574,
+      "grad_norm": 0.4100908637046814,
+      "learning_rate": 3.129279620607915e-06,
+      "loss": 1.0776,
+      "step": 219
+    },
+    {
+      "epoch": 0.9016393442622951,
+      "grad_norm": 0.3937971293926239,
+      "learning_rate": 3.1128481959701916e-06,
+      "loss": 1.0704,
+      "step": 220
+    },
+    {
+      "epoch": 0.9057377049180327,
+      "grad_norm": 0.3965698778629303,
+      "learning_rate": 3.096388555750711e-06,
+      "loss": 1.0668,
+      "step": 221
+    },
+    {
+      "epoch": 0.9098360655737705,
+      "grad_norm": 0.43988457322120667,
+      "learning_rate": 3.0799014577526735e-06,
+      "loss": 1.2049,
+      "step": 222
+    },
+    {
+      "epoch": 0.9139344262295082,
+      "grad_norm": 0.41929975152015686,
+      "learning_rate": 3.063387661043438e-06,
+      "loss": 1.0698,
+      "step": 223
+    },
+    {
+      "epoch": 0.9180327868852459,
+      "grad_norm": 0.40265992283821106,
+      "learning_rate": 3.0468479259195753e-06,
+      "loss": 1.0637,
+      "step": 224
+    },
+    {
+      "epoch": 0.9221311475409836,
+      "grad_norm": 0.26293089985847473,
+      "learning_rate": 3.0302830138718605e-06,
+      "loss": 0.5109,
+      "step": 225
+    },
+    {
+      "epoch": 0.9262295081967213,
+      "grad_norm": 0.447826623916626,
+      "learning_rate": 3.0136936875502175e-06,
+      "loss": 1.2053,
+      "step": 226
+    },
+    {
+      "epoch": 0.930327868852459,
+      "grad_norm": 0.34088265895843506,
+      "learning_rate": 2.9970807107286078e-06,
+      "loss": 0.7954,
+      "step": 227
+    },
+    {
+      "epoch": 0.9344262295081968,
+      "grad_norm": 0.4665830135345459,
+      "learning_rate": 2.9804448482698595e-06,
+      "loss": 1.1965,
+      "step": 228
+    },
+    {
+      "epoch": 0.9385245901639344,
+      "grad_norm": 0.40730252861976624,
+      "learning_rate": 2.9637868660904613e-06,
+      "loss": 1.0724,
+      "step": 229
+    },
+    {
+      "epoch": 0.9426229508196722,
+      "grad_norm": 0.4207199513912201,
+      "learning_rate": 2.947107531125292e-06,
+      "loss": 1.206,
+      "step": 230
+    },
+    {
+      "epoch": 0.9467213114754098,
+      "grad_norm": 0.4388861358165741,
+      "learning_rate": 2.9304076112923175e-06,
+      "loss": 1.2049,
+      "step": 231
+    },
+    {
+      "epoch": 0.9508196721311475,
+      "grad_norm": 0.4255218505859375,
+      "learning_rate": 2.9136878754572317e-06,
+      "loss": 1.2082,
+      "step": 232
+    },
+    {
+      "epoch": 0.9549180327868853,
+      "grad_norm": 0.44706571102142334,
+      "learning_rate": 2.896949093398059e-06,
+      "loss": 1.2174,
+      "step": 233
+    },
+    {
+      "epoch": 0.9590163934426229,
+      "grad_norm": 0.41166871786117554,
+      "learning_rate": 2.8801920357697132e-06,
+      "loss": 1.065,
+      "step": 234
+    },
+    {
+      "epoch": 0.9631147540983607,
+      "grad_norm": 0.44747135043144226,
+      "learning_rate": 2.8634174740685165e-06,
+      "loss": 1.1934,
+      "step": 235
+    },
+    {
+      "epoch": 0.9672131147540983,
+      "grad_norm": 0.3774076998233795,
+      "learning_rate": 2.8466261805966797e-06,
+      "loss": 1.0797,
+      "step": 236
+    },
+    {
+      "epoch": 0.9713114754098361,
+      "grad_norm": 0.41140979528427124,
+      "learning_rate": 2.8298189284267492e-06,
+      "loss": 1.0864,
+      "step": 237
+    },
+    {
+      "epoch": 0.9754098360655737,
+      "grad_norm": 0.35885345935821533,
+      "learning_rate": 2.8129964913660056e-06,
+      "loss": 0.9309,
+      "step": 238
+    },
+    {
+      "epoch": 0.9795081967213115,
+      "grad_norm": 0.432704895734787,
+      "learning_rate": 2.796159643920847e-06,
+      "loss": 1.2116,
+      "step": 239
+    },
+    {
+      "epoch": 0.9836065573770492,
+      "grad_norm": 0.45642974972724915,
+      "learning_rate": 2.7793091612611266e-06,
+      "loss": 1.2094,
+      "step": 240
+    },
+    {
+      "epoch": 0.9877049180327869,
+      "grad_norm": 0.38285255432128906,
+      "learning_rate": 2.762445819184463e-06,
+      "loss": 0.9787,
+      "step": 241
+    },
+    {
+      "epoch": 0.9918032786885246,
+      "grad_norm": 0.37903809547424316,
+      "learning_rate": 2.7455703940805228e-06,
+      "loss": 1.0501,
+      "step": 242
+    },
+    {
+      "epoch": 0.9959016393442623,
+      "grad_norm": 0.384909451007843,
+      "learning_rate": 2.7286836628952775e-06,
+      "loss": 0.9503,
+      "step": 243
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.4128957986831665,
+      "learning_rate": 2.7117864030952306e-06,
+      "loss": 1.0755,
+      "step": 244
+    },
+    {
+      "epoch": 1.0040983606557377,
+      "grad_norm": 0.4136478900909424,
+      "learning_rate": 2.694879392631625e-06,
+      "loss": 1.1887,
+      "step": 245
+    },
+    {
+      "epoch": 1.0081967213114753,
+      "grad_norm": 0.40925952792167664,
+      "learning_rate": 2.677963409904624e-06,
+      "loss": 1.2011,
+      "step": 246
+    },
+    {
+      "epoch": 1.0122950819672132,
+      "grad_norm": 0.3444474935531616,
+      "learning_rate": 2.6610392337274754e-06,
+      "loss": 0.9242,
+      "step": 247
+    },
+    {
+      "epoch": 1.0163934426229508,
+      "grad_norm": 0.4211072027683258,
+      "learning_rate": 2.644107643290653e-06,
+      "loss": 1.1924,
+      "step": 248
+    },
+    {
+      "epoch": 1.0204918032786885,
+      "grad_norm": 0.3850081264972687,
+      "learning_rate": 2.6271694181259854e-06,
+      "loss": 1.052,
+      "step": 249
+    },
+    {
+      "epoch": 1.0245901639344261,
+      "grad_norm": 0.36681899428367615,
+      "learning_rate": 2.6102253380707626e-06,
+      "loss": 0.92,
+      "step": 250
+    },
+    {
+      "epoch": 1.028688524590164,
+      "grad_norm": 0.4259503185749054,
+      "learning_rate": 2.5932761832318354e-06,
+      "loss": 1.191,
+      "step": 251
+    },
+    {
+      "epoch": 1.0327868852459017,
+      "grad_norm": 0.31239956617355347,
+      "learning_rate": 2.5763227339496984e-06,
+      "loss": 0.7821,
+      "step": 252
+    },
+    {
+      "epoch": 1.0368852459016393,
+      "grad_norm": 0.3516213893890381,
+      "learning_rate": 2.5593657707625615e-06,
+      "loss": 0.9113,
+      "step": 253
+    },
+    {
+      "epoch": 1.040983606557377,
+      "grad_norm": 0.4148314595222473,
+      "learning_rate": 2.5424060743704158e-06,
+      "loss": 1.1931,
+      "step": 254
+    },
+    {
+      "epoch": 1.0450819672131149,
+      "grad_norm": 0.39430367946624756,
+      "learning_rate": 2.5254444255990917e-06,
+      "loss": 1.1854,
+      "step": 255
+    },
+    {
+      "epoch": 1.0491803278688525,
+      "grad_norm": 0.3900966942310333,
+      "learning_rate": 2.508481605364302e-06,
+      "loss": 1.0634,
+      "step": 256
+    },
+    {
+      "epoch": 1.0532786885245902,
+      "grad_norm": 0.37411046028137207,
+      "learning_rate": 2.491518394635699e-06,
+      "loss": 1.0725,
+      "step": 257
+    },
+    {
+      "epoch": 1.0573770491803278,
+      "grad_norm": 0.38089755177497864,
+      "learning_rate": 2.4745555744009096e-06,
+      "loss": 1.0629,
+      "step": 258
+    },
+    {
+      "epoch": 1.0614754098360655,
+      "grad_norm": 0.3890707492828369,
+      "learning_rate": 2.4575939256295846e-06,
+      "loss": 1.0625,
+      "step": 259
+    },
+    {
+      "epoch": 1.0655737704918034,
+      "grad_norm": 0.42204442620277405,
+      "learning_rate": 2.44063422923744e-06,
+      "loss": 1.1861,
+      "step": 260
+    },
+    {
+      "epoch": 1.069672131147541,
+      "grad_norm": 0.36366429924964905,
+      "learning_rate": 2.423677266050303e-06,
+      "loss": 0.9154,
+      "step": 261
+    },
+    {
+      "epoch": 1.0737704918032787,
+      "grad_norm": 0.40688806772232056,
+      "learning_rate": 2.4067238167681655e-06,
+      "loss": 1.1794,
+      "step": 262
+    },
+    {
+      "epoch": 1.0778688524590163,
+      "grad_norm": 0.417047381401062,
+      "learning_rate": 2.389774661929238e-06,
+      "loss": 1.19,
+      "step": 263
+    },
+    {
+      "epoch": 1.0819672131147542,
+      "grad_norm": 0.417417049407959,
+      "learning_rate": 2.3728305818740154e-06,
+      "loss": 1.1934,
+      "step": 264
+    },
+    {
+      "epoch": 1.0860655737704918,
+      "grad_norm": 0.3654896914958954,
+      "learning_rate": 2.355892356709347e-06,
+      "loss": 1.0496,
+      "step": 265
+    },
+    {
+      "epoch": 1.0901639344262295,
+      "grad_norm": 0.4088152050971985,
+      "learning_rate": 2.338960766272526e-06,
+      "loss": 1.1898,
+      "step": 266
+    },
+    {
+      "epoch": 1.0942622950819672,
+      "grad_norm": 0.3819476366043091,
+      "learning_rate": 2.3220365900953767e-06,
+      "loss": 1.0567,
+      "step": 267
+    },
+    {
+      "epoch": 1.098360655737705,
+      "grad_norm": 0.42158523201942444,
+      "learning_rate": 2.3051206073683755e-06,
+      "loss": 1.0636,
+      "step": 268
+    },
+    {
+      "epoch": 1.1024590163934427,
+      "grad_norm": 0.42742791771888733,
+      "learning_rate": 2.2882135969047703e-06,
+      "loss": 1.1936,
+      "step": 269
+    },
+    {
+      "epoch": 1.1065573770491803,
+      "grad_norm": 0.44875332713127136,
+      "learning_rate": 2.2713163371047234e-06,
+      "loss": 1.1967,
+      "step": 270
+    },
+    {
+      "epoch": 1.110655737704918,
+      "grad_norm": 0.4295426309108734,
+      "learning_rate": 2.2544296059194777e-06,
+      "loss": 1.1888,
+      "step": 271
+    },
+    {
+      "epoch": 1.1147540983606556,
+      "grad_norm": 0.3944399058818817,
+      "learning_rate": 2.237554180815538e-06,
+      "loss": 1.0568,
+      "step": 272
+    },
+    {
+      "epoch": 1.1188524590163935,
+      "grad_norm": 0.39292725920677185,
+      "learning_rate": 2.220690838738874e-06,
+      "loss": 1.0688,
+      "step": 273
+    },
+    {
+      "epoch": 1.1229508196721312,
+      "grad_norm": 0.4272754490375519,
+      "learning_rate": 2.203840356079154e-06,
+      "loss": 1.1974,
+      "step": 274
+    },
+    {
+      "epoch": 1.1270491803278688,
+      "grad_norm": 0.4205959737300873,
+      "learning_rate": 2.1870035086339957e-06,
+      "loss": 1.1913,
+      "step": 275
+    },
+    {
+      "epoch": 1.1311475409836065,
+      "grad_norm": 0.3894692361354828,
+      "learning_rate": 2.170181071573252e-06,
+      "loss": 1.0451,
+      "step": 276
+    },
+    {
+      "epoch": 1.1352459016393444,
+      "grad_norm": 0.41992002725601196,
+      "learning_rate": 2.1533738194033207e-06,
+      "loss": 1.0575,
+      "step": 277
+    },
+    {
+      "epoch": 1.139344262295082,
+      "grad_norm": 0.3990057408809662,
+      "learning_rate": 2.1365825259314843e-06,
+      "loss": 1.0577,
+      "step": 278
+    },
+    {
+      "epoch": 1.1434426229508197,
+      "grad_norm": 0.3570830523967743,
+      "learning_rate": 2.119807964230287e-06,
+      "loss": 0.9146,
+      "step": 279
+    },
+    {
+      "epoch": 1.1475409836065573,
+      "grad_norm": 0.38071316480636597,
+      "learning_rate": 2.1030509066019412e-06,
+      "loss": 1.054,
+      "step": 280
+    },
+    {
+      "epoch": 1.151639344262295,
+      "grad_norm": 0.35822221636772156,
+      "learning_rate": 2.0863121245427683e-06,
+      "loss": 0.9101,
+      "step": 281
+    },
+    {
+      "epoch": 1.1557377049180328,
+      "grad_norm": 0.38994014263153076,
+      "learning_rate": 2.0695923887076824e-06,
+      "loss": 1.0592,
+      "step": 282
+    },
+    {
+      "epoch": 1.1598360655737705,
+      "grad_norm": 0.4252474904060364,
+      "learning_rate": 2.0528924688747094e-06,
+      "loss": 1.1895,
+      "step": 283
+    },
+    {
+      "epoch": 1.1639344262295082,
+      "grad_norm": 0.40283524990081787,
+      "learning_rate": 2.0362131339095404e-06,
+      "loss": 1.1983,
+      "step": 284
+    },
+    {
+      "epoch": 1.1680327868852458,
+      "grad_norm": 0.3897688686847687,
+      "learning_rate": 2.0195551517301413e-06,
+      "loss": 1.0507,
+      "step": 285
+    },
+    {
+      "epoch": 1.1721311475409837,
+      "grad_norm": 0.4026731848716736,
+      "learning_rate": 2.0029192892713926e-06,
+      "loss": 1.0473,
+      "step": 286
+    },
+    {
+      "epoch": 1.1762295081967213,
+      "grad_norm": 0.36450186371803284,
+      "learning_rate": 1.986306312449783e-06,
+      "loss": 0.9175,
+      "step": 287
+    },
+    {
+      "epoch": 1.180327868852459,
+      "grad_norm": 0.4068233072757721,
+      "learning_rate": 1.9697169861281404e-06,
+      "loss": 1.0451,
+      "step": 288
+    },
+    {
+      "epoch": 1.1844262295081966,
+      "grad_norm": 0.4182148873806,
+      "learning_rate": 1.953152074080425e-06,
+      "loss": 1.061,
+      "step": 289
+    },
+    {
+      "epoch": 1.1885245901639343,
+      "grad_norm": 0.45543500781059265,
+      "learning_rate": 1.936612338956562e-06,
+      "loss": 1.1804,
+      "step": 290
+    },
+    {
+      "epoch": 1.1926229508196722,
+      "grad_norm": 0.3845888674259186,
+      "learning_rate": 1.9200985422473265e-06,
+      "loss": 1.0704,
+      "step": 291
+    },
+    {
+      "epoch": 1.1967213114754098,
+      "grad_norm": 0.3593854606151581,
+      "learning_rate": 1.9036114442492901e-06,
+      "loss": 0.9752,
+      "step": 292
+    },
+    {
+      "epoch": 1.2008196721311475,
+      "grad_norm": 0.35712385177612305,
+      "learning_rate": 1.8871518040298092e-06,
+      "loss": 0.9091,
+      "step": 293
+    },
+    {
+      "epoch": 1.2049180327868854,
+      "grad_norm": 0.3920156955718994,
+      "learning_rate": 1.870720379392086e-06,
+      "loss": 1.0643,
+      "step": 294
+    },
+    {
+      "epoch": 1.209016393442623,
+      "grad_norm": 0.3904518485069275,
+      "learning_rate": 1.8543179268402728e-06,
+      "loss": 1.0474,
+      "step": 295
+    },
+    {
+      "epoch": 1.2131147540983607,
+      "grad_norm": 0.3518437147140503,
+      "learning_rate": 1.8379452015446445e-06,
+      "loss": 0.9428,
+      "step": 296
+    },
+    {
+      "epoch": 1.2172131147540983,
+      "grad_norm": 0.40187716484069824,
+      "learning_rate": 1.8216029573068316e-06,
+      "loss": 1.186,
+      "step": 297
+    },
+    {
+      "epoch": 1.221311475409836,
+      "grad_norm": 0.420866459608078,
+      "learning_rate": 1.8052919465251146e-06,
+      "loss": 1.1936,
+      "step": 298
+    },
+    {
+      "epoch": 1.2254098360655739,
+      "grad_norm": 0.4169630706310272,
+      "learning_rate": 1.7890129201597818e-06,
+      "loss": 1.204,
+      "step": 299
+    },
+    {
+      "epoch": 1.2295081967213115,
+      "grad_norm": 0.3857581913471222,
+      "learning_rate": 1.772766627698556e-06,
+      "loss": 1.0698,
+      "step": 300
+    },
+    {
+      "epoch": 1.2336065573770492,
+      "grad_norm": 0.3789856731891632,
+      "learning_rate": 1.7565538171220919e-06,
+      "loss": 1.0557,
+      "step": 301
+    },
+    {
+      "epoch": 1.2377049180327868,
+      "grad_norm": 0.38153553009033203,
+      "learning_rate": 1.7403752348695296e-06,
+      "loss": 1.0574,
+      "step": 302
+    },
+    {
+      "epoch": 1.2418032786885247,
+      "grad_norm": 0.34474989771842957,
+      "learning_rate": 1.7242316258041392e-06,
+      "loss": 0.7975,
+      "step": 303
+    },
+    {
+      "epoch": 1.2459016393442623,
+      "grad_norm": 0.3958248496055603,
+      "learning_rate": 1.7081237331790196e-06,
+      "loss": 1.1785,
+      "step": 304
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.41348475217819214,
+      "learning_rate": 1.6920522986028832e-06,
+      "loss": 1.1993,
+      "step": 305
+    },
+    {
+      "epoch": 1.2540983606557377,
+      "grad_norm": 0.40045955777168274,
+      "learning_rate": 1.6760180620059108e-06,
+      "loss": 1.1961,
+      "step": 306
+    },
+    {
+      "epoch": 1.2581967213114753,
+      "grad_norm": 0.38317596912384033,
+      "learning_rate": 1.6600217616056847e-06,
+      "loss": 1.058,
+      "step": 307
+    },
+    {
+      "epoch": 1.2622950819672132,
+      "grad_norm": 0.40226680040359497,
+      "learning_rate": 1.6440641338732017e-06,
+      "loss": 1.1906,
+      "step": 308
+    },
+    {
+      "epoch": 1.2663934426229508,
+      "grad_norm": 0.35721513628959656,
+      "learning_rate": 1.6281459134989667e-06,
+      "loss": 1.0539,
+      "step": 309
+    },
+    {
+      "epoch": 1.2704918032786885,
+      "grad_norm": 0.4084949493408203,
+      "learning_rate": 1.6122678333591635e-06,
+      "loss": 1.1968,
+      "step": 310
+    },
+    {
+      "epoch": 1.2745901639344264,
+      "grad_norm": 0.4332444369792938,
+      "learning_rate": 1.59643062448192e-06,
+      "loss": 1.1811,
+      "step": 311
+    },
+    {
+      "epoch": 1.278688524590164,
+      "grad_norm": 0.39750587940216064,
+      "learning_rate": 1.5806350160136446e-06,
+      "loss": 1.1941,
+      "step": 312
+    },
+    {
+      "epoch": 1.2827868852459017,
+      "grad_norm": 0.4312925338745117,
+      "learning_rate": 1.564881735185462e-06,
+      "loss": 1.2058,
+      "step": 313
+    },
+    {
+      "epoch": 1.2868852459016393,
+      "grad_norm": 0.36609697341918945,
+      "learning_rate": 1.5491715072797273e-06,
+      "loss": 1.0492,
+      "step": 314
+    },
+    {
+      "epoch": 1.290983606557377,
+      "grad_norm": 0.37650904059410095,
+      "learning_rate": 1.533505055596636e-06,
+      "loss": 1.0519,
+      "step": 315
+    },
+    {
+      "epoch": 1.2950819672131146,
+      "grad_norm": 0.3837479054927826,
+      "learning_rate": 1.5178831014209228e-06,
+      "loss": 1.198,
+      "step": 316
+    },
+    {
+      "epoch": 1.2991803278688525,
+      "grad_norm": 0.36572346091270447,
+      "learning_rate": 1.5023063639886534e-06,
+      "loss": 0.9298,
+      "step": 317
+    },
+    {
+      "epoch": 1.3032786885245902,
+      "grad_norm": 0.41345280408859253,
+      "learning_rate": 1.4867755604541106e-06,
+      "loss": 1.1867,
+      "step": 318
+    },
+    {
+      "epoch": 1.3073770491803278,
+      "grad_norm": 0.3215678334236145,
+      "learning_rate": 1.4712914058567764e-06,
+      "loss": 0.793,
+      "step": 319
+    },
+    {
+      "epoch": 1.3114754098360657,
+      "grad_norm": 0.383251816034317,
+      "learning_rate": 1.4558546130884124e-06,
+      "loss": 0.9365,
+      "step": 320
+    },
+    {
+      "epoch": 1.3155737704918034,
+      "grad_norm": 0.3637905716896057,
+      "learning_rate": 1.440465892860237e-06,
+      "loss": 0.9107,
+      "step": 321
+    },
+    {
+      "epoch": 1.319672131147541,
+      "grad_norm": 0.4390401542186737,
+      "learning_rate": 1.4251259536702078e-06,
+      "loss": 1.1866,
+      "step": 322
+    },
+    {
+      "epoch": 1.3237704918032787,
+      "grad_norm": 0.41249939799308777,
+      "learning_rate": 1.4098355017703953e-06,
+      "loss": 1.1923,
+      "step": 323
+    },
+    {
+      "epoch": 1.3278688524590163,
+      "grad_norm": 0.37959370017051697,
+      "learning_rate": 1.3945952411344721e-06,
+      "loss": 1.0448,
+      "step": 324
+    },
+    {
+      "epoch": 1.331967213114754,
+      "grad_norm": 0.39375776052474976,
+      "learning_rate": 1.3794058734253032e-06,
+      "loss": 1.1925,
+      "step": 325
+    },
+    {
+      "epoch": 1.3360655737704918,
+      "grad_norm": 0.3478122353553772,
+      "learning_rate": 1.3642680979626358e-06,
+      "loss": 0.7892,
+      "step": 326
+    },
+    {
+      "epoch": 1.3401639344262295,
+      "grad_norm": 0.3544688820838928,
+      "learning_rate": 1.3491826116909102e-06,
+      "loss": 0.9089,
+      "step": 327
+    },
+    {
+      "epoch": 1.3442622950819672,
+      "grad_norm": 0.40030068159103394,
+      "learning_rate": 1.334150109147161e-06,
+      "loss": 1.189,
+      "step": 328
+    },
+    {
+      "epoch": 1.348360655737705,
+      "grad_norm": 0.367484450340271,
+      "learning_rate": 1.319171282429055e-06,
+      "loss": 1.0548,
+      "step": 329
+    },
+    {
+      "epoch": 1.3524590163934427,
+      "grad_norm": 0.4142979085445404,
+      "learning_rate": 1.3042468211630151e-06,
+      "loss": 1.0805,
+      "step": 330
+    },
+    {
+      "epoch": 1.3565573770491803,
+      "grad_norm": 0.38454100489616394,
+      "learning_rate": 1.289377412472475e-06,
+      "loss": 1.0574,
+      "step": 331
+    },
+    {
+      "epoch": 1.360655737704918,
+      "grad_norm": 0.3808493912220001,
+      "learning_rate": 1.2745637409462447e-06,
+      "loss": 1.0552,
+      "step": 332
+    },
+    {
+      "epoch": 1.3647540983606556,
+      "grad_norm": 0.42550456523895264,
+      "learning_rate": 1.2598064886069883e-06,
+      "loss": 1.1951,
+      "step": 333
+    },
+    {
+      "epoch": 1.3688524590163935,
+      "grad_norm": 0.4005252420902252,
+      "learning_rate": 1.245106334879829e-06,
+      "loss": 1.1944,
+      "step": 334
+    },
+    {
+      "epoch": 1.3729508196721312,
+      "grad_norm": 0.34700438380241394,
+      "learning_rate": 1.2304639565610622e-06,
+      "loss": 1.0493,
+      "step": 335
+    },
+    {
+      "epoch": 1.3770491803278688,
+      "grad_norm": 0.3509901762008667,
+      "learning_rate": 1.2158800277869999e-06,
+      "loss": 0.9181,
+      "step": 336
+    },
+    {
+      "epoch": 1.3811475409836065,
+      "grad_norm": 0.3999477028846741,
+      "learning_rate": 1.2013552200029308e-06,
+      "loss": 1.0573,
+      "step": 337
+    },
+    {
+      "epoch": 1.3852459016393444,
+      "grad_norm": 0.37565454840660095,
+      "learning_rate": 1.1868902019322118e-06,
+      "loss": 1.0646,
+      "step": 338
+    },
+    {
+      "epoch": 1.389344262295082,
+      "grad_norm": 0.3885054886341095,
+      "learning_rate": 1.1724856395454732e-06,
+      "loss": 1.0544,
+      "step": 339
+    },
+    {
+      "epoch": 1.3934426229508197,
+      "grad_norm": 0.3447207808494568,
+      "learning_rate": 1.1581421960299606e-06,
+      "loss": 0.9274,
+      "step": 340
+    },
+    {
+      "epoch": 1.3975409836065573,
+      "grad_norm": 0.36152341961860657,
+      "learning_rate": 1.1438605317590049e-06,
+      "loss": 1.0528,
+      "step": 341
+    },
+    {
+      "epoch": 1.401639344262295,
+      "grad_norm": 0.35875821113586426,
+      "learning_rate": 1.1296413042616115e-06,
+      "loss": 1.0553,
+      "step": 342
+    },
+    {
+      "epoch": 1.4057377049180328,
+      "grad_norm": 0.37769293785095215,
+      "learning_rate": 1.1154851681921947e-06,
+      "loss": 1.0572,
+      "step": 343
+    },
+    {
+      "epoch": 1.4098360655737705,
+      "grad_norm": 0.40368834137916565,
+      "learning_rate": 1.1013927753004325e-06,
+      "loss": 1.1903,
+      "step": 344
+    },
+    {
+      "epoch": 1.4139344262295082,
+      "grad_norm": 0.3823951780796051,
+      "learning_rate": 1.087364774401262e-06,
+      "loss": 1.0474,
+      "step": 345
+    },
+    {
+      "epoch": 1.418032786885246,
+      "grad_norm": 0.40228381752967834,
+      "learning_rate": 1.0734018113450076e-06,
+      "loss": 1.0517,
+      "step": 346
+    },
+    {
+      "epoch": 1.4221311475409837,
+      "grad_norm": 0.3563799262046814,
+      "learning_rate": 1.0595045289876454e-06,
+      "loss": 1.0616,
+      "step": 347
+    },
+    {
+      "epoch": 1.4262295081967213,
+      "grad_norm": 0.3526061475276947,
+      "learning_rate": 1.0456735671612092e-06,
+      "loss": 0.911,
+      "step": 348
+    },
+    {
+      "epoch": 1.430327868852459,
+      "grad_norm": 0.39378660917282104,
+      "learning_rate": 1.0319095626443263e-06,
+      "loss": 1.1888,
+      "step": 349
+    },
+    {
+      "epoch": 1.4344262295081966,
+      "grad_norm": 0.3753567934036255,
+      "learning_rate": 1.0182131491329077e-06,
+      "loss": 1.0633,
+      "step": 350
+    },
+    {
+      "epoch": 1.4385245901639343,
+      "grad_norm": 0.40904322266578674,
+      "learning_rate": 1.004584957210967e-06,
+      "loss": 1.1776,
+      "step": 351
+    },
+    {
+      "epoch": 1.4426229508196722,
+      "grad_norm": 0.4176303744316101,
+      "learning_rate": 9.910256143215882e-07,
+      "loss": 1.1925,
+      "step": 352
+    },
+    {
+      "epoch": 1.4467213114754098,
+      "grad_norm": 0.3339522182941437,
+      "learning_rate": 9.775357447380457e-07,
+      "loss": 0.9168,
+      "step": 353
+    },
+    {
+      "epoch": 1.4508196721311475,
+      "grad_norm": 0.3459610044956207,
+      "learning_rate": 9.6411596953505e-07,
+      "loss": 0.9125,
+      "step": 354
+    },
+    {
+      "epoch": 1.4549180327868854,
+      "grad_norm": 0.364564448595047,
+      "learning_rate": 9.507669065601663e-07,
+      "loss": 1.0402,
+      "step": 355
+    },
+    {
+      "epoch": 1.459016393442623,
+      "grad_norm": 0.4287342131137848,
+      "learning_rate": 9.374891704053596e-07,
+      "loss": 1.1834,
+      "step": 356
+    },
+    {
+      "epoch": 1.4631147540983607,
+      "grad_norm": 0.41111865639686584,
+      "learning_rate": 9.242833723787051e-07,
+      "loss": 1.1882,
+      "step": 357
+    },
+    {
+      "epoch": 1.4672131147540983,
+      "grad_norm": 0.3417908549308777,
+      "learning_rate": 9.111501204762368e-07,
+      "loss": 0.9154,
+      "step": 358
+    },
+    {
+      "epoch": 1.471311475409836,
+      "grad_norm": 0.3898267447948456,
+      "learning_rate": 8.980900193539632e-07,
+      "loss": 1.2006,
+      "step": 359
+    },
+    {
+      "epoch": 1.4754098360655736,
+      "grad_norm": 0.3840121924877167,
+      "learning_rate": 8.851036703000223e-07,
+      "loss": 1.1914,
+      "step": 360
+    },
+    {
+      "epoch": 1.4795081967213115,
+      "grad_norm": 0.3572332561016083,
+      "learning_rate": 8.72191671207e-07,
+      "loss": 0.9258,
+      "step": 361
+    },
+    {
+      "epoch": 1.4836065573770492,
+      "grad_norm": 0.4421536922454834,
+      "learning_rate": 8.593546165444078e-07,
+      "loss": 1.189,
+      "step": 362
+    },
+    {
+      "epoch": 1.4877049180327868,
+      "grad_norm": 0.347675621509552,
+      "learning_rate": 8.465930973313033e-07,
+      "loss": 0.9129,
+      "step": 363
+    },
+    {
+      "epoch": 1.4918032786885247,
+      "grad_norm": 0.33754611015319824,
+      "learning_rate": 8.339077011090921e-07,
+      "loss": 0.9226,
+      "step": 364
+    },
+    {
+      "epoch": 1.4959016393442623,
+      "grad_norm": 0.38230884075164795,
+      "learning_rate": 8.212990119144662e-07,
+      "loss": 1.1968,
+      "step": 365
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.4168895483016968,
+      "learning_rate": 8.08767610252523e-07,
+      "loss": 1.195,
+      "step": 366
+    },
+    {
+      "epoch": 1.5040983606557377,
+      "grad_norm": 0.3592976927757263,
+      "learning_rate": 7.963140730700337e-07,
+      "loss": 1.0456,
+      "step": 367
+    },
+    {
+      "epoch": 1.5081967213114753,
+      "grad_norm": 0.3613436818122864,
+      "learning_rate": 7.839389737288816e-07,
+      "loss": 1.0572,
+      "step": 368
+    },
+    {
+      "epoch": 1.512295081967213,
+      "grad_norm": 0.4102155268192291,
+      "learning_rate": 7.716428819796681e-07,
+      "loss": 1.1947,
+      "step": 369
+    },
+    {
+      "epoch": 1.5163934426229508,
+      "grad_norm": 0.4009557366371155,
+      "learning_rate": 7.594263639354757e-07,
+      "loss": 1.1962,
+      "step": 370
+    },
+    {
+      "epoch": 1.5204918032786885,
+      "grad_norm": 0.3762926161289215,
+      "learning_rate": 7.472899820458099e-07,
+      "loss": 1.1895,
+      "step": 371
+    },
+    {
+      "epoch": 1.5245901639344264,
+      "grad_norm": 0.41125839948654175,
+      "learning_rate": 7.352342950706964e-07,
+      "loss": 1.0551,
+      "step": 372
+    },
+    {
+      "epoch": 1.528688524590164,
+      "grad_norm": 0.3519588112831116,
+      "learning_rate": 7.232598580549652e-07,
+      "loss": 1.0373,
+      "step": 373
+    },
+    {
+      "epoch": 1.5327868852459017,
+      "grad_norm": 0.3900514841079712,
+      "learning_rate": 7.113672223026879e-07,
+      "loss": 1.063,
+      "step": 374
+    },
+    {
+      "epoch": 1.5368852459016393,
+      "grad_norm": 0.3782947063446045,
+      "learning_rate": 6.995569353518025e-07,
+      "loss": 1.1996,
+      "step": 375
+    },
+    {
+      "epoch": 1.540983606557377,
+      "grad_norm": 0.3795226216316223,
+      "learning_rate": 6.878295409488986e-07,
+      "loss": 1.0528,
+      "step": 376
+    },
+    {
+      "epoch": 1.5450819672131146,
+      "grad_norm": 0.3658047616481781,
+      "learning_rate": 6.761855790241858e-07,
+      "loss": 1.0476,
+      "step": 377
+    },
+    {
+      "epoch": 1.5491803278688525,
+      "grad_norm": 0.3761068880558014,
+      "learning_rate": 6.646255856666383e-07,
+      "loss": 1.0527,
+      "step": 378
+    },
+    {
+      "epoch": 1.5532786885245902,
+      "grad_norm": 0.4113335907459259,
+      "learning_rate": 6.531500930993081e-07,
+      "loss": 1.0453,
+      "step": 379
+    },
+    {
+      "epoch": 1.5573770491803278,
+      "grad_norm": 0.3439164161682129,
+      "learning_rate": 6.417596296548243e-07,
+      "loss": 1.0552,
+      "step": 380
+    },
+    {
+      "epoch": 1.5614754098360657,
+      "grad_norm": 0.391366183757782,
+      "learning_rate": 6.304547197510677e-07,
+      "loss": 1.1813,
+      "step": 381
+    },
+    {
+      "epoch": 1.5655737704918034,
+      "grad_norm": 0.3553384840488434,
+      "learning_rate": 6.192358838670293e-07,
+      "loss": 1.1861,
+      "step": 382
+    },
+    {
+      "epoch": 1.569672131147541,
+      "grad_norm": 0.3192722201347351,
+      "learning_rate": 6.081036385188424e-07,
+      "loss": 0.7907,
+      "step": 383
+    },
+    {
+      "epoch": 1.5737704918032787,
+      "grad_norm": 0.37627875804901123,
+      "learning_rate": 5.970584962360052e-07,
+      "loss": 1.0505,
+      "step": 384
+    },
+    {
+      "epoch": 1.5778688524590163,
+      "grad_norm": 0.3651406168937683,
+      "learning_rate": 5.861009655377859e-07,
+      "loss": 1.1864,
+      "step": 385
+    },
+    {
+      "epoch": 1.581967213114754,
+      "grad_norm": 0.35879752039909363,
+      "learning_rate": 5.752315509098044e-07,
+      "loss": 1.044,
+      "step": 386
+    },
+    {
+      "epoch": 1.5860655737704918,
+      "grad_norm": 0.40529587864875793,
+      "learning_rate": 5.644507527808135e-07,
+      "loss": 1.1828,
+      "step": 387
+    },
+    {
+      "epoch": 1.5901639344262295,
+      "grad_norm": 0.3214077949523926,
+      "learning_rate": 5.537590674996521e-07,
+      "loss": 0.9237,
+      "step": 388
+    },
+    {
+      "epoch": 1.5942622950819674,
+      "grad_norm": 0.3651806712150574,
+      "learning_rate": 5.431569873123965e-07,
+      "loss": 1.0476,
+      "step": 389
+    },
+    {
+      "epoch": 1.598360655737705,
+      "grad_norm": 0.3352358937263489,
+      "learning_rate": 5.326450003396977e-07,
+      "loss": 0.9129,
+      "step": 390
+    },
+    {
+      "epoch": 1.6024590163934427,
+      "grad_norm": 0.32190605998039246,
+      "learning_rate": 5.222235905543083e-07,
+      "loss": 0.9306,
+      "step": 391
+    },
+    {
+      "epoch": 1.6065573770491803,
+      "grad_norm": 0.38101914525032043,
+      "learning_rate": 5.118932377587984e-07,
+      "loss": 1.1886,
+      "step": 392
+    },
+    {
+      "epoch": 1.610655737704918,
+      "grad_norm": 0.35761508345603943,
+      "learning_rate": 5.016544175634669e-07,
+      "loss": 1.0481,
+      "step": 393
+    },
+    {
+      "epoch": 1.6147540983606556,
+      "grad_norm": 0.39952346682548523,
+      "learning_rate": 4.915076013644454e-07,
+      "loss": 1.1971,
+      "step": 394
+    },
+    {
+      "epoch": 1.6188524590163933,
+      "grad_norm": 0.35433509945869446,
+      "learning_rate": 4.814532563219921e-07,
+      "loss": 1.0526,
+      "step": 395
+    },
+    {
+      "epoch": 1.6229508196721312,
+      "grad_norm": 0.3517802059650421,
+      "learning_rate": 4.714918453389875e-07,
+      "loss": 0.9118,
+      "step": 396
+    },
+    {
+      "epoch": 1.6270491803278688,
+      "grad_norm": 0.34128230810165405,
+      "learning_rate": 4.6162382703961836e-07,
+      "loss": 1.0548,
+      "step": 397
+    },
+    {
+      "epoch": 1.6311475409836067,
+      "grad_norm": 0.38127487897872925,
+      "learning_rate": 4.51849655748266e-07,
+      "loss": 1.1889,
+      "step": 398
+    },
+    {
+      "epoch": 1.6352459016393444,
+      "grad_norm": 0.3676946759223938,
+      "learning_rate": 4.421697814685869e-07,
+      "loss": 1.1909,
+      "step": 399
+    },
+    {
+      "epoch": 1.639344262295082,
+      "grad_norm": 0.3842563033103943,
+      "learning_rate": 4.325846498627945e-07,
+      "loss": 1.1875,
+      "step": 400
+    },
+    {
+      "epoch": 1.6434426229508197,
+      "grad_norm": 0.35198283195495605,
+      "learning_rate": 4.230947022311441e-07,
+      "loss": 1.1767,
+      "step": 401
+    },
+    {
+      "epoch": 1.6475409836065573,
+      "grad_norm": 0.44072988629341125,
+      "learning_rate": 4.137003754916105e-07,
+      "loss": 1.19,
+      "step": 402
+    },
+    {
+      "epoch": 1.651639344262295,
+      "grad_norm": 0.29806357622146606,
+      "learning_rate": 4.044021021597769e-07,
+      "loss": 0.7754,
+      "step": 403
+    },
+    {
+      "epoch": 1.6557377049180326,
+      "grad_norm": 0.3621821105480194,
+      "learning_rate": 3.952003103289179e-07,
+      "loss": 1.1835,
+      "step": 404
+    },
+    {
+      "epoch": 1.6598360655737705,
+      "grad_norm": 0.37856945395469666,
+      "learning_rate": 3.8609542365029146e-07,
+      "loss": 1.0468,
+      "step": 405
+    },
+    {
+      "epoch": 1.6639344262295082,
+      "grad_norm": 0.38100022077560425,
+      "learning_rate": 3.770878613136372e-07,
+      "loss": 1.2007,
+      "step": 406
+    },
+    {
+      "epoch": 1.668032786885246,
+      "grad_norm": 0.3964683413505554,
+      "learning_rate": 3.681780380278696e-07,
+      "loss": 1.193,
+      "step": 407
+    },
+    {
+      "epoch": 1.6721311475409837,
+      "grad_norm": 0.3703697621822357,
+      "learning_rate": 3.5936636400199313e-07,
+      "loss": 1.0487,
+      "step": 408
+    },
+    {
+      "epoch": 1.6762295081967213,
+      "grad_norm": 0.3408863842487335,
+      "learning_rate": 3.506532449262098e-07,
+      "loss": 0.9107,
+      "step": 409
+    },
+    {
+      "epoch": 1.680327868852459,
+      "grad_norm": 0.373950332403183,
+      "learning_rate": 3.4203908195324486e-07,
+      "loss": 1.1991,
+      "step": 410
+    },
+    {
+      "epoch": 1.6844262295081966,
+      "grad_norm": 0.3467581868171692,
+      "learning_rate": 3.3352427167987536e-07,
+      "loss": 1.0514,
+      "step": 411
+    },
+    {
+      "epoch": 1.6885245901639343,
+      "grad_norm": 0.33601921796798706,
+      "learning_rate": 3.2510920612867284e-07,
+      "loss": 0.9061,
+      "step": 412
+    },
+    {
+      "epoch": 1.6926229508196722,
+      "grad_norm": 0.35385650396347046,
+      "learning_rate": 3.1679427272995304e-07,
+      "loss": 1.0447,
+      "step": 413
+    },
+    {
+      "epoch": 1.6967213114754098,
+      "grad_norm": 0.33906129002571106,
+      "learning_rate": 3.0857985430393837e-07,
+      "loss": 1.0326,
+      "step": 414
+    },
+    {
+      "epoch": 1.7008196721311475,
+      "grad_norm": 0.35674095153808594,
+      "learning_rate": 3.004663290431348e-07,
+      "loss": 0.908,
+      "step": 415
+    },
+    {
+      "epoch": 1.7049180327868854,
+      "grad_norm": 0.3373037576675415,
+      "learning_rate": 2.924540704949175e-07,
+      "loss": 1.046,
+      "step": 416
+    },
+    {
+      "epoch": 1.709016393442623,
+      "grad_norm": 0.3760300874710083,
+      "learning_rate": 2.845434475443351e-07,
+      "loss": 1.191,
+      "step": 417
+    },
+    {
+      "epoch": 1.7131147540983607,
+      "grad_norm": 0.352682501077652,
+      "learning_rate": 2.767348243971235e-07,
+      "loss": 1.1804,
+      "step": 418
+    },
+    {
+      "epoch": 1.7172131147540983,
+      "grad_norm": 0.3687870502471924,
+      "learning_rate": 2.6902856056294057e-07,
+      "loss": 1.2025,
+      "step": 419
+    },
+    {
+      "epoch": 1.721311475409836,
+      "grad_norm": 0.3514711558818817,
+      "learning_rate": 2.6142501083881195e-07,
+      "loss": 1.0661,
+      "step": 420
+    },
+    {
+      "epoch": 1.7254098360655736,
+      "grad_norm": 0.37159159779548645,
+      "learning_rate": 2.539245252927969e-07,
+      "loss": 1.1934,
+      "step": 421
+    },
+    {
+      "epoch": 1.7295081967213115,
+      "grad_norm": 0.3892461955547333,
+      "learning_rate": 2.4652744924787253e-07,
+      "loss": 1.1965,
+      "step": 422
+    },
+    {
+      "epoch": 1.7336065573770492,
+      "grad_norm": 0.33413994312286377,
+      "learning_rate": 2.3923412326603307e-07,
+      "loss": 0.911,
+      "step": 423
+    },
+    {
+      "epoch": 1.737704918032787,
+      "grad_norm": 0.32191577553749084,
+      "learning_rate": 2.3204488313261136e-07,
+      "loss": 0.9267,
+      "step": 424
+    },
+    {
+      "epoch": 1.7418032786885247,
+      "grad_norm": 0.3706655502319336,
+      "learning_rate": 2.2496005984081887e-07,
+      "loss": 1.1904,
+      "step": 425
+    },
+    {
+      "epoch": 1.7459016393442623,
+      "grad_norm": 0.32858824729919434,
+      "learning_rate": 2.1797997957650807e-07,
+      "loss": 0.9078,
+      "step": 426
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 0.33270376920700073,
+      "learning_rate": 2.1110496370315258e-07,
+      "loss": 0.9167,
+      "step": 427
+    },
+    {
+      "epoch": 1.7540983606557377,
+      "grad_norm": 0.31928005814552307,
+      "learning_rate": 2.0433532874705369e-07,
+      "loss": 0.9172,
+      "step": 428
+    },
+    {
+      "epoch": 1.7581967213114753,
+      "grad_norm": 0.37498903274536133,
+      "learning_rate": 1.9767138638276616e-07,
+      "loss": 1.1895,
+      "step": 429
+    },
+    {
+      "epoch": 1.762295081967213,
+      "grad_norm": 0.41034555435180664,
+      "learning_rate": 1.911134434187481e-07,
+      "loss": 1.1859,
+      "step": 430
+    },
+    {
+      "epoch": 1.7663934426229508,
+      "grad_norm": 0.3766476511955261,
+      "learning_rate": 1.8466180178323856e-07,
+      "loss": 1.1983,
+      "step": 431
+    },
+    {
+      "epoch": 1.7704918032786885,
+      "grad_norm": 0.36230266094207764,
+      "learning_rate": 1.7831675851035264e-07,
+      "loss": 1.0443,
+      "step": 432
+    },
+    {
+      "epoch": 1.7745901639344264,
+      "grad_norm": 0.37963178753852844,
+      "learning_rate": 1.7207860572640872e-07,
+      "loss": 1.1877,
+      "step": 433
+    },
+    {
+      "epoch": 1.778688524590164,
+      "grad_norm": 0.3309424817562103,
+      "learning_rate": 1.6594763063647822e-07,
+      "loss": 1.0387,
+      "step": 434
+    },
+    {
+      "epoch": 1.7827868852459017,
+      "grad_norm": 0.35661202669143677,
+      "learning_rate": 1.5992411551116304e-07,
+      "loss": 1.185,
+      "step": 435
+    },
+    {
+      "epoch": 1.7868852459016393,
+      "grad_norm": 0.3461817502975464,
+      "learning_rate": 1.5400833767359847e-07,
+      "loss": 1.0481,
+      "step": 436
+    },
+    {
+      "epoch": 1.790983606557377,
+      "grad_norm": 0.3197766840457916,
+      "learning_rate": 1.482005694866867e-07,
+      "loss": 0.9093,
+      "step": 437
+    },
+    {
+      "epoch": 1.7950819672131146,
+      "grad_norm": 0.3562556505203247,
+      "learning_rate": 1.4250107834055725e-07,
+      "loss": 1.0407,
+      "step": 438
+    },
+    {
+      "epoch": 1.7991803278688525,
+      "grad_norm": 0.3429252803325653,
+      "learning_rate": 1.369101266402545e-07,
+      "loss": 0.9023,
+      "step": 439
+    },
+    {
+      "epoch": 1.8032786885245902,
+      "grad_norm": 0.3334152102470398,
+      "learning_rate": 1.3142797179365868e-07,
+      "loss": 0.9164,
+      "step": 440
+    },
+    {
+      "epoch": 1.8073770491803278,
+      "grad_norm": 0.36567139625549316,
+      "learning_rate": 1.2605486619963276e-07,
+      "loss": 1.1944,
+      "step": 441
+    },
+    {
+      "epoch": 1.8114754098360657,
+      "grad_norm": 0.36539405584335327,
+      "learning_rate": 1.207910572364046e-07,
+      "loss": 1.1742,
+      "step": 442
+    },
+    {
+      "epoch": 1.8155737704918034,
+      "grad_norm": 0.34080713987350464,
+      "learning_rate": 1.1563678725017513e-07,
+      "loss": 1.0656,
+      "step": 443
+    },
+    {
+      "epoch": 1.819672131147541,
+      "grad_norm": 0.3428449332714081,
+      "learning_rate": 1.1059229354396128e-07,
+      "loss": 1.0468,
+      "step": 444
+    },
+    {
+      "epoch": 1.8237704918032787,
+      "grad_norm": 0.3538898825645447,
+      "learning_rate": 1.056578083666726e-07,
+      "loss": 1.0458,
+      "step": 445
+    },
+    {
+      "epoch": 1.8278688524590163,
+      "grad_norm": 0.3626593053340912,
+      "learning_rate": 1.008335589024148e-07,
+      "loss": 1.0576,
+      "step": 446
+    },
+    {
+      "epoch": 1.831967213114754,
+      "grad_norm": 0.36676186323165894,
+      "learning_rate": 9.611976726003392e-08,
+      "loss": 1.1887,
+      "step": 447
+    },
+    {
+      "epoch": 1.8360655737704918,
+      "grad_norm": 0.3630443215370178,
+      "learning_rate": 9.151665046288727e-08,
+      "loss": 1.1901,
+      "step": 448
+    },
+    {
+      "epoch": 1.8401639344262295,
+      "grad_norm": 0.37578243017196655,
+      "learning_rate": 8.702442043885512e-08,
+      "loss": 1.1851,
+      "step": 449
+    },
+    {
+      "epoch": 1.8442622950819674,
+      "grad_norm": 0.3619200587272644,
+      "learning_rate": 8.264328401057897e-08,
+      "loss": 1.1918,
+      "step": 450
+    },
+    {
+      "epoch": 1.848360655737705,
+      "grad_norm": 0.3683510422706604,
+      "learning_rate": 7.837344288594395e-08,
+      "loss": 1.1876,
+      "step": 451
+    },
+    {
+      "epoch": 1.8524590163934427,
+      "grad_norm": 0.34541499614715576,
+      "learning_rate": 7.421509364878927e-08,
+      "loss": 1.0548,
+      "step": 452
+    },
+    {
+      "epoch": 1.8565573770491803,
+      "grad_norm": 0.3492802083492279,
+      "learning_rate": 7.016842774985821e-08,
+      "loss": 1.1917,
+      "step": 453
+    },
+    {
+      "epoch": 1.860655737704918,
+      "grad_norm": 0.33986085653305054,
+      "learning_rate": 6.623363149798529e-08,
+      "loss": 1.0613,
+      "step": 454
+    },
+    {
+      "epoch": 1.8647540983606556,
+      "grad_norm": 0.3286001980304718,
+      "learning_rate": 6.241088605151518e-08,
+      "loss": 0.912,
+      "step": 455
+    },
+    {
+      "epoch": 1.8688524590163933,
+      "grad_norm": 0.3603418469429016,
+      "learning_rate": 5.870036740996565e-08,
+      "loss": 1.1989,
+      "step": 456
+    },
+    {
+      "epoch": 1.8729508196721312,
+      "grad_norm": 0.35810166597366333,
+      "learning_rate": 5.5102246405922823e-08,
+      "loss": 1.0475,
+      "step": 457
+    },
+    {
+      "epoch": 1.8770491803278688,
+      "grad_norm": 0.3316009044647217,
+      "learning_rate": 5.161668869717584e-08,
+      "loss": 0.9209,
+      "step": 458
+    },
+    {
+      "epoch": 1.8811475409836067,
+      "grad_norm": 0.3086305856704712,
+      "learning_rate": 4.824385475909049e-08,
+      "loss": 0.909,
+      "step": 459
+    },
+    {
+      "epoch": 1.8852459016393444,
+      "grad_norm": 0.39284205436706543,
+      "learning_rate": 4.49838998772209e-08,
+      "loss": 1.1894,
+      "step": 460
+    },
+    {
+      "epoch": 1.889344262295082,
+      "grad_norm": 0.35450220108032227,
+      "learning_rate": 4.183697414016058e-08,
+      "loss": 1.1992,
+      "step": 461
+    },
+    {
+      "epoch": 1.8934426229508197,
+      "grad_norm": 0.2877340614795685,
+      "learning_rate": 3.8803222432630685e-08,
+      "loss": 0.7784,
+      "step": 462
+    },
+    {
+      "epoch": 1.8975409836065573,
+      "grad_norm": 0.35768765211105347,
+      "learning_rate": 3.5882784428812324e-08,
+      "loss": 1.179,
+      "step": 463
+    },
+    {
+      "epoch": 1.901639344262295,
+      "grad_norm": 0.3440133333206177,
+      "learning_rate": 3.3075794585912534e-08,
+      "loss": 1.0472,
+      "step": 464
+    },
+    {
+      "epoch": 1.9057377049180326,
+      "grad_norm": 0.35129430890083313,
+      "learning_rate": 3.038238213797673e-08,
+      "loss": 1.057,
+      "step": 465
+    },
+    {
+      "epoch": 1.9098360655737705,
+      "grad_norm": 0.3321053981781006,
+      "learning_rate": 2.7802671089937338e-08,
+      "loss": 0.9022,
+      "step": 466
+    },
+    {
+      "epoch": 1.9139344262295082,
+      "grad_norm": 0.377127468585968,
+      "learning_rate": 2.5336780211905055e-08,
+      "loss": 1.1916,
+      "step": 467
+    },
+    {
+      "epoch": 1.918032786885246,
+      "grad_norm": 0.3552931845188141,
+      "learning_rate": 2.2984823033700142e-08,
+      "loss": 1.0472,
+      "step": 468
+    },
+    {
+      "epoch": 1.9221311475409837,
+      "grad_norm": 0.3283768594264984,
+      "learning_rate": 2.0746907839626075e-08,
+      "loss": 1.0466,
+      "step": 469
+    },
+    {
+      "epoch": 1.9262295081967213,
+      "grad_norm": 0.36822226643562317,
+      "learning_rate": 1.862313766348406e-08,
+      "loss": 1.1895,
+      "step": 470
+    },
+    {
+      "epoch": 1.930327868852459,
+      "grad_norm": 0.34936660528182983,
+      "learning_rate": 1.6613610283828797e-08,
+      "loss": 1.1862,
+      "step": 471
+    },
+    {
+      "epoch": 1.9344262295081966,
+      "grad_norm": 0.3748954236507416,
+      "learning_rate": 1.4718418219468178e-08,
+      "loss": 1.1841,
+      "step": 472
+    },
+    {
+      "epoch": 1.9385245901639343,
+      "grad_norm": 0.33568257093429565,
+      "learning_rate": 1.2937648725201424e-08,
+      "loss": 1.0695,
+      "step": 473
+    },
+    {
+      "epoch": 1.9426229508196722,
+      "grad_norm": 0.3411601781845093,
+      "learning_rate": 1.127138378780368e-08,
+      "loss": 1.0399,
+      "step": 474
+    },
+    {
+      "epoch": 1.9467213114754098,
+      "grad_norm": 0.33146122097969055,
+      "learning_rate": 9.719700122250985e-09,
+      "loss": 1.0427,
+      "step": 475
+    },
+    {
+      "epoch": 1.9508196721311475,
+      "grad_norm": 0.384295791387558,
+      "learning_rate": 8.282669168188095e-09,
+      "loss": 1.1944,
+      "step": 476
+    },
+    {
+      "epoch": 1.9549180327868854,
+      "grad_norm": 0.3183731734752655,
+      "learning_rate": 6.960357086639169e-09,
+      "loss": 0.9175,
+      "step": 477
+    },
+    {
+      "epoch": 1.959016393442623,
+      "grad_norm": 0.4038081765174866,
+      "learning_rate": 5.752824756961872e-09,
+      "loss": 1.1902,
+      "step": 478
+    },
+    {
+      "epoch": 1.9631147540983607,
+      "grad_norm": 0.35792505741119385,
+      "learning_rate": 4.660127774045175e-09,
+      "loss": 1.0414,
+      "step": 479
+    },
+    {
+      "epoch": 1.9672131147540983,
+      "grad_norm": 0.35738375782966614,
+      "learning_rate": 3.682316445748346e-09,
+      "loss": 1.1764,
+      "step": 480
+    },
+    {
+      "epoch": 1.971311475409836,
+      "grad_norm": 0.3557555675506592,
+      "learning_rate": 2.819435790586411e-09,
+      "loss": 1.075,
+      "step": 481
+    },
+    {
+      "epoch": 1.9754098360655736,
+      "grad_norm": 0.3181816041469574,
+      "learning_rate": 2.0715255356559826e-09,
+      "loss": 0.918,
+      "step": 482
+    },
+    {
+      "epoch": 1.9795081967213115,
+      "grad_norm": 0.3422686457633972,
+      "learning_rate": 1.4386201148072766e-09,
+      "loss": 1.1884,
+      "step": 483
+    },
+    {
+      "epoch": 1.9836065573770492,
+      "grad_norm": 0.3369675278663635,
+      "learning_rate": 9.20748667058713e-10,
+      "loss": 1.0697,
+      "step": 484
+    },
+    {
+      "epoch": 1.987704918032787,
+      "grad_norm": 0.3343188762664795,
+      "learning_rate": 5.179350352541024e-10,
+      "loss": 1.0364,
+      "step": 485
+    },
+    {
+      "epoch": 1.9918032786885247,
+      "grad_norm": 0.3667546808719635,
+      "learning_rate": 2.301977649668552e-10,
+      "loss": 1.1884,
+      "step": 486
+    },
+    {
+      "epoch": 1.9959016393442623,
+      "grad_norm": 0.36699703335762024,
+      "learning_rate": 5.755010364455471e-11,
+      "loss": 1.1824,
+      "step": 487
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.36600202322006226,
+      "learning_rate": 0.0,
+      "loss": 1.1781,
+      "step": 488
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 488,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5344105028163994e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-488/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd386288265f283057f88dba0dab88b303bbbbfdb682a79fd3381039872064d1
+size 5816