Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

ckpt.pt +3 -0
tokenizer/added_tokens.json +7 -0
tokenizer/merges.txt +0 -0
tokenizer/special_tokens_map.json +6 -0
tokenizer/tokenizer.json +0 -0
tokenizer/tokenizer_config.json +61 -0
tokenizer/vocab.json +0 -0

ckpt.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8971c8b3b55fcfeb8021b7356e60365a45e6b2dd745e2861d5ce4f2b5e91d29b
+size 342380887

tokenizer/added_tokens.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "<|assistant|>": 50260,
+  "<|end_of_turn|>": 50258,
+  "<|start_of_turn|>": 50257,
+  "<|system|>": 50261,
+  "<|user|>": 50259
+}

tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50257": {
+      "content": "<|start_of_turn|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "<|end_of_turn|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{{ bos_token }}\n{% for message in messages %}\n    {% if (message['role'] != 'assistant' and message['role'] != 'user' and message['role'] != 'system') %}\n        {{ raise_exception('Only user and assistant and system role are supported') }}\n    {% endif %}\n    {{ '<|start_of_turn|>' + '<|' + message['role'] + '|>'+ '\\n' + message['content'] | trim + '<|end_of_turn|>\\n' }}\n{% endfor %}\n{% if add_generation_prompt %}\n    {{'<|start_of_turn|><|assistant|>\\n'}}\n{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff