pythia-uk

Running

App Files Files Community

robinhad

theodotus commited on Jun 24, 2023

Commit

36ba107

0 Parent(s):

Duplicate from theodotus/pythia-uk

Browse files

Co-authored-by: Bohdan Mykhailenko <[email protected]>

Files changed (7) hide show

.gitattributes +34 -0
README.md +14 -0
app.py +95 -0
model/config.json +9 -0
model/model.bin +3 -0
model/shared_vocabulary.json +0 -0
requirements.txt +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Pythia UK
+emoji: 😻
+colorFrom: blue
+colorTo: yellow
+sdk: gradio
+sdk_version: 3.34.0
+app_file: app.py
+pinned: false
+license: mit
+duplicated_from: theodotus/pythia-uk
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,95 @@

+import ctranslate2
+from transformers import AutoTokenizer
+import threading
+import gradio as gr
+from typing import Optional
+from queue import Queue
+class TokenIteratorStreamer:
+    def __init__(self, end_token_id: int, timeout: Optional[float] = None):
+        self.end_token_id = end_token_id
+        self.queue = Queue()
+        self.timeout = timeout
+    def put(self, token: int):
+        self.queue.put(token, timeout=self.timeout)
+    def __iter__(self):
+        return self
+    def __next__(self):
+        token = self.queue.get(timeout=self.timeout)
+        if token == self.end_token_id:
+            raise StopIteration()
+        else:
+            return token
+def generate_prompt(history):
+    prompt = ""
+    for chain in history[:-1]:
+        prompt += f"<human>: {chain[0]}\n<bot>: {chain[1]}\n"
+    prompt += f"<human>: {history[-1][0]}\n<bot>:"
+    tokens = tokenizer.convert_ids_to_tokens(tokenizer.encode(prompt))
+    return tokens
+def generate(streamer, history):
+    def stepResultCallback(result):
+        streamer.put(result.token_id)
+        if result.is_last and (result.token_id != end_token_id):
+            streamer.put(end_token_id)
+        print(f"step={result.step}, batch_id={result.batch_id}, token={result.token}")
+    tokens = generate_prompt(history)
+    results = translator.translate_batch(
+        [tokens],
+        beam_size=1,
+        max_decoding_length = 256,
+        repetition_penalty = 1.8,
+        callback = stepResultCallback
+    )
+    return results
+translator = ctranslate2.Translator("model", intra_threads=2)
+tokenizer = AutoTokenizer.from_pretrained("DKYoon/mt5-xl-lm-adapt")
+end_token = "</s>"
+end_token_id = tokenizer.encode(end_token)[0]
+with gr.Blocks() as demo:
+    chatbot = gr.Chatbot()
+    msg = gr.Textbox()
+    clear = gr.Button("Clear")
+    def user(user_message, history):
+        return "", history + [[user_message, ""]]
+    def bot(history):
+        bot_message_tokens = []
+        streamer = TokenIteratorStreamer(end_token_id = end_token_id)
+        generation_thread = threading.Thread(target=generate, args=(streamer, history))
+        generation_thread.start()
+        for token in streamer:
+            bot_message_tokens.append(token)
+            history[-1][1] = tokenizer.decode(bot_message_tokens)
+            yield history
+        generation_thread.join()
+    msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(
+        bot, chatbot, chatbot
+    )
+    clear.click(lambda: None, None, chatbot, queue=False)
+demo.queue()
+if __name__ == "__main__":
+    demo.launch()

model/config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "add_source_bos": false,
+  "add_source_eos": false,
+  "bos_token": "<pad>",
+  "decoder_start_token": "<pad>",
+  "eos_token": "</s>",
+  "layer_norm_epsilon": null,
+  "unk_token": "<unk>"
+}

model/model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:667c05b1b5b60515f93903db9dfd78c42ad7bc1b748820fa0cdac9c079392082
+size 7485277864

model/shared_vocabulary.json ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+ctranslate2
+transformers
+SentencePiece