Spaces:

ID2223Lab2
/

Lab2

Runtime error

EITD commited on Nov 24, 2024

Commit

385e0d5

1 Parent(s): 4866329

custom respond

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,18 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-import os
 """
 For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
 """
-client = InferenceClient("EITD/lora_model", token=os.getenv("HF_TOKEN"))
 def respond(
     message,
@@ -26,18 +32,28 @@ def respond(
     messages.append({"role": "user", "content": message})
-    response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
         yield response

 import gradio as gr
+# from huggingface_hub import InferenceClient
+from peft import AutoPeftModelForCausalLM
+from transformers import AutoTokenizer, TextStreamer
 """
 For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
 """
+# client = InferenceClient("EITD/lora_model", token=os.getenv("HF_TOKEN"))
+model_name = "EITD/lora_model"
+model = AutoPeftModelForCausalLM.from_pretrained(
+    model_name
+)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
 def respond(
     message,
     messages.append({"role": "user", "content": message})
+    # response = ""
+    # for message in client.chat_completion(
+    #     messages,
+    #     max_tokens=max_tokens,
+    #     stream=True,
+    #     temperature=temperature,
+    #     top_p=top_p,
+    # ):
+    #     token = message.choices[0].delta.content
+    #     response += token
+    #     yield response
+    inputs = tokenizer.apply_chat_template(
+        messages,
+        tokenize = True,
+        add_generation_prompt = True, # Must add for generation
+        return_tensors = "pt",
+    )
+    text_streamer = TextStreamer(tokenizer, skip_prompt = True)
+    for response in model.generate(input_ids = inputs, streamer = text_streamer, max_new_tokens = max_tokens, use_cache = True,
+                            temperature = temperature, min_p = top_p):
         yield response