Spaces:

eronariodito
/

Lab2-ID2223

Sleeping

App Files Files Community

eronariodito commited on Dec 5, 2024

Commit

dc706d8

verified ·

1 Parent(s): cc064b3

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -71

app.py CHANGED Viewed

@@ -1,77 +1,39 @@
 import gradio as gr
-# Load model directly
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-1B")
-model = AutoModelForCausalLM.from_pretrained("unsloth/Llama-3.2-1B")
-# Move the model to the appropriate device (GPU if available, else CPU)
-device = "cuda" if torch.cuda.is_available() else "cpu"
-model.to(device)
-def respond(
-    message,
-    history: list[tuple[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
-    # Prepare prompt with history
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    # Convert conversation into a single input string
-    prompt = f"{system_message}\n"
-    for turn in messages[1:]:
-        if turn["role"] == "user":
-            prompt += f"User: {turn['content']}\n"
-        elif turn["role"] == "assistant":
-            prompt += f"Assistant: {turn['content']}\n"
-    prompt += "Assistant:"
-    # Tokenize input
-    inputs = tokenizer(prompt, return_tensors="pt").to(device)
-    # Generate response
-    output = model.generate(
-        inputs["input_ids"],
-        max_length=inputs["input_ids"].shape[1] + max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-        pad_token_id=tokenizer.eos_token_id,
-    )
-    # Decode response and extract the new assistant message
     response = tokenizer.decode(output[0], skip_special_tokens=True)
-    response = response[len(prompt):].strip()  # Strip the input part from the response
-    yield response
-demo = gr.ChatInterface(
-    respond,
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
 )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+# Load your model and tokenizer from Hugging Face Hub (forcing CPU usage)
+model_name = "PierreJousselin/lora_model"  # Replace with the name you used on Hugging Face
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cpu")  # Force model to load on CPU
+# Ensure pad_token_id is set to eos_token_id to avoid errors
+model.config.pad_token_id = model.config.eos_token_id
+# Function for generating responses using the model
+def generate_response(prompt):
+    # Tokenize input prompt
+    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True, max_length=128)
+    # Ensure the inputs are moved to the CPU
+    input_ids = inputs["input_ids"].to("cpu")
+    print(input_ids)
+    # Generate output (ensure it's on CPU)
+    output = model.generate(input_ids, max_length=150, num_return_sequences=1,pad_token_id=tokenizer.eos_token_id)
+    # Decode and return response
     response = tokenizer.decode(output[0], skip_special_tokens=True)
+    print(output)
+    return response
+# Create a Gradio interface with a "Generate" button
+iface = gr.Interface(
+    fn=generate_response,                     # Function to call for generating response
+    inputs=gr.Textbox(label="Input Prompt"),    # Input type (text box for prompt)
+    outputs=gr.Textbox(label="Generated Response"),  # Output type (text box for response)
+    live=False,                                # Disable live update; only update when button is clicked
+    allow_flagging="never"                     # Prevent flagging (optional, if you don't need it)
 )
+# Launch the interface with a "Generate" button
+iface.launch(share=True)  # You can set share=True if you want a public link