Spaces:

Blancior
/

rpg-battle-gemma

Runtime error

Blancior commited on Dec 19, 2024

Commit

1a99148

verified ·

1 Parent(s): 9e70f8c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,21 +1,28 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 def load_model():
-    model_name = "TheBloke/Llama-2-13B-chat-GPTQ"
-    tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
         device_map="auto",
-        trust_remote_code=True,
-        revision="main",
-        quantization_config={"load_in_4bit": True}  # Dodajemy kwantyzację 4-bitową
     )
     return model, tokenizer
-# Reszta kodu pozostaje bez zmian
 def generate_response(prompt, max_length=100):
     try:
         inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
@@ -36,7 +43,6 @@ print("Ładowanie modelu...")
 model, tokenizer = load_model()
 print("Model załadowany!")
-# Interfejs Gradio
 iface = gr.Interface(
     fn=generate_response,
     inputs=[

+# app.py
 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import torch
 def load_model():
+    model_name = "meta-llama/Llama-2-13b-chat-hf"
+    # Konfiguracja kwantyzacji 4-bitowej
+    quantization_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_compute_dtype=torch.float16,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True
+    )
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
         device_map="auto",
+        quantization_config=quantization_config,
+        trust_remote_code=True
     )
     return model, tokenizer
 def generate_response(prompt, max_length=100):
     try:
         inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
 model, tokenizer = load_model()
 print("Model załadowany!")
 iface = gr.Interface(
     fn=generate_response,
     inputs=[