KB-VQA

Running

m7mdal7aj commited on Jan 3, 2024

Commit

9a3c83b

1 Parent(s): d5a60de

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,13 +11,13 @@ from transformers import Blip2Processor, Blip2ForConditionalGeneration, Instruct
 def load_caption_model(blip2=False, instructblip=True):
     if blip2:
-        processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
         model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", load_in_8bit=True,torch_dtype=torch.float16, device_map="auto")
         #model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")
     if instructblip:
         model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", load_in_8bit=True,torch_dtype=torch.float16, device_map="auto")
-        processor = InstructBlipProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
     return model, processor
@@ -32,7 +32,7 @@ def answer_question(image, question, model, processor):
     inputs = processor(image, question, return_tensors="pt").to("cuda", torch.float16)
-    out = model.generate(**inputs, max_length=200, min_length=20, num_beams=1)
     answer = processor.decode(out[0], skip_special_tokens=True).strip()
     return answer

 def load_caption_model(blip2=False, instructblip=True):
     if blip2:
+        processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b", load_in_8bit=True,torch_dtype=torch.float16, device_map="auto")
         model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", load_in_8bit=True,torch_dtype=torch.float16, device_map="auto")
         #model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16, device_map="auto")
     if instructblip:
         model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", load_in_8bit=True,torch_dtype=torch.float16, device_map="auto")
+        processor = InstructBlipProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b", load_in_8bit=True,torch_dtype=torch.float16, device_map="auto")
     return model, processor
     inputs = processor(image, question, return_tensors="pt").to("cuda", torch.float16)
+    out = model.generate(**inputs, max_length=200, min_length=20, num_beams=3)
     answer = processor.decode(out[0], skip_special_tokens=True).strip()
     return answer