Spaces:

sagar007
/

Multimodal_App

Running on Zero

App Files Files Community

sagar007 commited on Aug 26, 2024

Commit

6b1a045

•

1 Parent(s): 1f0b302

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -5

app.py CHANGED Viewed

@@ -79,7 +79,6 @@ async def generate_speech(text, tts_model, tts_tokenizer):
     return audio_generation.cpu().numpy().squeeze()
-# Helper functions
 @spaces.GPU(timeout=300)
 def stream_text_chat(message, history, system_prompt, temperature=0.8, max_new_tokens=1024, top_p=1.0, top_k=20, use_tts=True):
     try:
@@ -111,22 +110,24 @@ def stream_text_chat(message, history, system_prompt, temperature=0.8, max_new_t
         thread.start()
         buffer = ""
-        audio_buffer = np.array([])
         for new_text in streamer:
             buffer += new_text
             yield history + [[message, buffer]], (tts_model.config.sampling_rate, audio_buffer)
         # Generate speech after text generation is complete
-        if use_tts:
             audio_buffer = generate_speech_sync(buffer, tts_model, tts_tokenizer)
         # Final yield with complete text and audio
         yield history + [[message, buffer]], (tts_model.config.sampling_rate, audio_buffer)
     except Exception as e:
         print(f"An error occurred: {str(e)}")
-        yield history + [[message, f"An error occurred: {str(e)}"]], None
 def generate_speech_sync(text, tts_model, tts_tokenizer):
     tts_input_ids = tts_tokenizer(text, return_tensors="pt").input_ids.to(device)
@@ -136,7 +137,8 @@ def generate_speech_sync(text, tts_model, tts_tokenizer):
     with torch.no_grad():
         audio_generation = tts_model.generate(input_ids=tts_description_ids, prompt_input_ids=tts_input_ids)
-    return audio_generation.cpu().numpy().squeeze()
 @spaces.GPU(timeout=300)  # Increase timeout to 5 minutes
 def process_vision_query(image, text_input):

     return audio_generation.cpu().numpy().squeeze()
 @spaces.GPU(timeout=300)
 def stream_text_chat(message, history, system_prompt, temperature=0.8, max_new_tokens=1024, top_p=1.0, top_k=20, use_tts=True):
     try:
         thread.start()
         buffer = ""
+        audio_buffer = np.array([0.0])  # Initialize with a single zero
         for new_text in streamer:
             buffer += new_text
             yield history + [[message, buffer]], (tts_model.config.sampling_rate, audio_buffer)
         # Generate speech after text generation is complete
+        if use_tts and buffer:  # Only generate speech if there's text
             audio_buffer = generate_speech_sync(buffer, tts_model, tts_tokenizer)
+            if audio_buffer.size == 0:  # If audio_buffer is empty
+                audio_buffer = np.array([0.0])  # Use a single zero instead
         # Final yield with complete text and audio
         yield history + [[message, buffer]], (tts_model.config.sampling_rate, audio_buffer)
     except Exception as e:
         print(f"An error occurred: {str(e)}")
+        yield history + [[message, f"An error occurred: {str(e)}"]], (tts_model.config.sampling_rate, np.array([0.0]))
 def generate_speech_sync(text, tts_model, tts_tokenizer):
     tts_input_ids = tts_tokenizer(text, return_tensors="pt").input_ids.to(device)
     with torch.no_grad():
         audio_generation = tts_model.generate(input_ids=tts_description_ids, prompt_input_ids=tts_input_ids)
+    audio_buffer = audio_generation.cpu().numpy().squeeze()
+    return audio_buffer if audio_buffer.size > 0 else np.array([0.0])
 @spaces.GPU(timeout=300)  # Increase timeout to 5 minutes
 def process_vision_query(image, text_input):