Spaces:

eaysu
/

text_to_turkish_speech

Running

eaysu commited on Oct 30, 2024

Commit

907a50a

1 Parent(s): a6bbc99

app optimized

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,11 @@
 import gradio as gr
 from transformers import AutoProcessor, BarkModel
 import scipy
 # Load the Bark model and processor
 processor = AutoProcessor.from_pretrained("suno/bark-small")
 model = BarkModel.from_pretrained("suno/bark-small")
@@ -10,10 +14,13 @@ model = BarkModel.from_pretrained("suno/bark-small")
 def generate_speech(text, voice_preset):
     # Process the input text with the selected voice preset
     inputs = processor(text, voice_preset=voice_preset)
-    # Generate audio
-    audio_array = model.generate(**inputs)
-    audio_array = audio_array.cpu().numpy().squeeze()
-    # Return the audio as a tuple with the sample rate for Gradio's audio component
     return (model.generation_config.sample_rate, audio_array)
 # Gradio app setup

 import gradio as gr
 from transformers import AutoProcessor, BarkModel
+import torch
 import scipy
+# Limit CPU usage
+torch.set_num_threads(1)
 # Load the Bark model and processor
 processor = AutoProcessor.from_pretrained("suno/bark-small")
 model = BarkModel.from_pretrained("suno/bark-small")
 def generate_speech(text, voice_preset):
     # Process the input text with the selected voice preset
     inputs = processor(text, voice_preset=voice_preset)
+    # Generate audio and convert to float32 early to optimize memory usage
+    with torch.no_grad():  # Disable gradient calculations for faster inference
+        audio_array = model.generate(**inputs)
+    audio_array = audio_array.cpu().numpy().astype('float32').squeeze()  # Converting early
+    # Return the audio with sample rate for Gradio's audio component
     return (model.generation_config.sample_rate, audio_array)
 # Gradio app setup