Spaces:

OpenSound
/

SSR-Speech

Running on Zero

App Files Files Community

OpenSound commited on Oct 3, 2024

Commit

a67873a

1 Parent(s): de943de

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -30

app.py CHANGED Viewed

@@ -121,36 +121,41 @@ class WhisperxModel:
             segment['text'] = replace_numbers_with_words(segment['text'])
         return self.align_model.align(segments, audio_path)
-ssrspeech_model_name = "English"
-text_tokenizer = TextTokenizer(backend="espeak")
-language = "en"
-transcribe_model_name = "base.en"
-align_model = WhisperxAlignModel(language)
-transcribe_model = WhisperxModel(transcribe_model_name, align_model, language)
-ssrspeech_fn = f"{MODELS_PATH}/{ssrspeech_model_name}.pth"
-if not os.path.exists(ssrspeech_fn):
-    os.system(f"wget https://huggingface.co/westbrook/SSR-Speech-{ssrspeech_model_name}/resolve/main/{ssrspeech_model_name}.pth -O " + ssrspeech_fn)
-ckpt = torch.load(ssrspeech_fn)
-model = ssr.SSR_Speech(ckpt["config"])
-model.load_state_dict(ckpt["model"])
-config = model.args
-phn2num = ckpt["phn2num"]
-model.to(device)
-encodec_fn = f"{MODELS_PATH}/wmencodec.th"
-if not os.path.exists(encodec_fn):
-    os.system(f"wget https://huggingface.co/westbrook/SSR-Speech-English/resolve/main/wmencodec.th -O " + encodec_fn)
-ssrspeech_model = {
-    "config": config,
-    "phn2num": phn2num,
-    "model": model,
-    "text_tokenizer": text_tokenizer,
-    "audio_tokenizer": AudioTokenizer(signature=encodec_fn)
-}
 def get_transcribe_state(segments):
     transcript = " ".join([segment["text"] for segment in segments])
@@ -354,6 +359,14 @@ demo_text = {
 def get_app():
     with gr.Blocks() as app:
         with gr.Row():
             with gr.Column(scale=2):
                 input_audio = gr.Audio(value=f"{DEMO_PATH}/5895_34622_000026_000002.wav", label="Input Audio", type="filepath", interactive=True)

             segment['text'] = replace_numbers_with_words(segment['text'])
         return self.align_model.align(segments, audio_path)
+@spaces.GPU
+def load_models():
+    ssrspeech_model_name = "English"
+    text_tokenizer = TextTokenizer(backend="espeak")
+    language = "en"
+    transcribe_model_name = "base.en"
+    align_model = WhisperxAlignModel(language)
+    transcribe_model = WhisperxModel(transcribe_model_name, align_model, language)
+    ssrspeech_fn = f"{MODELS_PATH}/{ssrspeech_model_name}.pth"
+    if not os.path.exists(ssrspeech_fn):
+        os.system(f"wget https://huggingface.co/westbrook/SSR-Speech-{ssrspeech_model_name}/resolve/main/{ssrspeech_model_name}.pth -O " + ssrspeech_fn)
+    ckpt = torch.load(ssrspeech_fn)
+    model = ssr.SSR_Speech(ckpt["config"])
+    model.load_state_dict(ckpt["model"])
+    config = model.args
+    phn2num = ckpt["phn2num"]
+    model.to(device)
+    encodec_fn = f"{MODELS_PATH}/wmencodec.th"
+    if not os.path.exists(encodec_fn):
+        os.system(f"wget https://huggingface.co/westbrook/SSR-Speech-English/resolve/main/wmencodec.th -O " + encodec_fn)
+    ssrspeech_model = {
+        "config": config,
+        "phn2num": phn2num,
+        "model": model,
+        "text_tokenizer": text_tokenizer,
+        "audio_tokenizer": AudioTokenizer(signature=encodec_fn)
+    }
+    return transcribe_model, align_model, ssrspeech_model
+transcribe_model, align_model, ssrspeech_model = load_models()
 def get_transcribe_state(segments):
     transcript = " ".join([segment["text"] for segment in segments])
 def get_app():
     with gr.Blocks() as app:
+        gr.Markdown("""
+            # EzAudio: High-quality Text-to-Audio Generator
+            Generate and edit audio from text using a diffusion transformer. Adjust advanced settings for more control.
+            Learn more about 🟣**EzAudio** on the [EzAudio Homepage](https://haidog-yaqub.github.io/EzAudio-Page/).
+            🚀 The **EzAudio-ControlNet (Energy Envelope)** demo is now live! Try it on [🤗EzAudio-ControlNet Space](https://huggingface.co/spaces/OpenSound/EzAudio-ControlNet).
+        """)
         with gr.Row():
             with gr.Column(scale=2):
                 input_audio = gr.Audio(value=f"{DEMO_PATH}/5895_34622_000026_000002.wav", label="Input Audio", type="filepath", interactive=True)