Spaces:

justus-tobias
/

Moshi

Paused

App Files Files Community

justus-tobias commited on Sep 27, 2024

Commit

2ace8c2

1 Parent(s): d8213a7

added log

Browse files

Files changed (1) hide show

app.py +26 -14

app.py CHANGED Viewed

@@ -95,27 +95,36 @@ def convert2wav(audio):
 ##########################################################################################################
 def process_audio(audio, instream):
     print("Audio recieved")
     if audio is None:
         return gr.update(), instream
-    if instream is None:
-        instream = (24000, torch.randn(1, 1, 24000 * 10).squeeze().cpu().numpy())
-    print("STREAM RECIEVED")
-    stream = (audio[0], np.concatenate((instream[1], audio[1])))
-    # Assuming instream[1] and audio[1] are valid inputs for convert2wav
-    wav1 = convert2wav(instream)
-    wav2 = convert2wav(audio)
-    # Concatenate along the last dimension (time axis)
-    combined_wav = torch.cat((wav1, wav2), dim=2)
-    print("WAV COMBINED")
-    mimi_codes = compute_codes(combined_wav)
-    outwav = generate_reponse(mimi_codes)
-    return gr.update(value=None), (24000, outwav.squeeze().cpu().numpy()), stream
 with gr.Blocks() as demo:
@@ -150,11 +159,12 @@ Monologue” method significantly improves the linguistic quality of generated s
     output_audio = gr.Audio(label="Processed Audio", streaming=True, autoplay=True)
     stream = gr.State()
     input_audio.stop_recording(
         fn=process_audio,
         inputs=[input_audio, stream],
-        outputs=[input_audio, output_audio, stream]
     )
     with gr.Row():
@@ -173,4 +183,6 @@ Monologue” method significantly improves the linguistic quality of generated s
                 elem_id="citation-button",
                 show_copy_button=True,
             )
 demo.launch(debug=True)

 ##########################################################################################################
 def process_audio(audio, instream):
+    log_out = ""
+    outwav = torch.randn(1, 1, 24000 * 10)
+    stream = torch.randn(1, 1, 24000 * 10)
     print("Audio recieved")
     if audio is None:
         return gr.update(), instream
+    try:
+        if instream is None:
+            instream = (24000, torch.randn(1, 1, 24000 * 10).squeeze().cpu().numpy())
+        print("STREAM RECIEVED")
+        stream = (audio[0], np.concatenate((instream[1], audio[1])))
+        # Assuming instream[1] and audio[1] are valid inputs for convert2wav
+        wav1 = convert2wav(instream)
+        wav2 = convert2wav(audio)
+        # Concatenate along the last dimension (time axis)
+        combined_wav = torch.cat((wav1, wav2), dim=2)
+        print("WAV COMBINED")
+        mimi_codes = compute_codes(combined_wav)
+        print("CODES COMPUTED")
+        outwav = generate_reponse(mimi_codes)
+    except Exception as e:
+        return gr.update(value=None), (24000, outwav.squeeze().cpu().numpy()), stream, gr.update(visible=True,value=f"LOG: {e}")
+    return gr.update(value=None), (24000, outwav.squeeze().cpu().numpy()), stream, gr.update(visible=False)
 with gr.Blocks() as demo:
     output_audio = gr.Audio(label="Processed Audio", streaming=True, autoplay=True)
     stream = gr.State()
+    log_out = gr.Textbox("Log", visible=False)
     input_audio.stop_recording(
         fn=process_audio,
         inputs=[input_audio, stream],
+        outputs=[input_audio, output_audio, stream, log_out]
     )
     with gr.Row():
                 elem_id="citation-button",
                 show_copy_button=True,
             )
 demo.launch(debug=True)