Spaces:

Detomo
/

voice-japanese

Build error

vumichien commited on Aug 22, 2022

Commit

988375c

1 Parent(s): 973c318

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,14 +18,19 @@ def process_audio_file(file):
     return inputs
-def transcribe(file, state=""):
-    inputs = process_audio_file(file)
     with torch.no_grad():
         output_logit = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
     pred_ids = torch.argmax(output_logit, dim=-1)
     text = processor.batch_decode(pred_ids)[0]
-    state += text + " "
-    return state, state
 description = "A simple interface to transcribe from spoken Japanese to Hiragana."
@@ -34,7 +39,7 @@ article = "Author: <a href=\"https://huggingface.co/vumichien\">Vu Minh Chien</a
 inputs = [gr.Audio(source="microphone", type="filepath", optional=True),
           gr.Audio(source="upload", type="filepath", optional=True),
         ]
-outputs = ["textbox", "state"]
 examples = [["samples/BASIC5000_0001.wav",""],
             ["samples/BASIC5000_0005.wav",""]

     return inputs
+def transcribe(micro, file):
+    if file is not None and micro is None:
+        input_audio = file
+    elif file is None and micro is not None:
+        input_audio = micro
+    else:
+        input_audio = file
+    inputs = process_audio_file(input_audio )
     with torch.no_grad():
         output_logit = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
     pred_ids = torch.argmax(output_logit, dim=-1)
     text = processor.batch_decode(pred_ids)[0]
+    return text
 description = "A simple interface to transcribe from spoken Japanese to Hiragana."
 inputs = [gr.Audio(source="microphone", type="filepath", optional=True),
           gr.Audio(source="upload", type="filepath", optional=True),
         ]
+outputs = ["textbox"]
 examples = [["samples/BASIC5000_0001.wav",""],
             ["samples/BASIC5000_0005.wav",""]