Spaces:

sanchit-gandhi
/

whisper-language-id

Runtime error

sanchit-gandhi commited on Feb 22, 2023

Commit

c0bc0f2

1 Parent(s): 0161d23

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,13 +10,18 @@ import gradio as gr
 model_id = "openai/whisper-large-v2"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
 sampling_rate = processor.feature_extractor.sampling_rate
 bos_token_id = processor.tokenizer.all_special_ids[-106]
 decoder_input_ids = torch.tensor([bos_token_id])
 def process_audio_file(file):
@@ -47,7 +52,7 @@ def transcribe(Microphone, File_Upload):
     input_features = processor(audio_data, return_tensors="pt").input_features
     with torch.no_grad():
-        logits = model.forward(input_features, decoder_input_ids=decoder_input_ids).logits
     pred_ids = torch.argmax(logits, dim=-1)
     probability = F.softmax(logits, dim=-1).max()

 model_id = "openai/whisper-large-v2"
+device = "cuda" if torch.cuda.is_available() else "cpu"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
+model.eval()
+model.to(device)
 sampling_rate = processor.feature_extractor.sampling_rate
 bos_token_id = processor.tokenizer.all_special_ids[-106]
 decoder_input_ids = torch.tensor([bos_token_id])
+decoder_input_ids.to(device)
 def process_audio_file(file):
     input_features = processor(audio_data, return_tensors="pt").input_features
     with torch.no_grad():
+        logits = model.forward(input_features.to(device), decoder_input_ids=decoder_input_ids).logits
     pred_ids = torch.argmax(logits, dim=-1)
     probability = F.softmax(logits, dim=-1).max()