Spaces:

Slava917
/

pronunciation-trainer

Runtime error

File size: 1,792 Bytes

25b92d1
877be96
1d14371
b150df1
 
9719ddd
7432f05
 
 
9719ddd
ed47f0e
 
 
b150df1
ed47f0e
3e9b43d
ed47f0e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8a8c946
05277a2
b337855
f259382
bf7ea32
b337855
ed47f0e
 
 
 
b0a4d88

import pandas as pd
import gradio as gr
print(gr.__version__)
import torch
import torchaudio


df= pd.read_csv('native_words_subset.csv')

torch._C._jit_override_can_fuse_on_cpu(False)
torch._C._jit_override_can_fuse_on_gpu(False)
torch._C._jit_set_texpr_fuser_enabled(False)
torch._C._jit_set_nvfuser_enabled(False)

loader = torch.jit.load("audio_loader.pt")
model = torch.jit.load('QuartzNet_thunderspeech_3.pt').eval()

vocab = model.text_transform.vocab.itos
vocab[-1] = ''

def convert_probs(probs):
  ids = probs.argmax(1)[0]
  s = []
  if vocab[ids[0]]: s.append(vocab[ids[0]])
  for i in range(1,len(ids)):
    if ids[i-1] != ids[i]:
      new = vocab[ids[i]]
      if new: s.append(new)
  #return '.'.join(s)
  return s
 
  
def predict(path):
  audio = loader(path)
  probs = model(audio, torch.tensor(audio.shape[0] * [audio.shape[-1]], device=audio.device))[0]
  return convert_probs(probs)
 
 
from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

def compare(chosen_word, path):
  etalon = list(df.loc[df['replica'] == chosen_word, 'transcription'].values[0].split('.'))
  user = predict(path)
  coeff =  similar(user, etalon) 
  return f'Коэффицент схожести вашего произношения и произношения носителя {coeff}. Чем ближе коэффицент к единице, тем лучше.' + '\nВаше произношение: [' + ''.join(user) + ']\n Произноешение носителя: ['  + ''.join(etalon) + ']'


word_choice = gr.inputs.Dropdown(list(df['replica'].unique()), label="Choose a word")

gr.Interface(fn=compare, inputs=[word_choice, gr.inputs.Audio(source='microphone', type='filepath', optional=True)], outputs= 'text').launch(debug=True)