MarcoM003 commited on
Commit
6990b9c
verified
1 Parent(s): e591ae6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +21 -3
README.md CHANGED
@@ -41,10 +41,10 @@ Check out the configuration reference at https://huggingface.co/docs/hub/spaces-
41
 
42
  - Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz
43
 
44
- (((((((((((((METER LO DE LLAMA)))))))))))))))))))))
45
  ### MBart:
46
  **Descripci贸n**: Otro modelo multiling眉e basado en Transformer. 脷til para la traducci贸n autom谩tica y dem谩s tareas de generaci贸n de texto en m煤ltiples idiomas. Preentrenado en tareas de reducci贸n de ruido y puede ser ajustado para traducir espec铆ficamente entre dos pares de idiomas.
47
-
 
48
  **Clasificaci贸n**:
49
 
50
  - Tipo de tarea -> Traducci贸n autom谩tica y generaci贸n de texto
@@ -52,7 +52,25 @@ Check out the configuration reference at https://huggingface.co/docs/hub/spaces-
52
  - Modelo preentrenado -> preentrenado en tareas de m煤ltiples idiomas y ajustable para traducci贸n espec铆fica
53
 
54
  - Dominio de uso -> Procesamiento de lenguaje natural y traducci贸n
55
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
56
  ### Sinergia para estos dos modelos:
57
  Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en ingl茅s,
58
  y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente
 
41
 
42
  - Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz
43
 
 
44
  ### MBart:
45
  **Descripci贸n**: Otro modelo multiling眉e basado en Transformer. 脷til para la traducci贸n autom谩tica y dem谩s tareas de generaci贸n de texto en m煤ltiples idiomas. Preentrenado en tareas de reducci贸n de ruido y puede ser ajustado para traducir espec铆ficamente entre dos pares de idiomas.
46
+ Se utiliza el modelo "SnypzZz/Llama2-13b-Language-translate", el cual est谩 basado en MBart. El tokenizador asociado es MBart50TokenizerFast, que convierte el texto de entrada en tokens que el modelo entiende y devuelve los tokens decodificados en formato de texto
47
+
48
  **Clasificaci贸n**:
49
 
50
  - Tipo de tarea -> Traducci贸n autom谩tica y generaci贸n de texto
 
52
  - Modelo preentrenado -> preentrenado en tareas de m煤ltiples idiomas y ajustable para traducci贸n espec铆fica
53
 
54
  - Dominio de uso -> Procesamiento de lenguaje natural y traducci贸n
55
+
56
+ ### Funci贸n principal: **transcribe_translate**
57
+
58
+ Convierte el audio subido (mp3 o wav, por ejemplo) a texto con Whisper, esperando que est茅 en ingl茅s, ya que Whisper 'base.en' est谩 entrenado para ello.
59
+
60
+ | model_inputs = tokenizer(transcription, return_tensors="pt") |
61
+
62
+ El modelo MBart genera los tokens traducidos al idioma objetivo especificado. Esto se consigue utilizando el ID del token del idioma (lang_code_to_id) proporcionado por el tokenizador
63
+
64
+ ### Traducci贸n con MBart
65
+
66
+ El texto transcrito es procesado por el tokenizador de MBart, para luego convertirlo en tokens.
67
+
68
+ | generated_tokens = translation_model.generate(
69
+ **model_inputs,
70
+ forced_bos_token_id=tokenizer.lang_code_to_id[target_language]
71
+ )
72
+ |
73
+
74
  ### Sinergia para estos dos modelos:
75
  Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en ingl茅s,
76
  y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente