Update README.md
Browse files
README.md
CHANGED
@@ -41,10 +41,10 @@ Check out the configuration reference at https://huggingface.co/docs/hub/spaces-
|
|
41 |
|
42 |
- Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz
|
43 |
|
44 |
-
(((((((((((((METER LO DE LLAMA)))))))))))))))))))))
|
45 |
### MBart:
|
46 |
**Descripci贸n**: Otro modelo multiling眉e basado en Transformer. 脷til para la traducci贸n autom谩tica y dem谩s tareas de generaci贸n de texto en m煤ltiples idiomas. Preentrenado en tareas de reducci贸n de ruido y puede ser ajustado para traducir espec铆ficamente entre dos pares de idiomas.
|
47 |
-
|
|
|
48 |
**Clasificaci贸n**:
|
49 |
|
50 |
- Tipo de tarea -> Traducci贸n autom谩tica y generaci贸n de texto
|
@@ -52,7 +52,25 @@ Check out the configuration reference at https://huggingface.co/docs/hub/spaces-
|
|
52 |
- Modelo preentrenado -> preentrenado en tareas de m煤ltiples idiomas y ajustable para traducci贸n espec铆fica
|
53 |
|
54 |
- Dominio de uso -> Procesamiento de lenguaje natural y traducci贸n
|
55 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
56 |
### Sinergia para estos dos modelos:
|
57 |
Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en ingl茅s,
|
58 |
y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente
|
|
|
41 |
|
42 |
- Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz
|
43 |
|
|
|
44 |
### MBart:
|
45 |
**Descripci贸n**: Otro modelo multiling眉e basado en Transformer. 脷til para la traducci贸n autom谩tica y dem谩s tareas de generaci贸n de texto en m煤ltiples idiomas. Preentrenado en tareas de reducci贸n de ruido y puede ser ajustado para traducir espec铆ficamente entre dos pares de idiomas.
|
46 |
+
Se utiliza el modelo "SnypzZz/Llama2-13b-Language-translate", el cual est谩 basado en MBart. El tokenizador asociado es MBart50TokenizerFast, que convierte el texto de entrada en tokens que el modelo entiende y devuelve los tokens decodificados en formato de texto
|
47 |
+
|
48 |
**Clasificaci贸n**:
|
49 |
|
50 |
- Tipo de tarea -> Traducci贸n autom谩tica y generaci贸n de texto
|
|
|
52 |
- Modelo preentrenado -> preentrenado en tareas de m煤ltiples idiomas y ajustable para traducci贸n espec铆fica
|
53 |
|
54 |
- Dominio de uso -> Procesamiento de lenguaje natural y traducci贸n
|
55 |
+
|
56 |
+
### Funci贸n principal: **transcribe_translate**
|
57 |
+
|
58 |
+
Convierte el audio subido (mp3 o wav, por ejemplo) a texto con Whisper, esperando que est茅 en ingl茅s, ya que Whisper 'base.en' est谩 entrenado para ello.
|
59 |
+
|
60 |
+
| model_inputs = tokenizer(transcription, return_tensors="pt") |
|
61 |
+
|
62 |
+
El modelo MBart genera los tokens traducidos al idioma objetivo especificado. Esto se consigue utilizando el ID del token del idioma (lang_code_to_id) proporcionado por el tokenizador
|
63 |
+
|
64 |
+
### Traducci贸n con MBart
|
65 |
+
|
66 |
+
El texto transcrito es procesado por el tokenizador de MBart, para luego convertirlo en tokens.
|
67 |
+
|
68 |
+
| generated_tokens = translation_model.generate(
|
69 |
+
**model_inputs,
|
70 |
+
forced_bos_token_id=tokenizer.lang_code_to_id[target_language]
|
71 |
+
)
|
72 |
+
|
|
73 |
+
|
74 |
### Sinergia para estos dos modelos:
|
75 |
Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en ingl茅s,
|
76 |
y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente
|