Spaces:

MarcoM003
/

Proyecto1-ASR_Traduccion

Sleeping

App Files Files Community

MarcoM003 commited on Nov 18, 2024

Commit

e591ae6

verified ·

1 Parent(s): ad79dec

Delete Descripcion.txt

Browse files

Files changed (1) hide show

Descripcion.txt +0 -53

Descripcion.txt DELETED Viewed

@@ -1,53 +0,0 @@
-# Problema, solución, input y output
-- *Problema principal*:
-    La comunicación entre distintas lenguas es imprescindible en la actualidad, por ello surge una necesidad de contar con una herramienta que permita la traducir contenido, en este caso, del inglés a otros idiomas ampliamente utilizados. Este sistema está en la integración de tecnologías de reconocimiento de voz, también conocido como ASR (Automatic Speech Recognition) y procesamiento de lenguaje natural para facilitar la traducción.
-- *Solución*:
-    Consiste en desarrollar un sistema que procese audios en formatos comunes, como .mp3 o .wav, transcriba automáticamente el contenido previamente grabado en inglés y proporcione su traducción al idioma seleccionado. Aprovechando modelos de IA como Whisper y MBart, adaptadas al contexto del mensaje.
-- *Especificaciones*:
-    Input: Un archivo de audio en formato compatible (MP3, WAV, etc.), cargado o grabado directamente por el usuario.
-    Output: Una transcripción del audio en texto traducido al idioma seleccionado (español, alemán, ruso o francés).
-    Además de responder a la necesidad de superar barreras a nivel de idiomas, también ofrece una experiencia intuitiva.
-# Descripción de los modelos, clasificación y limitaciones
-## Modelos utilizados
-### Whisper:
-   **Descripción**: Modelo de transcripción de audio desarrollado por OpenAI. Tiene como objetivo pasar audios a texto. Basado en Transformer y entrenado con un conjunto grande de datos de muchos idiomas distintos, lo que permite tareas relacionadas con el ASR.
-   **Clasificación**:
-- Tipo de tarea -> ASR
-- Modelo preentrenado -> preentrenado en datos multilingües y ajustable para tareas específicas
-- Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz
-### MBart:
-   **Descripción**: Otro modelo multilingüe basado en Transformer. Útil para la traducción automática y demás tareas de generación de texto en múltiples idiomas. Preentrenado en tareas de reducción de ruido y puede ser ajustado para traducir específicamente entre dos pares de idiomas.
-   **Clasificación**:
-- Tipo de tarea -> Traducción automática y generación de texto
-- Modelo preentrenado -> preentrenado en tareas de múltiples idiomas y ajustable para traducción específica
-- Dominio de uso -> Procesamiento de lenguaje natural y traducción
-### Sinergia para estos dos modelos:
-    Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en inglés,
-    y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente
-**Posibles limitaciones generales**
-  1.La precisión general dependerá tanto de la calidad de la transcripción como de la traducción. A la hora de la traducción, puede llegar errónea por culpa de la transcripción
-  2.Los recursos necesarios aumentan significativamente cuando ambos modelos se usan en tiempo real
-  3.Existe la posibilidad de incompatibilidades lingüisticas o culturales cuando se precise de traducir frases, dichos o expresiones que no tienen un significado directo en otro idioma