Problema, solución, input y output: =================================== - Problema principal: La comunicación entre distintas lenguas es imprescindible en la actualidad, por ello surge una necesidad de contar con una herramienta que permita la traducir contenido, en este caso, del inglés a otros idiomas ampliamente utilizados. Este sistema está en la integración de tecnologías de reconocimiento de voz, también conocido como ASR (Automatic Speech Recognition) y procesamiento de lenguaje natural para facilitar la traducción. - Solución: Consiste en desarrollar un sistema que procese audios en formatos comunes, como .mp3 o .wav, transcriba automáticamente el contenido previamente grabado en inglés y proporcione su traducción al idioma seleccionado. Aprovechando modelos de IA como Whisper y MBart, adaptadas al contexto del mensaje. - Especificaciones: Input: Un archivo de audio en formato compatible (MP3, WAV, etc.), cargado o grabado directamente por el usuario. Output: Una transcripción del audio en texto traducido al idioma seleccionado (español, alemán, ruso o francés). Además de responder a la necesidad de superar barreras a nivel de idiomas, también ofrece una experiencia intuitiva. Descripción de los modelos, clasificación y limitaciones: ========================================================= Modelos utilizados. - Whisper: *Descripción: Modelo de transcripción de audio desarrollado por OpenAI. Tiene como objetivo pasar audios a texto. Basado en Transformer y entrenado con un conjunto grande de datos de muchos idiomas distintos, lo que permite tareas relacionadas con el ASR. *Clasificacion: Tipo de tarea -> ASR. Modelo preentrenado -> preentrenado en datos multilingües y ajustable para tareas específicas. Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz - MBart: *Descripción: Otro modelo multilingüe basado en Transformer. Útil para la traducción automática y demás tareas de generación de texto en múltiples idiomas. Preentrenado en tareas de reducción de ruido y puede ser ajustado para traducir específicamente entre dos pares de idiomas. *Clasificación: Tipo de tarea -> Traducción automática y generación de texto. Modelo preentrenado -> preentrenado en tareas de múltiples idiomas y ajustable para traducción específica. Dominio de uso -> Procesamiento de lenguaje natural y traducción. - Sinergia para estos dos modelos: Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en inglés, y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente. - Posibles limitaciones generales: 1.La precisión general dependerá tanto de la calidad de la transcripción como de la traducción. A la hora de la traducción, puede llegar errónea por culpa de la transcripción. 2.Los recursos necesarios aumentan significativamente cuando ambos modelos se usan en tiempo real 3.Existe la posibilidad de incompatibilidades lingüisticas o culturales cuando se precise de traducir frases, dichos o expresiones que no tienen un significado directo en otro idioma.