Spaces:

MarcoM003
/

Proyecto1-ASR_Traduccion

Sleeping

App Files Files Community

Proyecto1-ASR_Traduccion / README.md

MarcoM003

Update README.md

b3b2ef9 verified 2 months ago

preview code

raw

history blame contribute delete

5.96 kB

	---
	title: PruebaSpeechTranslate
	emoji: 🏃
	colorFrom: indigo
	colorTo: purple
	sdk: gradio
	sdk_version: 5.6.0
	app_file: app.py
	pinned: false

	---
	Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

	---
	# Problema, solución, input y output

	- Problema principal:

	La comunicación entre distintas lenguas es imprescindible en la actualidad, por ello surge una necesidad de contar con una herramienta que permita la traducir contenido, en este caso, del inglés a otros idiomas ampliamente utilizados. Este sistema está en la integración de tecnologías de reconocimiento de voz, también conocido como ASR (Automatic Speech Recognition) y procesamiento de lenguaje natural para facilitar la traducción.

	- Solución:

	Consiste en desarrollar un sistema que procese audios en formatos comunes, como .mp3 o .wav, transcriba automáticamente el contenido previamente grabado en inglés y proporcione su traducción al idioma seleccionado. Aprovechando modelos de IA como Whisper y MBart, adaptadas al contexto del mensaje.

	- Especificaciones:

	Input: Un archivo de audio en formato compatible (MP3, WAV, etc.), cargado o grabado directamente por el usuario.


	Output: Una transcripción del audio en texto traducido al idioma seleccionado (español, alemán, ruso, francés o sueco).
	Además de responder a la necesidad de superar barreras a nivel de idiomas, también ofrece una experiencia intuitiva.

	# Descripción de los modelos, clasificación y limitaciones

	## Modelos utilizados
	### Whisper:
	Descripción: Modelo de transcripción de audio desarrollado por OpenAI. Tiene como objetivo pasar audios a texto. Basado en Transformer y entrenado con un conjunto grande de datos de muchos idiomas distintos, lo que permite tareas relacionadas con el ASR.

	Clasificación:

	- Tipo de tarea -> ASR

	- Modelo preentrenado -> preentrenado en datos multilingües y ajustable para tareas específicas

	- Dominio de uso -> Procesamiento de Lenguaje Natural y Reconocimiento de Voz

	### MBart:
	Descripción: Otro modelo multilingüe basado en Transformer. Útil para la traducción automática y demás tareas de generación de texto en múltiples idiomas. Preentrenado en tareas de reducción de ruido y puede ser ajustado para traducir específicamente entre dos pares de idiomas.
	Se utiliza el modelo "SnypzZz/Llama2-13b-Language-translate", el cual está basado en MBart. El tokenizador asociado es MBart50TokenizerFast, que convierte el texto de entrada en tokens que el modelo entiende y devuelve los tokens decodificados en formato de texto.

	Clasificación:

	- Tipo de tarea -> Traducción automática y generación de texto.

	- Modelo preentrenado -> preentrenado en tareas de múltiples idiomas y ajustable para traducción específica.

	- Dominio de uso -> Procesamiento de lenguaje natural y traducción.

	### Función principal: transcribe_translate

	Convierte el audio subido (mp3 o wav, por ejemplo) a texto con Whisper, esperando que esté en inglés, ya que Whisper 'base.en' está entrenado para ello.

	\| model_inputs = tokenizer(transcription, return_tensors="pt") \|
	\|:------------------------------------------------------------:\|

	El modelo MBart genera los tokens traducidos al idioma objetivo especificado. Esto se consigue utilizando el ID del token del idioma (lang_code_to_id) proporcionado por el tokenizador.

	### Traducción con MBart

	El texto transcrito es procesado por el tokenizador de MBart, para luego convertirlo en tokens.

	\| generated_tokens = translation_model.generate( **model_inputs, forced_bos_token_id=tokenizer.lang_code_to_id[target_language]) \|
	\|:--------------------------------------------------------------------------------------------------------------------------------:\|


	Los tokens generados se convierten de nuevo a texto en el idioma deseado.

	\| translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0] \|
	\|:---------------------------------------------------------------------------------------:\|



	### Sinergia para estos dos modelos:
	Tomamos como base que Whisper lo usamos para convertir un archivo de audio a texto en inglés,
	y MBart toma el texto transcrito, el cual lo traduce a otro idioma seleccionado previamente.

	Posibles limitaciones generales

	1.La precisión general dependerá tanto de la calidad de la transcripción como de la traducción. A la hora de la traducción, puede llegar errónea por culpa de la transcripción.

	2.Los recursos necesarios aumentan significativamente cuando ambos modelos se usan en tiempo real.

	3.Existe la posibilidad de incompatibilidades lingüisticas o culturales cuando se precise de traducir frases, dichos o expresiones que no tienen un significado directo en otro idioma.


	# Rendimiento

	Usando el hardware gratuito de Hugging Face (CPU basic - 2cCPU - 16GB), tenemos claramente, un rendimiento un tanto lento pero eficiente, no podemos
	esperar la mejor velocidad. Algunos testeos que he hecho marcan lo siguiente:

	\| audio \| traducción \|
	\|:---------:\|:--------------:\|
	\| 28s \| 26s \|
	\| 347s \| 190s \|
	\| 345s \| 190s \|

	Hay un notorio cambio entre los audios cortos y los largos, se aprovecha mejor con audios extensos.

	# Documentación usada

	- Whisper-small: https://huggingface.co/openai/whisper-small
	- tiny-random-MBartForConditionalGeneration: https://huggingface.co/trl-internal-testing/tiny-random-MBartForConditionalGeneration
	- SnypzZz/Llama2-13b-Language-translate: https://huggingface.co/SnypzZz/Llama2-13b-Language-translate
	- Idea de traductor: https://huggingface.co/spaces/xMcLovinx/translate/tree/main

	# NOTA
	Hay un limitador del modelo que desconozco y no he usado en el código, que pone un máximo de longitud de la transcripción, solo transcribe aproximadamente 15 segundos de audio, aunque cargues uno de mayor longitud.