Modelo de Lenguaje para el español de México

Este modelo basado en Roberta se entrenó usando más de 140 millones de tweets de México en español. Recolectados entre diciembre del 2015 y febrero del 2023. A cada mensaje se le agruegó una etiqueta de información regionalizada como sigue:

estado _GEO mensaje

Algunos ejemplos son:

  • Coahuila _GEO Cómo estás amiga, nos conocemos? Soy soltero busco soltera. #PiedrasNegras #nava #allende #zaragoza
  • Tamaulipas _GEO Ando de buenas que ya les devolví sus unfollows y métanselos por el culo ☺.
  • BCS _GEO Ésa canción que cantas en silencio y la otra persona tmb. Bn raro.
  • Tamaulipas _GEO Hoy es la primera vez que manejo en estado de ebriedad 😞🙃

Como se puede observar, se mantuvieron mayúsculas y minúsculas, emoticones y palabras mal escritas. Por motivos de privacidad, se cambiaron las mensciones de usuario por el token _USR y las direcciones de internet por _URL.

Los tokens que idican el estado de la república son:

Estado Token
Aguascalientes Aguascalientes
Baja California BC
Baja California Sur BCS
Campeche Campeche
Chiapas Chiapas
Chihuahua Chihuahua
Ciudad de México Mexico_City
Coahuila de Zaragoza Coahuila
Colima Colima
Durango Durango
Guanajuato Guanajuato
Guerrero Guerrero
Hidalgo Hidalgo
Jalisco Jalisco
Michoacán de Ocampo Michoacán
Morelos Morelos
México Mexico
Nayarit Nayarit
Nuevo León NL
Oaxaca Oaxaca
Puebla Puebla
Querétaro Querétaro
Quintana Roo QR
San Luis Potosí SLP
Sinaloa Sinaloa
Sonora Sonora
Tabasco Tabasco
Tamaulipas Tamaulipas
Tlaxcala Tlaxcala
Veracruz de Ignacio de la Llave Veracruz
Yucatán Yucatán
Zacatecas Zacatecas

Se creó el vocabulario de tamaño 30k usando WordPiece. El modelo se entrenaron usando el enmascaramiento de palabras con probabilidad de 0.15. Se usó el optimizador AdamW con una tasa de aprendizaje de 0.00002 durante una época.

Uso

El modelo se puede usar con una pipeline:

from transformers import pipeline
unmasker = pipeline('fill-mask', model="guillermoruiz/mex_state")
for p in unmasker("<mask> _GEO Van a ganar los Tigres."):
    print(p['token_str'], p['score'])

Lo que produce la salida:

NL 0.2888392508029938
Coahuila 0.08982843905687332
Tamaulipas 0.0630788803100586
Mexico_City 0.06246586889028549
Jalisco 0.06113814190030098

Lo que indica que la región más probable es Nuevo León. Otros ejemplos son:

for p in unmasker("<mask> _GEO Van a ganar los Xolos."):
    print(p['token_str'], p['score'])
BC 0.23284225165843964
Jalisco 0.07845071703195572
Mexico_City 0.0761856958270073
Sinaloa 0.06842593103647232
Mexico 0.06353132426738739
for p in unmasker("<mask> _GEO Vamos para Pátzcuaro."):
    print(p['token_str'], p['score'])
Michoacán 0.6461890339851379
Guanajuato 0.0919179916381836
Jalisco 0.07710094749927521
Sonora 0.022813264280557632
Yucatán 0.02254747971892357
for p in unmasker("<mask> _GEO Vamos para Mérida."):
    print(p['token_str'], p['score'])
Yucatán 0.9046052694320679
QR 0.01990741863846779
Mexico_City 0.009980794973671436
Tabasco 0.009980794973671436
Jalisco 0.007273637689650059

Información Regional

Usando las capas de atención, se extrajeron las palabras más importantes para elegir el token de región. Esas palabras formaron el vocabulario asociado a cada una de las regiones. Los vocabularios pudieron ser comparados para formar la siguiente matriz de similaridad.

algo

Bias, Risks, and Limitations

[More Information Needed]

Evaluación

Este modelo es el que se indica como MexSmall en la siguiente tabla. Los conjuntos de prueba son tweets escritos en México y se puede ver que los modelos con información regional (MexSmall y MexLarge) tiene una clara ventaja contra las alternativas.

Dataset MexSmall MexLarge BETO RoBERTuito BERTIN Metric
RegTweets 0.7014 0.7244 0.6843 0.6689 0.7083 macro-F1
MexEmojis 0.5044 0.5047 0.4223 0.4491 0.4832 macro-F1
HomoMex 0.8131 0.8266 0.8099 0.8283 0.7934 macro-F1

Los conjuntos de datos RegTweets y MexEmojis están disponibles en Huggingface.

En la siguiente tabla se ven los resultados en textos en español genérico. Se puede apreciar que los modelos con información regional son muy competitivos a las alternativas.

Dataset MexSmall MexLarge BETO RoBERTuito BERTIN Metric
HAHA 0.8208 0.8215 0.8238 0.8398 0.8063 F1
SemEval2018 Anger 0.6435 0.6523 0.6148 0.6764 0.5406 pearson
SemEval2018 Fear 0.7021 0.6993 0.6750 0.7136 0.6809 pearson
SemEval2018 Joy 0.7220 0.7226 0.7124 0.7468 0.7391 pearson
SemEval2018 Sadness 0.7086 0.7072 0.6781 0.7475 0.6548 pearson
SemEval2018 Valence 0.8015 0.7994 0.7569 0.8017 0.6943 pearson
HOPE 0.7115 0.7036 0.6852 0.7347 0.6872 macro-F1
RestMex 3 0.7528 0.7499 0.7629 0.7588 0.7583 Special
HUHU 0.7849 0.7932 0.7887 0.8169 0.7938 F1

Citation [optional]

BibTeX:

[More Information Needed]

APA:

[More Information Needed]

Downloads last month
106
Safetensors
Model size
41.1M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.