File size: 9,628 Bytes
b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 b63d0da 1893db8 427076e 1893db8 b63d0da 7854217 b63d0da 7854217 b63d0da 7854217 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 |
---
license: mit
language:
- multilingual
- af
- am
- ar
- as
- az
- be
- bg
- bn
- br
- bs
- ca
- cs
- cy
- da
- de
- el
- en
- eo
- es
- et
- eu
- fa
- fi
- fr
- fy
- ga
- gd
- gl
- gu
- ha
- he
- hi
- hr
- hu
- hy
- id
- is
- it
- ja
- jv
- ka
- kk
- km
- kn
- ko
- ku
- ky
- la
- lo
- lt
- lv
- mg
- mk
- ml
- mn
- mr
- ms
- my
- ne
- nl
- 'no'
- om
- or
- pa
- pl
- ps
- pt
- ro
- ru
- sa
- sd
- si
- sk
- sl
- so
- sq
- sr
- su
- sv
- sw
- ta
- te
- th
- tl
- tr
- ug
- uk
- ur
- uz
- vi
- xh
- yi
- zh
datasets:
- agentlans/en-translations
base_model:
- agentlans/multilingual-e5-small-aligned
pipeline_tag: text-classification
tags:
- multilingual
- readability-assessment
---
# multilingual-e5-small-aligned-readability
This model is a fine-tuned version of [agentlans/multilingual-e5-small-aligned](https://huggingface.co/agentlans/multilingual-e5-small-aligned) designed for assessing text readability across multiple languages.
## Key Features
- Multilingual support
- Readability assessment for text
- Based on E5 small model architecture
## Intended Uses & Limitations
This model is intended for:
- Assessing the readability of multilingual text
- Filtering multilingual content
- Comparative analysis of corpus text readability across different languages
Limitations:
- Performance may vary for languages not well-represented in the training data
- Should not be used as the sole criterion for readability assessment
## Usage Example
```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
model_name = "agentlans/multilingual-e5-small-aligned-readability"
# Initialize tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
def readability(text):
"""Assess the readability of the input text."""
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device)
with torch.no_grad():
logits = model(**inputs).logits.squeeze().cpu()
return logits.tolist()
# Grade level conversion function
# Input: readability value
# Output: the equivalent U.S. education grade level
def grade_level(y):
lambda_, mean, sd = 0.8766912, 7.908629, 3.339119
y_unstd = (-y) * sd + mean
return np.power((y_unstd * lambda_ + 1), (1 / lambda_))
# Example
input_text = "The mitochondria is the powerhouse of the cell."
readability_score = readability(input_text)
grade = grade_level(readability_score)
print(f"Predicted score: {readability_score:.2f}\nGrade: {grade:.1f}")
```
## Performance Results
The model was evaluated on a diverse set of multilingual text samples:
- 10 English text samples of varying readability were translated into Arabic, Chinese, French, Russian, and Spanish.
- The model demonstrated consistent readability assessment across different languages for the same text.
<details>
<summary>Click here for the 10 original texts and their translations.</summary>
| **Text** | **English** | **French** | **Spanish** | **Chinese** | **Russian** | **Arabic** |
|---|---|---|---|---|---|---|
| A | In a world increasingly dominated by technology, the delicate balance between human connection and digital interaction has become a focal point of contemporary discourse. | Dans un monde de plus en plus dominé par la technologie, l’équilibre délicat entre la connexion humaine et l’interaction numérique est devenu un point central du discours contemporain. | En un mundo cada vez más dominado por la tecnología, el delicado equilibrio entre la conexión humana y la interacción digital se ha convertido en un punto focal del discurso contemporáneo. | 在一个日益受技术主导的世界里,人际联系和数字互动之间的微妙平衡已经成为当代讨论的焦点。 | В мире, где все больше доминируют технологии, тонкий баланс между человеческими связями и цифровым взаимодействием стал центральным вопросом современного дискурса. | في عالم تهيمن عليه التكنولوجيا بشكل متزايد، أصبح التوازن الدقيق بين التواصل البشري والتفاعل الرقمي نقطة محورية في الخطاب المعاصر. |
| B | Despite the challenges they faced, the team remained resolute in their pursuit of excellence and innovation. | Malgré les défis auxquels elle a été confrontée, l’équipe est restée déterminée dans sa quête de l’excellence et de l’innovation. | A pesar de los desafíos que enfrentaron, el equipo se mantuvo firme en su búsqueda de la excelencia y la innovación. | 尽管面临挑战,该团队仍然坚定地追求卓越和创新。 | Несмотря на трудности, с которыми пришлось столкнуться, команда сохраняла решимость в своем стремлении к совершенству и инновациям. | وعلى الرغم من التحديات التي واجهوها، ظل الفريق مصمماً على سعيه لتحقيق التميز والابتكار. |
| C | As the storm approached, the sky turned a deep shade of gray, casting an eerie shadow over the landscape. | À l’approche de la tempête, le ciel prenait une teinte grise profonde, projetant une ombre étrange sur le paysage. | A medida que se acercaba la tormenta, el cielo se tornó de un gris profundo, proyectando una sombra inquietante sobre el paisaje. | 随着暴风雨的临近,天空变成了深灰色,给大地投下了一层阴森的阴影。 | По мере приближения шторма небо приобрело глубокий серый оттенок, отбрасывая на пейзаж жуткую тень. | ومع اقتراب العاصفة، تحولت السماء إلى لون رمادي غامق، مما ألقى بظلال مخيفة على المشهد الطبيعي. |
| D | After a long day at work, he finally relaxed with a cup of tea. | Après une longue journée de travail, il s'est enfin détendu avec une tasse de thé. | Después de un largo día de trabajo, finalmente se relajó con una taza de té. | 工作了一天之后,他终于可以喝杯茶放松一下了。 | После долгого рабочего дня он наконец расслабился за чашкой чая. | بعد يوم طويل في العمل، استرخى أخيرًا مع كوب من الشاي. |
| E | The quick brown fox jumps over the lazy dog. | Le renard brun rapide saute par-dessus le chien paresseux. | El rápido zorro marrón salta sobre el perro perezoso. | 这只敏捷的棕色狐狸跳过了那只懒狗。 | Быстрая бурая лиса перепрыгивает через ленивую собаку. | يقفز الثعلب البني السريع فوق الكلب الكسول. |
| F | She enjoys reading books in her free time. | Elle aime lire des livres pendant son temps libre. | A ella le gusta leer libros en su tiempo libre. | 她喜欢在空闲时间读书。 | В свободное время она любит читать книги. | إنها تستمتع بقراءة الكتب في وقت فراغها. |
| G | The sun is shining brightly today. | Le soleil brille fort aujourd'hui. | Hoy el sol brilla intensamente. | 今天阳光明媚。 | Сегодня ярко светит солнце. | الشمس مشرقة بقوة اليوم. |
| H | Birds are singing in the trees. | Les oiseaux chantent dans les arbres. | Los pájaros cantan en los árboles. | 鸟儿在树上唱歌。 | Птицы поют на деревьях. | الطيور تغرد في الأشجار. |
| I | The cat is on the mat. | Le chat est sur le tapis. | El gato está sobre la alfombra. | 猫在垫子上。 | Кот на коврике. | القطة على الحصيرة. |
| J | I like to eat apples. | J'aime manger des pommes. | Me gusta comer manzanas. | 我喜欢吃苹果。 | Я люблю есть яблоки. | أنا أحب أكل التفاح. |
</details>
<img src="Readability.svg" alt="Scatterplot of predicted readability scores grouped by text sample and language" width="100%"/>
## Training Data
The model was trained on the [Multilingual Parallel Sentences dataset](https://huggingface.co/datasets/agentlans/en-translations), which includes:
- Parallel sentences in English and various other languages
- Semantic similarity scores calculated using LaBSE
- Additional readability metrics
- Sources: JW300, Europarl, TED Talks, OPUS-100, Tatoeba, Global Voices, and News Commentary
## Training procedure
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 128
- eval_batch_size: 8
- seed: 42
- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: linear
- num_epochs: 3.0
### Training results
| Training Loss | Epoch | Step | Validation Loss | Mse |
|:-------------:|:-----:|:-----:|:---------------:|:------:|
| 0.1484 | 1.0 | 7813 | 0.1324 | 0.1324 |
| 0.1157 | 2.0 | 15626 | 0.1241 | 0.1241 |
| 0.096 | 3.0 | 23439 | 0.1234 | 0.1234 |
### Framework versions
- Transformers 4.46.3
- Pytorch 2.5.1+cu124
- Datasets 3.1.0
- Tokenizers 0.20.3
|