Se le agregó citaciones
Browse files
README.md
CHANGED
@@ -24,6 +24,12 @@ Se usó de referencia la Destilación de un modelo RoBERTa. Lo que se hizo fue d
|
|
24 |
|
25 |
![image/png](https://cdn-uploads.huggingface.co/production/uploads/64767104fb22e3b77f3f6d49/dlsTNDk7HJJP7OIjk9hor.png)
|
26 |
|
|
|
|
|
|
|
|
|
|
|
|
|
27 |
## Model Details
|
28 |
|
29 |
### Model Description
|
|
|
24 |
|
25 |
![image/png](https://cdn-uploads.huggingface.co/production/uploads/64767104fb22e3b77f3f6d49/dlsTNDk7HJJP7OIjk9hor.png)
|
26 |
|
27 |
+
El proceso de destilación de modelos BERT realizado implica reducir el tamaño del modelo maestro dividiendo sus capas, por ejemplo, a la mitad en el modelo estudiante, manteniendo su estructura esencial. Según [1], se entrena al modelo pequeño para imitar las salidas del maestro, utilizando técnicas como la pérdida de entropía cruzada y la temperatura de softmax para suavizar las predicciones. Como se menciona en [2], además de reducir capas, se ajustan los pesos y se optimizan las salidas intermedias para que el modelo destilado conserve el rendimiento. En [1] usaron la teoría de DistilBERT pero aplicado a un modelo RoBERTa de [2] y usando esta implementación, obviamente modificándolo para nuestro modelo ProteinBERT, se logró hacerle una destilación y obtener resultados muy similares al modelo original y con mucho menos peso que su modelo maestro.
|
28 |
+
Citas:
|
29 |
+
[1] Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF, DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019), Hugging Face
|
30 |
+
[3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov, RoBERTa: un enfoque de preentrenamiento BERT optimizado de manera sólida (2019), arXiv
|
31 |
+
|
32 |
+
|
33 |
## Model Details
|
34 |
|
35 |
### Model Description
|