LeCastre commited on
Commit
51d82a5
verified
1 Parent(s): 57c1af1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -24,7 +24,7 @@ Se us贸 de referencia la Destilaci贸n de un modelo RoBERTa. Lo que se hizo fue d
24
 
25
  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64767104fb22e3b77f3f6d49/dlsTNDk7HJJP7OIjk9hor.png)
26
 
27
- El proceso de destilaci贸n de modelos BERT realizado implica reducir el tama帽o del modelo maestro dividiendo sus capas, por ejemplo, a la mitad en el modelo estudiante, manteniendo su estructura esencial. Seg煤n [1], se entrena al modelo peque帽o para imitar las salidas del maestro, utilizando t茅cnicas como la p茅rdida de entrop铆a cruzada y la temperatura de softmax para suavizar las predicciones. Como se menciona en [2], adem谩s de reducir capas, se ajustan los pesos y se optimizan las salidas intermedias para que el modelo destilado conserve el rendimiento. En [1] usaron la teor铆a de DistilBERT pero aplicado a un modelo RoBERTa de [2] y usando esta implementaci贸n, obviamente modific谩ndolo para nuestro modelo ProteinBERT, se logr贸 hacerle una destilaci贸n y obtener resultados muy similares al modelo original y con mucho menos peso que su modelo maestro.
28
  Citas:
29
  [1] Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF, DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019), Hugging Face
30
  [3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov, RoBERTa: un enfoque de preentrenamiento BERT optimizado de manera s贸lida (2019), arXiv
 
24
 
25
  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64767104fb22e3b77f3f6d49/dlsTNDk7HJJP7OIjk9hor.png)
26
 
27
+ Este proceso implica reducir el tama帽o del modelo maestro dividiendo sus capas, por ejemplo, a la mitad en el modelo estudiante, manteniendo su estructura esencial. Seg煤n [1], se entrena al modelo peque帽o para imitar las salidas del maestro, utilizando t茅cnicas como la p茅rdida de entrop铆a cruzada y la temperatura de softmax para suavizar las predicciones. Como se menciona en [2], adem谩s de reducir capas, se ajustan los pesos y se optimizan las salidas intermedias para que el modelo destilado conserve el rendimiento. En [1] usaron la teor铆a de DistilBERT pero aplicado a un modelo RoBERTa de [2] y usando esta implementaci贸n, obviamente modific谩ndolo para nuestro modelo ProteinBERT, se logr贸 hacerle una destilaci贸n y obtener resultados muy similares al modelo original y con mucho menos peso que su modelo maestro.
28
  Citas:
29
  [1] Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF, DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019), Hugging Face
30
  [3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov, RoBERTa: un enfoque de preentrenamiento BERT optimizado de manera s贸lida (2019), arXiv