koziev ilya
commited on
Commit
·
c7072f7
1
Parent(s):
93cd37e
links to github repository with supplementary code
Browse files
README.md
CHANGED
@@ -11,6 +11,7 @@ tags:
|
|
11 |
Это генеративная модель на основе ```sberbank-ai/rugpt3large_based_on_gpt2```, дообученной
|
12 |
на датасете перефразировок [inkoziev/paraphrases](https://huggingface.co/datasets/inkoziev/paraphrases).
|
13 |
Она разработана для использования в проекте [генеративной поэзии](https://github.com/Koziev/verslibre).
|
|
|
14 |
|
15 |
|
16 |
### Особенности перефразировки
|
@@ -24,14 +25,14 @@ tags:
|
|
24 |
|
25 |
В обучающем датасете есть негативные примеры перефразировок, и я использую их вместе с правильными примерами в ходе файнтюна,
|
26 |
подавая на классификационную голову в [GPT2DoubleHeadsModel](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel).
|
27 |
-
Код, выполняющий файнтюн, доступен [тут](https://
|
28 |
|
29 |
Такой подход к файнтюну оказался лучше, чем два других подхода:
|
30 |
|
31 |
1) дефолтный способ файнтюна, когда GPT дообучается просто на текстах, состоящих из исходного текста и перефразировки,
|
32 |
разделенных специальным токеном. В этом подходе модель обучается также на токенах затравки, что может быть нежелательным.
|
33 |
2) вариация первого способа, в котором токены затравки (исходного текста) исключаются из обратного распространения с помощью
|
34 |
-
задания labels=-100.
|
35 |
|
36 |
В качестве метрики для сравнения подходов и для подбора числа неверных вариантов перефразировки в GPT2DoubleHeadsModel
|
37 |
использована комбинация из:
|
|
|
11 |
Это генеративная модель на основе ```sberbank-ai/rugpt3large_based_on_gpt2```, дообученной
|
12 |
на датасете перефразировок [inkoziev/paraphrases](https://huggingface.co/datasets/inkoziev/paraphrases).
|
13 |
Она разработана для использования в проекте [генеративной поэзии](https://github.com/Koziev/verslibre).
|
14 |
+
Код для тренировки и использования перефразировщика доступен в репозитрии [https://github.com/Koziev/paraphraser](https://github.com/Koziev/paraphraser).
|
15 |
|
16 |
|
17 |
### Особенности перефразировки
|
|
|
25 |
|
26 |
В обучающем датасете есть негативные примеры перефразировок, и я использую их вместе с правильными примерами в ходе файнтюна,
|
27 |
подавая на классификационную голову в [GPT2DoubleHeadsModel](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel).
|
28 |
+
Код, выполняющий файнтюн, доступен [тут](https://github.com/Koziev/paraphraser/blob/main/train_paraphraser_with_gpt2doublehead.py).
|
29 |
|
30 |
Такой подход к файнтюну оказался лучше, чем два других подхода:
|
31 |
|
32 |
1) дефолтный способ файнтюна, когда GPT дообучается просто на текстах, состоящих из исходного текста и перефразировки,
|
33 |
разделенных специальным токеном. В этом подходе модель обучается также на токенах затравки, что может быть нежелательным.
|
34 |
2) вариация первого способа, в котором токены затравки (исходного текста) исключаются из обратного распространения с помощью
|
35 |
+
задания labels=-100 ([код](https://github.com/Koziev/paraphraser/blob/main/finetune_paraphraser_with_prompt_masking.py)).
|
36 |
|
37 |
В качестве метрики для сравнения подходов и для подбора числа неверных вариантов перефразировки в GPT2DoubleHeadsModel
|
38 |
использована комбинация из:
|