|
--- |
|
license: other |
|
language: |
|
- ko |
|
- en |
|
- ja |
|
- zh |
|
pipeline_tag: fill-mask |
|
--- |
|
# Model Card for KEByT5-small (330M #params) |
|
|
|
<!-- Provide a quick summary of what the model is/does. --> |
|
KEByT5: Korean-Enhanced/Enriched Byte-level Text-to-Text Transfer Transformer(T5) |
|
|
|
ํฌ๋ก์ค๋ชจ๋ฌ ๋ฐ ๋ค๊ตญ์ด ์นํ์ ์ธ ํ๊ตญ์ด ์ค์ฌ์ ํ ํฐ-ํ๋ฆฌ ์ธ์ด ์ดํด ์์ฑ ๋ชจ๋ธ |
|
(EN=Cross-modal, Multilingual Friendly, Token-free Encoder-Decoder Pretrained Language Model for Korean) |
|
|
|
* ๋ณธ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ์๊ฐ, ์ฒญ๊ฐ๊ณผ ๊ฐ์ ํ
์คํธ ์ด์ธ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ต์ฐจ์ธ์ด ์ง์ ๊ตํ์ ์ฉ์ดํ ํ ํฐ-ํ๋ฆฌ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ๋ชฉํ๋ก ํฉ๋๋ค. |
|
* ๋ณ๋์ tokenizer๊ฐ ํ์์์ง๋ง, ํธ์๋ฅผ ์ํด AutoTokenizer.from_pretrained()๋ฅผ ์ฌ์ฉํ์ฌ ๋ค๋ฅธ ํ ํฌ๋์ด์ ๊ธฐ๋ฐ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ๊ณผ ๋์ผํ๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ํ ํฌ๋์ด์ ๋ฅผ ์๋ตํ๊ณ ์ถ์ ๊ฒฝ์ฐ, UTF-8 ์
๋ ฅ์ ๋ฐ์ดํธ ๋จ์๋ก ์ชผ๊ฐ์ด, ๊ฐ ๋ฐ์ดํธ์ +3์ ํ์ฌ Token ID๋ฅผ ์์ฑํฉ๋๋ค. (์ฆ, ASCII value 0 == Token ID 3, ASCII value 255 == Token ID 258) |
|
* ํ์ฌ Preview ์คํ
์ด์ง์ ์๋ ๋ชจ๋ธ์ด๋ฉฐ, ํ์ฉ์๋ fine-tuning์ด ํ์ํฉ๋๋ค. |
|
* small ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ถฉ๋ถํ ํ
์คํธ, ํ์ต๋์ง ์์, base ๋ฐ large ๋ชจ๋ธ ์ฌ์ฉ์ ๊ถ์ฅ ๋๋ฆฝ๋๋ค. (ํ๊ธฐ ํ๊ฐ ์งํ ์ฐธ์กฐ) |
|
|
|
## Acknowledgements |
|
* ๋ณธ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ 2022๋
๋ ์ ๋ถ(๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ)์ ์ฌ์์ผ๋ก ์ ๋ณดํต์ ๊ธฐํํ๊ฐ์์ ์ง์์ ๋ฐ์ ์ํ๋ ์ฐ๊ตฌ์ (No. RS-2022-00187238, ํจ์จ์ ์ฌ์ ํ์ต์ด ๊ฐ๋ฅํ ํ๊ตญ์ด ๋ํ ์ธ์ด๋ชจ๋ธ ์ฌ์ ํ์ต ๊ธฐ์ ๊ฐ๋ฐ) |
|
(EN=This pretrained language model was supported by the Institute of Information & communication Technology Planning & Evaluation(IITP) grant funded by the Korea government(MSIT) (No. RS-2022-00187238, Development of Large Korean Language Model Technology for Efficient Pre-training)) |
|
|
|
# Model Details |
|
|
|
๋ณธ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ๊ท๋ชจ๋ฅผ ๊ฐ์ง๋๋ค: |
|
* kebyt5-small : 330M |
|
* kebyt5-base : 580M [link](https://huggingface.co/etri-lirs/kebyt5-base-preview) |
|
* kebyt5-large : 1.23B [link](https://huggingface.co/etri-lirs/kebyt5-large-preview) |
|
|
|
์ด๋ค ๋ชจ๋ธ์ [google/byt5-small](https://huggingface.co/google/byt5-small), [google/byt5-base](https://huggingface.co/google/byt5-base), [google/byt5-large](https://huggingface.co/google/byt5-large) ๋ชจ๋ธ๊ณผ ๋์ผํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ํ ํฌ๋์ด์ (ByT5Tokenizer)์ ๊ตฌํ ์ ๋ ๋ชจ๋ธ์ ๋ณ๋์ ์์ ์์ด ๋ฐ๋ก ๊ตํํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค. |
|
huggingface transformers์์์ ์ฌ์ฉ๋ฒ ์ญ์, T5ForConditionalGeneration์ ๋์ผํ๊ฒ ์ฌ์ฉํ ์ ์์ต๋๋ค. |
|
|
|
## Model Description |
|
|
|
<!-- Provide a longer summary of what this model is. --> |
|
|
|
- **Developed by:** Language Intelligence Research Section, Electronics and Telecommunications Research Institute(ETRI) |
|
- **Model type:** Encoder-Decoder Transformer, specifically, ByT5. |
|
- **Language(s) (NLP):** Korean, English(partially for translation task), Chinese(partially for translation task), Japanese(partially for translation task). |
|
- **License:** Apache 2.0 License |
|
- **Finetuned from model:** kebyt5-small/-base/-xl model weights were initialized by google/byt5-* for Warm-start pretraining. |
|
|
|
## Model Sources |
|
|
|
- **Repository:** ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ํ์ต์ ์ํด, https://github.com/etri-crossmodal/llm-downstream-s2s |
|
- **Paper:** ์ ์ข
ํ ์ธ, "ํ๊ตญ์ด ์ค์ฌ์ ํ ํฐ-ํ๋ฆฌ ์ธ์ด ์ดํด-์์ฑ ๋ชจ๋ธ ์ฌ์ ํ์ต ์ฐ๊ตฌ", ์ 35ํ ํ๊ธ ๋ฐ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ ํ์ ๋ํ ๋
ผ๋ฌธ์ง, pp.711-715. 2023. |
|
(EN=Shin et al., "Towards Korean-Centric Token-free Pretrained Language Model", in Procs. of the 35th Annual Conference on Human and Cognitive Language Technology. pp. 711-715. 2023.) |
|
|
|
# Uses |
|
|
|
ํด๋น ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ์ฐ๊ตฌ ๋ฐ ๊ต์ก ๋ชฉ์ ์ ํ์ฉ์ผ๋ก ๊ทธ ์ฌ์ฉ ๋ชฉ์ ์ด ์ ํ๋ฉ๋๋ค. |
|
|
|
## Direct Use |
|
|
|
ํ์ฌ ๊ณต๊ฐ๋๋ ๋ชจ๋ธ์ T5 ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ Corrupted span denoising ๋ง์ผ๋ก ํ์ต๋์ด ์์ด, ์ค์ ์์ฉ ํ์คํฌ์ ์ ์ฉํ๊ธฐ ์ํด์๋ fine-tuning ๊ณผ์ ์ด ํ์ํฉ๋๋ค. |
|
|
|
Sentinel Token(token id 258, 257, 256, ...)์ ์ฌ์ฉํ์ฌ Masked Token Prediction์ ์ํํ ์ ์์ผ๋, ์์ธก๋ ๋ด์ฉ์๋ ๋ถ์ ์ ํ ๋ด์ฉ์ด ์์ ์ ์์ต๋๋ค. |
|
|
|
## Downstream Use [optional] |
|
|
|
Token-free ๋ชจ๋ธ์ ํน์ฑ ์, ๋ณต์กํ๊ฑฐ๋ Noisyํ ์
๋ ฅ์ ๊ฐ๊ฑดํ๋ฉฐ, ์งง์ ์ํ์ค ๊ธธ์ด์ ์์ฑ์ ์ ํฉํฉ๋๋ค. (์: ์ธ์ด ์ดํด, ๋ํ ์๋ต ์์ฑ) |
|
|
|
์ฌ์ ํ์ต์ 1024 bytes ๊ธธ์ด์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ด๊ณผํ๋ ๊ธด ์ํ์ค๋ฅผ ๋ค๋ฃจ๋ ๋ฌธ์ ์ ์ ํฉํ์ง ์์ ์ ์์ต๋๋ค. |
|
|
|
๋ ๊ธด ์ํ์ค๋ฅผ ๋ค๋ค์ผ ํ๋ ๋ฌธ์ ์์๋, [GBST ๊ธฐ๋ฐ์ ํ ํฐ-ํ๋ฆฌ ์ธ์ด๋ชจ๋ธ](https://huggingface.co/etri-lirs/gbst-kebyt5-base-preview)์ ์ฌ์ฉํ๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค. |
|
|
|
# Bias, Risks, Limitations, and Recommendations |
|
|
|
Masked Token Prediction์ ํตํด ํ๋๋ ์ ์๋ ์ ๋ณด์๋ ๋ค๋ฅธ ์์ฑํ ์ธ์ด๋ชจ๋ธ๊ณผ ๊ฐ์ ์ํ์ ๊ฐ์ง๊ณ ์์ ์ ์์ต๋๋ค. ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ์์ค, ์๋, ์ ์น์ ๋ด์ฉ ๋ฐ ๊ธฐํ ๊ฑฐ์น ์ธ์ด๋ค์ ๋ํ ๋ณ๋์ ์ฒ๋ฆฌ๊ฐ ์ด๋ฃจ์ด์ง์ง ์์์ต๋๋ค. ๋ฐ๋ผ์, ์ฌํ์ ์ผ๋ก ์ฉ์ธ๋์ง ์์ ํ ํฐ์ด๋ ํ
์คํธ๋ฅผ ์์ฑํ ์ ์์ผ๋ฉฐ, ์ฃผ๋ณ ๋ฌธ๋งฅ์ ๋ฐ๋ผ์ ๊ณต๊ฒฉ์ ์ธ ์
๋ ฅ์ ์ด๋ ํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์์์ง ์ฝ๊ฒ ์์ํ ์ ์์ต๋๋ค. |
|
|
|
ํํธ, ๋ณธ ์ธ์ด๋ชจ๋ธ์ ์ฃผ๋ก ํ๊ตญ์ด ํ
์คํธ๋ก ํ์ต๋์์ผ๋ฉฐ, ์ด๋ค์ ํน์ฑ์ ์ ์ดํ ์ ์๋ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ, ๊ทธ ์ค์์๋ ๋ถ๋ฅ, ์์ฝ, ์งง์ ๋ฌธ์ฅ ์์ฑ์ ์ ํฉํ ์ ์์ต๋๋ค. ์
์ถ๋ ฅ ์์ค์์ ๋ฏธ๋ฑ๋ก์ด(Out-of-Vocabulary)๊ฐ ์กด์ฌํ ์ ์์ผ๋, ์ฌ์ ํ์ต๋์ง ์์ ํ
์คํธ ์ํ์ค์ ๋ํด์๋ ์ถ๊ฐ์ ๋๋ฉ์ธ ์ ์ ํ์ต ๋ฐ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ฏธ์ธ์กฐ์ ์ด ํ์ํฉ๋๋ค. |
|
|
|
[More Information Needed] |
|
|
|
## How to Get Started with the Model |
|
Transformers 4.27.0 ์ด์์ ๋ฒ์ ์์, ๋ค์์ ํ์ด์ฌ ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๊ณผ tokenizer๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค: |
|
|
|
``` |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("etri-lirs/kebyt5-small-preview") |
|
model = AutoModelForSeq2SeqLM.from_pretrained("etri-lirs/kebyt5-small-preview") |
|
``` |
|
|
|
# Training Details |
|
|
|
## Training Data |
|
๋ณธ ์ฌ์ ํ์ต์๋ ์๋์ ๊ณต๊ฐ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค: |
|
|
|
* ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ์ ๋ฌธ v2.0 |
|
* ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ๊ตฌ์ด ๋ง๋ญ์น v1.2 |
|
* ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ๋ฌธ์ด ๋ง๋ญ์น v1.0 |
|
* ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ์ ๋ฌธ 2020 v1.0 |
|
* ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ์ ๋ฌธ 2021 v1.0 |
|
* ํ๊ตญ์ด ์ํคํผ๋์ด ๋คํ, [v2020.09.20](https://github.com/lovit/kowikitext) |
|
* [๋๋ฌด์ํค ๋คํ](https://github.com/lovit/namuwikitext) |
|
* ํ๊ตญ์ ๋ณดํ์งํฅ์, AIHub. ์ ๋ฌธ๋ถ์ผ ๋ง๋ญ์น, ๋ฒ๋ฅ /ํนํ ์ง์๋ฒ ์ด์ค, ๋
ผ๋ฌธ/๋์/๋ํ/๋๋ณธ ์์ฝ, ํ์/ํ์ผ/ํ์ค ๋ฒ์ญ ๋ง๋ญ์น, ์ฝ์ผํฐ/์ฃผ๋ฌธ/๋ด์ค๊ธฐ์ฌ/์๊ฐ์ ๋ณด ์ง์์๋ต, ๋ฐฉ์ก/ํ์/์๋ด ์์ฑ์ธ์ ๋ฐ์ดํฐ. |
|
* ํ๊ตญ์ ๋ณดํ์งํฅ์, AIHub. ๋๊ท๋ชจ ์น๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ๊ตญ์ด ๋ง๋ญ์น ๋ฐ์ดํฐ |
|
* ํ๊ตญ์ ๋ณดํ์งํฅ์, AIHub. ์จ๋ผ์ธ ๊ตฌ์ด์ฒด ๋ง๋ญ์น ๋ฐ์ดํฐ. |
|
* [KcBERT ๋ง๋ญ์น, v2022.3Q](https://github.com/Beomi/KcBERT) |
|
|
|
๋ํ, ์๋์ ์์ฒด ๊ตฌ์ถ๋ ๋ฐ์ดํฐ ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ ์ผ๋ถ๋ฅผ ์ฌ์ฉ, ์ ์ฒด ์ฝ ~220GB ๊ฐ๋์ ๋ฐ์ดํฐ๋ก ํ์ต๋์์ต๋๋ค. |
|
|
|
# Evaluation |
|
|
|
## Testing Data, Factors & Metrics & Results |
|
|
|
ํ๊ตญ์ด ์ธ์ด ์ดํด ํ์คํฌ์ ์ฌ์ฉ๋๋ [KLUE dataset, v1.1](https://klue-benchmark.com/)์ dev set์ ์ฌ์ฉํ์ฌ ํ๊ฐ๋์์ต๋๋ค. |
|
์์ฑ์ ๋ชจ๋ seq2seq์ ์ด์ฉํ ์ถ๋ ฅ ๋ ์ด๋ธ ์ง์ ์์ฑ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. |
|
|
|
| models | KLUE-TC(YNAT) (F1) | KLUE-NER (Entity, Char F1) | KLUE-DP (UAS, LAS) | KLUE-MRC (EM, ROUGE-W) | |
|
|-------------|---------------|--------------|-------------------|------------------| |
|
| google/byt5-large (1.23B) | 78.52 | 48.81, 63.95 | 44.26, 7.805 | _NOT TESTED_ | |
|
| KEByT5-Base (580M) | 84.99 | 86.75, 91.05 | 88.70, 85.90 | 62.28, 68.38 | |
|
| KEByT5-Large (1.23B) | 85.68 | 88.09, 92.40 | 87.18, 85.52 | 70.07, 75.81 | |
|
| GBST-KEByT5-Base (584M) | 85.29 | 87.35, 92.09 | 88.33, 85.00 | 59.69, 66.44 | |
|
|
|
๋ํ ์ํ ์ถ์ (DST; Dialogue State Tracking) ํ์คํฌ์ธ KLUE-WOS-v1.1 ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ํ๊ฐ๋ ๋ชจ๋ seq2seq์ ์ด์ฉํ ๋ค์ด์ผ๋ก๊ทธ ์ํ ์ง์ ์์ฑ์ ์ฌ์ฉํ์ต๋๋ค: |
|
| models | WOS (JGA, %) | WOS (F1, %) | |
|
| ------- | ---------- | ----------- | |
|
| klue/klue-roberta-large | 50.22 | 92.23 | |
|
| KEByT5-Base (580M) | 77.15 | 96.92 | |
|
| KEByT5-Large (1.23B) | 78.54 | 97.28 | |
|
|
|
๊ด๊ณ ์ถ์ถ(RE; Relation Extraction) ํ์คํฌ์ธ KLUE-RE-v1.1 ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. no_relation์ ์ ์ธํ 29๊ฐ์ ๊ด๊ณ ํด๋์ค์ ๋ํ Micro F1 ๊ฒฐ๊ณผ์
๋๋ค: |
|
| models | KLUE-RE (F1, %) | |
|
| ------- | ---------- | |
|
| klue/klue-roberta-base | 65.90 | |
|
| KEByT5-Base (580M) | 65.48 | |
|
| KEByT5-Large (1.23B) | 68.95 | |
|
|
|
|
|
## Compute Infrastructure |
|
|
|
* Trained on nVidia A100 80GB * 4EA |
|
|
|
# Citation |
|
|
|
* ํ์ ์ธ, "์์ฑํ ์ธ์ด๋ชจ๋ธ์ ์ด์ฉํ ๊ด๊ณ ์ถ์ถ", ์ 35ํ ํ๊ธ ๋ฐ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ ํ์ ๋ํ ๋
ผ๋ฌธ์ง. pp.708-710. 2023. |
|
* ์ด๊ธฐ์ ์ธ, "ํ๊ตญ์ด ํ ํฐ-ํ๋ฆฌ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ KeByT5๋ฅผ ์ด์ฉํ ํ๊ตญ์ด ์์ฑ ๊ธฐ๋ฐ ๋ํ ์ํ ์ถ์ ", ์ 35ํ ํ๊ธ ๋ฐ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ ํ์ ๋ํ ๋
ผ๋ฌธ์ง. pp.644-647. 2023. |
|
|
|
# Model Card Authors/Contacts |
|
|
|
Jong-hun Shin(ETRI), e-mail=jhshin82 _AT_ etri _DOT_ re _DOT_ kr. |
|
|
|
|
|
|