davidkim205
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -96,36 +96,46 @@ ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장
|
|
96 |
|
97 |
## dataset info : translation_v3_346k
|
98 |
|
99 |
-
|
100 |
-
|
101 |
-
|
|
102 |
-
|
|
103 |
-
| aihub-
|
104 |
-
| aihub-
|
105 |
-
| aihub-
|
106 |
-
| aihub-
|
107 |
-
|
|
108 |
-
| aihub-
|
109 |
-
| aihub-
|
110 |
-
|
|
111 |
-
| aihub-
|
112 |
-
|
|
113 |
-
| aihub-
|
114 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
115 |
|
116 |
## Evaluation
|
117 |
-
will be updated soon.
|
118 |
|
119 |
https://github.com/davidkim205/translation
|
120 |
|
121 |
-
|
122 |
-
|
|
123 |
-
|
|
124 |
-
| HuggingFace |
|
125 |
-
| HuggingFace |
|
126 |
-
| HuggingFace |
|
127 |
-
| HuggingFace |
|
128 |
-
| Cloud | deepl
|
129 |
-
| Cloud | azure
|
130 |
-
| Cloud | google
|
131 |
-
|
|
|
|
|
96 |
|
97 |
## dataset info : translation_v3_346k
|
98 |
|
99 |
+
The dataset is not made public due to licensing issues.
|
100 |
+
|
101 |
+
| src | ratio | description |
|
102 |
+
| ------------------------------------------ | ----- | ------------------------------------------------------------ |
|
103 |
+
| aihub-MTPE | 5.56% | 기계번역 품질 사후검증 데이터셋 |
|
104 |
+
| aihub-techsci2 | 5.56% | ICT, 전기/전자 등 기술과학 분야 한영 번역 데이터셋 |
|
105 |
+
| aihub-expertise | 5.56% | 의료, 금융, 스포츠 등 전문분야 한영 번역 데이터셋 |
|
106 |
+
| aihub-humanities | 5.56% | 인문학 분야 한영 번역 데이터셋 |
|
107 |
+
| sharegpt-deepl-ko-translation | 5.56% | shareGPT 데이터셋을 질답 형식에서 한영 번역 형식으로 변환한 데이터셋 |
|
108 |
+
| aihub-MT-new-corpus | 5.56% | 기계 번역 앱 구축용 한영 번역 데이터셋 |
|
109 |
+
| aihub-socialsci | 5.56% | 법률, 교육, 경제 등 사회과학 분야 한영 번역 데이터셋 |
|
110 |
+
| korean-parallel-corpora | 5.56% | 한영 번역 병렬 데이터셋 |
|
111 |
+
| aihub-parallel-translation | 5.56% | 발화 유형 및 분야별 한영 번역 데이터셋 |
|
112 |
+
| aihub-food | 5.56% | 식품 분야 영한 번역 데이터셋 |
|
113 |
+
| aihub-techsci | 5.56% | ICT, 전기/전자 등 기술과학 분야 한영 번역 데이터셋 |
|
114 |
+
| para_pat | 5.56% | ParaPat 데이터셋의 영어-한국어 subset |
|
115 |
+
| aihub-speechtype-based-machine-translation | 5.56% | 발화 유형별 영한 번역 데이터셋 |
|
116 |
+
| koopus100 | 5.56% | OPUS-100 데이터셋의 영어-한국어 subset |
|
117 |
+
| aihub-basicsci | 5.56% | 수학, 물리학 등 기초과학 분야 한영 번역 데이터셋 |
|
118 |
+
| aihub-broadcast-content | 5.56% | 방송 콘텐츠 분야 한영 번역 데이터셋 |
|
119 |
+
| aihub-patent | 5.56% | 특허명세서 영한 번역 데이터셋 |
|
120 |
+
| aihub-colloquial | 5.56% | 신조어, 약어 등을 포함하는 구어체 한영 번역 데이터셋 |
|
121 |
+
|
122 |
+
Please refer to the url below for information on aihub licensing.
|
123 |
+
|
124 |
+
https://aihub.or.kr/partcptnmlrd/inqry/view.do?currMenu=144&topMenu=104
|
125 |
|
126 |
## Evaluation
|
|
|
127 |
|
128 |
https://github.com/davidkim205/translation
|
129 |
|
130 |
+
| TYPE | Model | BLEU | SBLEU | Duplicate | Length Exceeds |
|
131 |
+
| ----------- | :---------------------------------- | ---- | ----- | --------- | -------------- |
|
132 |
+
| HuggingFace | facebook/nllb-200-distilled-1.3B | 0.26 | 0.30 | 1 | 3 |
|
133 |
+
| HuggingFace | jbochi/madlad400-10b-mt | 0.29 | 0.38 | 3 | 6 |
|
134 |
+
| HuggingFace | Unbabel/TowerInstruct-7B-v0.1 | 0.32 | 0.39 | 1 | 9 |
|
135 |
+
| HuggingFace | squarelike/Gugugo-koen-7B-V1.1 | 0.32 | 0.36 | 1 | 3 |
|
136 |
+
| HuggingFace | maywell/Synatra-7B-v0.3-Translation | 0.35 | 0.41 | 1 | 2 |
|
137 |
+
| Cloud | deepl | 0.39 | 0.45 | 0 | 1 |
|
138 |
+
| Cloud | azure | 0.40 | 0.49 | 0 | 3 |
|
139 |
+
| Cloud | google | 0.40 | 0.49 | 0 | 2 |
|
140 |
+
| Cloud | papago | 0.43 | 0.51 | 0 | 3 |
|
141 |
+
| HuggingFace | davidkim205/iris-7b (**ours**) | 0.40 | 0.43 | 0 | 3 |
|