davidkim205 commited on
Commit
a20f5eb
·
verified ·
1 Parent(s): fa738ce

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +38 -28
README.md CHANGED
@@ -96,36 +96,46 @@ ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장
96
 
97
  ## dataset info : translation_v3_346k
98
 
99
- | dataset name | ratio | size |
100
- | ----------------------------- | ------ | ------------- |
101
- | sharegpt-deepl-ko-translation | 33.86% | 117346/346559 |
102
- | aihub-MTPE | 5.77% | 20000/346559 |
103
- | aihub-techsci2 | 5.77% | 20000/346559 |
104
- | aihub-expertise | 5.77% | 20000/346559 |
105
- | aihub-humanities | 5.77% | 20000/346559 |
106
- | aihub-MT-new-corpus | 5.77% | 20000/346559 |
107
- | aihub-socialsci | 5.77% | 20000/346559 |
108
- | aihub-parallel-translation | 5.77% | 20000/346559 |
109
- | aihub-food | 5.77% | 20000/346559 |
110
- | aihub-techsci | 5.77% | 20000/346559 |
111
- | aihub-broadcast-content | 5.77% | 20000/346559 |
112
- | para_pat | 5.74% | 19898/346559 |
113
- | aihub-patent | 2.69% | 9315/346559 |
114
-
 
 
 
 
 
 
 
 
 
 
115
 
116
  ## Evaluation
117
- will be updated soon.
118
 
119
  https://github.com/davidkim205/translation
120
 
121
-
122
- | TYPE | Model | BLEU | SBLEU | Duplicate | Length Exceeds |
123
- | ----------- | :------------------------------- | ---- | ----- | --------- | -------------- |
124
- | HuggingFace | facebook/nllb-200-distilled-1.3B | 0.26 | 0.30 | 1 | 3 |
125
- | HuggingFace | jbochi/madlad400-10b-mt | 0.29 | 0.38 | 3 | 6 |
126
- | HuggingFace | Unbabel/TowerInstruct-7B-v0.1 | 0.32 | 0.39 | 1 | 9 |
127
- | HuggingFace | squarelike/Gugugo-koen-7B-V1.1 | 0.32 | 0.36 | 1 | 3 |
128
- | Cloud | deepl | 0.39 | 0.45 | 0 | 1 |
129
- | Cloud | azure | 0.40 | 0.49 | 0 | 3 |
130
- | Cloud | google | 0.40 | 0.49 | 0 | 2 |
131
- | HuggingFace | davidkim205/iris-7b(**ours**) | 0.40 | 0.43 | 0 | 3 |
 
 
96
 
97
  ## dataset info : translation_v3_346k
98
 
99
+ The dataset is not made public due to licensing issues.
100
+
101
+ | src | ratio | description |
102
+ | ------------------------------------------ | ----- | ------------------------------------------------------------ |
103
+ | aihub-MTPE | 5.56% | 기계번역 품질 사후검증 데이터셋 |
104
+ | aihub-techsci2 | 5.56% | ICT, 전기/전자 등 기술과학 분야 한영 번역 데이터셋 |
105
+ | aihub-expertise | 5.56% | 의료, 금융, 스포츠 등 전문분야 한영 번역 데이터셋 |
106
+ | aihub-humanities | 5.56% | 인문학 분야 한영 번역 데이터셋 |
107
+ | sharegpt-deepl-ko-translation | 5.56% | shareGPT 데이터셋을 질답 형식에서 한영 번역 형식으로 변환한 데이터셋 |
108
+ | aihub-MT-new-corpus | 5.56% | 기계 번역 앱 구축용 한영 번역 데이터셋 |
109
+ | aihub-socialsci | 5.56% | 법률, 교육, 경제 등 사회과학 분야 한영 번역 데이터셋 |
110
+ | korean-parallel-corpora | 5.56% | 한영 번역 병렬 데이터셋 |
111
+ | aihub-parallel-translation | 5.56% | 발화 유형 및 분야별 한영 번역 데이터셋 |
112
+ | aihub-food | 5.56% | 식품 분야 영한 번역 데이터셋 |
113
+ | aihub-techsci | 5.56% | ICT, 전기/전자 등 기술과학 분야 한영 번역 데이터셋 |
114
+ | para_pat | 5.56% | ParaPat 데이터셋의 영어-한국어 subset |
115
+ | aihub-speechtype-based-machine-translation | 5.56% | 발화 유형별 영한 번역 데이터셋 |
116
+ | koopus100 | 5.56% | OPUS-100 데이터셋의 영어-한국어 subset |
117
+ | aihub-basicsci | 5.56% | 수학, 물리학 등 기초과학 분야 한영 번역 데이터셋 |
118
+ | aihub-broadcast-content | 5.56% | 방송 콘텐츠 분야 한영 번역 데이터셋 |
119
+ | aihub-patent | 5.56% | 특허명세서 영한 번역 데이터셋 |
120
+ | aihub-colloquial | 5.56% | 신조어, 약어 등을 포함하는 구어체 한영 번역 데이터셋 |
121
+
122
+ Please refer to the url below for information on aihub licensing.
123
+
124
+ https://aihub.or.kr/partcptnmlrd/inqry/view.do?currMenu=144&topMenu=104
125
 
126
  ## Evaluation
 
127
 
128
  https://github.com/davidkim205/translation
129
 
130
+ | TYPE | Model | BLEU | SBLEU | Duplicate | Length Exceeds |
131
+ | ----------- | :---------------------------------- | ---- | ----- | --------- | -------------- |
132
+ | HuggingFace | facebook/nllb-200-distilled-1.3B | 0.26 | 0.30 | 1 | 3 |
133
+ | HuggingFace | jbochi/madlad400-10b-mt | 0.29 | 0.38 | 3 | 6 |
134
+ | HuggingFace | Unbabel/TowerInstruct-7B-v0.1 | 0.32 | 0.39 | 1 | 9 |
135
+ | HuggingFace | squarelike/Gugugo-koen-7B-V1.1 | 0.32 | 0.36 | 1 | 3 |
136
+ | HuggingFace | maywell/Synatra-7B-v0.3-Translation | 0.35 | 0.41 | 1 | 2 |
137
+ | Cloud | deepl | 0.39 | 0.45 | 0 | 1 |
138
+ | Cloud | azure | 0.40 | 0.49 | 0 | 3 |
139
+ | Cloud | google | 0.40 | 0.49 | 0 | 2 |
140
+ | Cloud | papago | 0.43 | 0.51 | 0 | 3 |
141
+ | HuggingFace | davidkim205/iris-7b (**ours**) | 0.40 | 0.43 | 0 | 3 |