File size: 2,023 Bytes
24a9843 13f4341 d6a4b3d 24a9843 68acc64 24a9843 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 |
---
license: apache-2.0
language:
- ko
library_name: nemo
pipeline_tag: automatic-speech-recognition
tags:
- conformer-ctc
metrics:
- wer
---
# Conformer-ctc-medium-ko
ํด๋น ๋ชจ๋ธ์ [RIVA Conformer ASR Korean](https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/speechtotext_ko_kr_conformer)์ AI hub dataset์ ๋ํด ํ์ธํ๋์ ์งํํ์ต๋๋ค. <br>
Conformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ whisper์ ๊ฐ์ attention ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ streaming์ ์งํํ์ฌ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง์ง ์๊ณ , ์๋๊ฐ ๋น ๋ฅด๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.<br>
V100 GPU์์๋ RTF๊ฐ 0.05, CPU(7 cores)์์๋ 0.35 ์ ๋ ๋์ค๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.<br>
์ค๋์ค chunk size 2์ด์ streaming ํ
์คํธ์์๋ ์ ์ฒด ์ค๋์ค๋ฅผ ๋ฃ๋ ๊ฒ์ ๋นํด์๋ 20% ์ ๋ ์ฑ๋ฅ์ ํ๊ฐ ์์ผ๋ ์ถฉ๋ถํ ์ฌ์ฉํ ์ ์๋ ์ฑ๋ฅ์
๋๋ค.<br>
์ถ๊ฐ๋ก open domain์ด ์๋ ๊ณ ๊ฐ ์๋ ์์ฑ๊ณผ ๊ฐ์ domain์์๋ kenlm์ ์ถ๊ฐํ์์ ๋ WER 13.45์์ WER 5.27๋ก ํฌ๊ฒ ์ฑ๋ฅ ํฅ์์ด ์์์ต๋๋ค.<br>
ํ์ง๋ง ๊ทธ ์ธ์ domain์์๋ kenlm์ ์ถ๊ฐ๊ฐ ํฐ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง์ง ์์์ต๋๋ค.
### dataset
| ๋ฐ์ดํฐ์
์ด๋ฆ | ๋ฐ์ดํฐ ์ํ ์(train/test) |
| --- | --- |
| ๊ณ ๊ฐ์๋์์ฑ | 2067668/21092 |
| ํ๊ตญ์ด ์์ฑ | 620000/3000 |
| ํ๊ตญ์ธ ๋ํ ์์ฑ | 2483570/142399 |
| ์์ ๋ํ์์ฑ(์ผ๋ฐ๋จ๋
) | 1886882/263371 |
| ๋ณต์ง ๋ถ์ผ ์ฝ์ผํฐ ์๋ด๋ฐ์ดํฐ | 1096704/206470 |
| ์ฐจ๋๋ด ๋ํ ๋ฐ์ดํฐ | 2624132/332787 |
| ๋ช
๋ น์ด ์์ฑ(๋
ธ์ธ๋จ์ฌ) | 137467/237469 |
| ์ ์ฒด | 10916423(13946์๊ฐ)/1206588(1474์๊ฐ) |
## Training procedure
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 1e-05
- train_batch_size: 16
- eval_batch_size: 16
- num_train_epoch: 1
- sample_rate: 16000
- max_duration: 20.0
### Training results
| Training Loss | Epoch | Wer |
|:-------------:|:-----:|:-------:|
| 9.09 | 1.0 | 11.51 | |