license: apache-2.0
language:
- ko
library_name: nemo
pipeline_tag: automatic-speech-recognition
tags:
- conformer-ctc
metrics:
- wer
Conformer-ctc-medium-ko
ํด๋น ๋ชจ๋ธ์ RIVA Conformer ASR Korean์ AI hub dataset์ ๋ํด ํ์ธํ๋์ ์งํํ์ต๋๋ค.
Conformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ whisper์ ๊ฐ์ attention ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ streaming์ ์งํํ์ฌ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง์ง ์๊ณ , ์๋๊ฐ ๋น ๋ฅด๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
V100 GPU์์๋ RTF๊ฐ 0.05, CPU(7 cores)์์๋ 0.35 ์ ๋ ๋์ค๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
์ค๋์ค chunk size 2์ด์ streaming ํ
์คํธ์์๋ ์ ์ฒด ์ค๋์ค๋ฅผ ๋ฃ๋ ๊ฒ์ ๋นํด์๋ 20% ์ ๋ ์ฑ๋ฅ์ ํ๊ฐ ์์ผ๋ ์ถฉ๋ถํ ์ฌ์ฉํ ์ ์๋ ์ฑ๋ฅ์
๋๋ค.
์ถ๊ฐ๋ก open domain์ด ์๋ ๊ณ ๊ฐ ์๋ ์์ฑ๊ณผ ๊ฐ์ domain์์๋ kenlm์ ์ถ๊ฐํ์์ ๋ WER 13.45์์ WER 5.27๋ก ํฌ๊ฒ ์ฑ๋ฅ ํฅ์์ด ์์์ต๋๋ค.
ํ์ง๋ง ๊ทธ ์ธ์ domain์์๋ kenlm์ ์ถ๊ฐ๊ฐ ํฐ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง์ง ์์์ต๋๋ค.
dataset
๋ฐ์ดํฐ์ ์ด๋ฆ | ๋ฐ์ดํฐ ์ํ ์(train/test) |
---|---|
๊ณ ๊ฐ์๋์์ฑ | 2067668/21092 |
ํ๊ตญ์ด ์์ฑ | 620000/3000 |
ํ๊ตญ์ธ ๋ํ ์์ฑ | 2483570/142399 |
์์ ๋ํ์์ฑ(์ผ๋ฐ๋จ๋ ) | 1886882/263371 |
๋ณต์ง ๋ถ์ผ ์ฝ์ผํฐ ์๋ด๋ฐ์ดํฐ | 1096704/206470 |
์ฐจ๋๋ด ๋ํ ๋ฐ์ดํฐ | 2624132/332787 |
๋ช ๋ น์ด ์์ฑ(๋ ธ์ธ๋จ์ฌ) | 137467/237469 |
์ ์ฒด | 10916423(13946์๊ฐ)/1206588(1474์๊ฐ) |
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 1e-05
- train_batch_size: 16
- eval_batch_size: 16
- num_train_epoch: 1
- sample_rate: 16000
- max_duration: 20.0
Training results
Training Loss | Epoch | Wer |
---|---|---|
9.09 | 1.0 | 11.51 |