metadata

language: zh-CN
datasets:
  - aishell1
metrics:
  - cer
tags:
  - audio
  - automatic-speech-recognition
  - speech
  - xlsr-fine-tuning-week
license: apache-2.0
model-index:
  - name: XLSR Wav2Vec2 Large 53 - Chinese (zh-CN), by Yue Qin
    results:
      - task:
          name: Speech Recognition
          type: automatic-speech-recognition
        dataset:
          name: AISHELL-1 zh-CN
          type: aishell1
          args: zh-CN
        metrics:
          - name: Test CER
            type: cer
            value: 7.04

Wav2Vec2-Large-XLSR-53-Chinese-zh-CN-aishell1

Fine-tuned facebook/wav2vec2-large-xlsr-53 on Chinese using the AISHELL-1. When using this model, make sure that your speech input is sampled at 16kHz.

Test Result:

In the table below I report the Character Error Rate (CER) of the model. I ran the evaluation script described above.

Model	CER	CER-with-LM
qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1	7.04%	3.96%