# The model card for the vibe bot audio AI pipeline, includes all the necessary model and bin file 
Here is the [code base](https://github.com/Leeviber/audio_ai_pipeline) for vibe bot ai pipeline:
 
<p align="center">
  <img src="./vibe_bot.jpg" alt="vibe bot in 2050" width="1280" height="240">
</p>

- **espeak-ng-data**
  - speak data for TTS
  
  
- **Id1_resnet34_LM_main_part.rknn**
  - Speaker ID RKNN part model
  - run on NPU
  - part 1
 
  
- **Id2_resnet34_LM_post.onnx**
  - Speaker ID ONNX part model
  - run on CPU
  - part2

- **encoder-epoch-30-avg-4.int8.onnx**
  - STT encoder model 
  - int8
    
- **encoder-epoch-30-avg-4.onnx**
  - STT encoder model
  - float 32
  
- **decoder-epoch-30-avg-4.int8.onnx**
  - STT decoder model 
  - int8
  
- **decoder-epoch-30-avg-4.onnx**
  - STT encoder model
  - float32
  
- **eff_word.rknn**
  - KWS rknn model
  - run on NPU
  
- **embedding_864.bin**
  - KWS comparision samples
  - store as bin file for efficient

- **en_GB-rachel-medium.onnx**
  - TTS onnx model
  - rum on CPU
  - GB accent, female
  
- **en_GB-rachel-medium.onnx.json**
  - TTS onnx model json file
 
- **en_US-joe-medium.onnx**
  - TTS onnx model
  - rum on CPU
  - US accent, male
  
- **en_US-joe-medium.onnx.json**
  - TTS onnx model json file

- **fb_t.bin**
  - KWS feat bin 
  
- **joiner-epoch-30-avg-4.int8.onnx**
  - STT joiner model 
  - int8
  
- **joiner-epoch-30-avg-4.onnx**
  - STT joiner model
  - float32
  
- **silero_vad.onnx**
  - AI vad model
  - Upload silero_vad.onnx

- **tokens.txt**
  - STT tokens map text
  
  
- **voxceleb_CAM++_LM.onnx**
  - Speaker ID model
  
- **voxceleb_resnet34_LM.onnx**
  - Speaker ID model