Hviske
Er en dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large.
Datasæt
Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle aldersgrupper og nogenlunde ligeligt fordelt på regioner samt køn.
Evaluering
Modellen opnår en WER (word error rate) på 5.8, hvilket så vidt jeg ved den bedste hidtil.
Optælling af fejl: WER beregnes baseret på tre typer af fejl:
- Substitutioner: Når ASR-modellen genkender et andet ord end det, der faktisk blev sagt.
- Indsættelser: Når ASR-modellen tilføjer ekstra ord, der ikke blev sagt.
- Sletninger: Når ASR-modellen undlader eller udelader ord, der blev sagt.
Fortolkning: En WER på 0% betyder perfekt genkendelse, uden fejl. En højere WER indikerer dårligere præstation af ASR-systemet. WER udtrykkes som en procentdel og bruges ofte til at sammenligne effektiviteten af forskellige ASR-modeller eller -systemer. Begrænsninger: Selvom WER er en standard og bredt anvendt måleenhed, har den begrænsninger:
Den tager ikke højde for semantisk betydning; forskellige fejl kan have varierende indflydelse på forståelsen af indholdet. Den behandler alle fejl ens, uanset deres indvirkning på meningen med sætningen. Den kan blive påvirket af længden og kompleksiteten af den refererede tekst.
- Downloads last month
- 20