preprocessing: graphemes: 'abcdefghijklmnopqrstuvwxyzäöüß0123456789-''áãåçèéêëíñóôøúûāćđğıőśşżžșțọứàʿîùăėęłšâïðòý' phonemes: ["'a", "'aɪ", "'aʊ", "'aː", "'e", "'eː", "'i", "'iː", "'o", "'oː", "'u", "'uː", "'y", "'yː", "'æ", "'ø", "'øː", "'œ", "'ɐ", "'ɑ", "'ɑː", "'ɔ", "'ɔɪ", "'ɔʏ", "'ɔː", "'ə", "'ɛ", "'ɛː", "'ɜ", "'ɜː", "'ɪ", "'ʊ", "'ʌ", "'ʏ", "'ʔa", "'ʔaɪ", "'ʔaʊ", "'ʔaː", "'ʔe", "'ʔeː", "'ʔi", "'ʔiː", "'ʔo", "'ʔoː", "'ʔu", "'ʔuː", "'ʔy", "'ʔyː", "'ʔæ", "'ʔø", "'ʔøː", "'ʔœ", "'ʔɑ", "'ʔɑː", "'ʔɔ", "'ʔɔɪ", "'ʔɔʏ", "'ʔə", "'ʔɛ", "'ʔɛː", "'ʔɪ", "'ʔʊ", "'ʔʌ", "'ʔʏ", 'a', 'aɪ', 'aʊ', 'aː', 'b', 'd', 'e', 'eː', 'f', 'g', 'h', 'i', 'iː', 'j', 'k', 'l', 'm', 'n', 'o', 'oː', 'p', 'r', 's', 't', 'u', 'uː', 'v', 'w', 'x', 'y', 'yː', 'z', 'æ', 'ç', 'ð', 'ø', 'øː', 'œ', 'ɐ', 'ɑ', 'ɑː', 'ɔ', 'ɔɪ', 'ɔʏ', 'ɔː', 'ə', 'ɛ', 'ɛː', 'ɜ', 'ɜː', 'ɥ', 'ɪ', 'ɳ', 'ʁ', 'ʃ', 'ʊ', 'ʌ', 'ʏ', 'ʒ', 'ʔa', 'ʔaɪ', 'ʔaʊ', 'ʔaː', 'ʔe', 'ʔeː', 'ʔi', 'ʔiː', 'ʔo', 'ʔoː', 'ʔu', 'ʔuː', 'ʔy', 'ʔyː', 'ʔæ', 'ʔøː', 'ʔɐ', 'ʔɔ', 'ʔɔɪ', 'ʔɔʏ', 'ʔɔː', 'ʔə', 'ʔɛ', 'ʔɛː', 'ʔɪ', 'ʔʊ', 'ʔʏ', 'θ'] model: type: 'autoreg_transformer' # Whether to use a forward transformer or autoregressive transformer model. # Choices: ['transformer', 'autoreg_transformer'] d_model: 512 d_fft: 1024 layers: 4 dropout: 0.1 heads: 4