O ChatTTS é um modelo de texto para fala especificamente projetado para cenários de diálogo, como assistente de LLM. Ele oferece TTS conversacional otimizado para conversas interativas com vários interlocutores, proporcionando uma síntese de fala natural e expressiva. O modelo se destaca na previsão e controle de características prosódicas detalhadas, como risos, pausas e interjeições, superando muitos modelos de TTS de código aberto em termos de prosódia. Com um modelo principal treinado em mais de 100.000 horas de dados de áudio em chinês e inglês, o ChatTTS suporta pesquisas e desenvolvimentos adicionais com modelos pré-treinados. O roteiro da plataforma inclui a disponibilização de modelos base de código aberto, geração de áudio em tempo real e versões de controle multiemoção. É importante observar que o ChatTTS é destinado apenas para fins acadêmicos e de pesquisa, e os usuários são incentivados a utilizar a tecnologia de forma responsável e ética. Para dúvidas sobre o modelo e o roteiro, os usuários podem contatar a equipe em [email protected].