ChatTTS es un modelo de texto a voz diseñado específicamente para escenarios de diálogo, como asistente de LLM. Ofrece TTS conversacional optimizado para conversaciones interactivas con múltiples interlocutores, proporcionando una síntesis del habla natural y expresiva. El modelo destaca en predecir y controlar características prosódicas detalladas como risas, pausas e interjecciones, superando a muchos modelos de TTS de código abierto en términos de prosodia. Con un modelo principal entrenado en más de 100,000 horas de datos de audio en chino e inglés, ChatTTS apoya investigaciones y desarrollo adicionales con modelos preentrenados. La hoja de ruta de la plataforma incluye la liberación de modelos base de código abierto, generación de audio en tiempo real y versiones de control multiemoción. Es importante tener en cuenta que ChatTTS está destinado únicamente para fines académicos e investigativos, y se alienta a los usuarios a utilizar la tecnología de manera responsable y ética. Para consultas sobre el modelo y la hoja de ruta, los usuarios pueden contactar al equipo en [email protected].