ChatTTS - Introduction

ChatTTS est un modèle de synthèse vocale conçu spécifiquement pour les scénarios de dialogue, tels que l'assistant LLM. Il propose une synthèse vocale conversationnelle optimisée pour les conversations interactives avec plusieurs interlocuteurs, offrant une synthèse vocale naturelle et expressive. Le modèle excelle dans la prédiction et le contrôle des caractéristiques prosodiques fines telles que le rire, les pauses et les interjections, dépassant de nombreux modèles TTS open source en termes de prosodie. Avec un modèle principal entraîné sur plus de 100 000 heures de données audio chinoises et anglaises, ChatTTS prend en charge la recherche et le développement ultérieurs avec des modèles pré-entraînés. La feuille de route de la plateforme comprend la mise en open source des modèles de base, la génération audio en streaming et des versions de contrôle multi-émotion. Il est important de noter que ChatTTS est destiné uniquement à des fins académiques et de recherche, et les utilisateurs sont encouragés à utiliser la technologie de manière responsable et éthique. Pour toute question sur le modèle et la feuille de route, les utilisateurs peuvent contacter l'équipe à [email protected].

ChatTTS - Présentation

Dépôt GitHub : Code ChatTTS par 2noise