ChatTTS - 对话式高可控的语音合成模型

项目功能:文本转语音模型

项目介绍:一款专门为对话场景设计的文本转语音模型,例如LLM助手对话任务,支持英文和中文两种语言。

最大的模型使用了 10 万小时以上的中英文数据进行训练。在 HuggingFace 中开源的版本为 4 万小时训练且未 SFT 的版本。

使用需知

为了限制 ChatTTS 的使用,我们在 4w 小时模型的训练过程中添加了少量额外的高频噪音,并用 mp3 格式尽可能压低了音质,以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型,并计划在未来开放。

项目亮点:

对话式 TTS:
ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
细粒度控制:
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
更好的韵律:
ChatTTS在韵律方面超越大部分开源TTS模型。同时提供预训练模型,支持进一步研究。

项目地址:

https://github.com/2noise/ChatTTS

传送门:

https://2noise.com/

资源加速:

国内访问GitHub资源缓慢看这篇《GitHub国内访问加速操作指南


ChatTTS - 对话式高可控的语音合成模型
https://pknote.top/52.html
作者
胖氪不胖
发布于
2024年6月14日
许可协议