Seed-TTS: 高质量、多功能的语音合成模型系列

Seed-TTS

语音合成

文本到语音

国内精选

Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型，能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色，通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力，并能生成高度表达性和多样性的语音。此外，提出了一种自蒸馏方法用于语音分解，以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT，它采用完全基于扩散的架构，不依赖于预先估计的音素持续时间，通过端到端处理进行语音生成。

需求人群：

"Seed-TTS适合需要高质量语音合成的企业和开发者，如智能助手、有声读物、虚拟助手、语音交互系统等。它的高自然度和可控性使其在提供语音服务时能够更好地满足用户需求，提升用户体验。"

使用场景示例：

智能助手使用Seed-TTS生成自然语音与用户交流

有声读物应用利用Seed-TTS为书籍提供流畅的朗读服务

虚拟助手通过Seed-TTS提供情感丰富的语音反馈

浏览量：904

打开站点

类似应用