AI说书媲美真人！豆包语音大模型升级长上下文理解

AI说书确实可以媲美真人，豆包语音大模型通过升级长上下文理解，实现了显著的进步。

市面上虽然已有众多语音模型能够保证较为自然的合成表现，但在音质、韵律、情感表达，以及多角色演绎方面，仍存在较大的提升空间。特别是在小说演播场景下，要达到一流主播的细腻演播效果，需要解决旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等关键问题。

传统的小说TTS（Text To Speech，文本转语音）生成方式，通常需要提前为对话旁白、情感、角色等打标签，这一过程豆包大模型教程繁琐且耗时。而豆包语音模型则采用了端到端的合成方式，无需额外的标签标注，大大简化了生产流程。

豆包技术团队对Seed-TTS技术进行了改进，以提升小说演播下的语音表现力和长文本的理解能力。具体来说，改进包括以下几个方面：

数据处理：对小说音频进行章节级别处理，保证了长文下的语音一致性和连贯性。这一处理方式使得模型能够更好地理解并演绎长篇小说的故事情节和角色变化。
特征融合：融合TTS前端提取的音素、音调、韵律信息和原始文本，提升发音和韵律的同时，保留了小说的语义信息。这一改进使得合成语音在发音准确、韵律自然的同时，还能准确传达小说的内容和情感。
结构改进：将speech tokenizer改为speaker embedding，解除了reference audio（参考音频）对于语音风格的限制。因此，同一个发音人能够在不同角色上作出更贴合人设的演绎，提高了角色的区分度和表现力。
上下文感知：在目标合成文本之外，额外加入了上下文的信息，使得模型能够感知更大范围的语义信息。这一改进使得旁白和角色音的表现更精准到位，提升了整体演播效果。

经过专业评测，优化后的豆包语音模型在小说演播场景下，CMOS（Comparative Mean Opinion Score，与真人打对比分的一种主观评分方式）已达一流主播的90%+效果。这一成绩充分证明了豆包语音模型在小说演播方面的卓越表现。

此外，豆包语音大模型团队还以王明军、李满超两位演播圈大咖的声音为基础，采用新技术合成了千部有声书，并已上线番茄小说平台。这些有声书题材广泛，覆盖了历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型，为听书用户带来了丰富的听觉享受。

综上所述，豆包语音大模型通过升级长上下文理解和技术改进，在小说演播场景下实现了显著的进步，其合成语音效果已媲美真人。未来，豆包语音模型将继续探索前沿科技与业务场景的结合，为听书用户带来更加极致的听觉体验。

以下是文中提到的相关图片：

发布者：Ai探索者，转载请注明出处：https://javaforall.net/267194.html原文链接：https://javaforall.net