跨越会话语音的恐怖谷 - SegmentFault 思否

跨越会话语音的恐怖谷

发布于 2025-03-03

主要观点：

探讨如何让数字语音助手实现“语音存在感”，以真正理解和与人类交互。
介绍了会话语音模型（CSM），旨在解决传统语音生成模型的局限性，实现更自然的对话式语音。
强调了评估会话语音模型性能的重要性，包括客观和主观指标。
提出开放源代码工作，促进社区合作，并指出当前模型的局限性和未来工作方向。

关键信息：

语音是人类最亲密的媒介，如今的数字语音助手缺乏关键品质。
CSM 是直接在 RVQ 令牌上运行的多模态文本和语音模型，利用对话历史生成更自然的语音。
实验评估了 CSM 在不同方面的性能，包括客观指标如词错误率和主观指标如比较平均意见得分。
目前 CSM 主要基于英语数据训练，未来计划扩展到多种语言和模型规模。

重要细节：

实现“语音存在感”的关键组件包括情感智能、会话动态、上下文意识和一致的个性。
CSM 训练中采用计算摊销方案以缓解内存瓶颈。
客观指标显示模型规模越大性能越好，主观指标在有上下文时评估者更倾向于真实录音。
开放源代码有助于社区合作，未来工作包括探索利用预训练语言模型和构建全双工模型。

Crossing the uncanny valley of conversational voice

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

阅读 38

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。