逼真到令人不安的AI语音演示在网络上引发惊叹与不适

Sesame AI的语音模型引发情感连接与担忧

2013年，斯派克·琼斯的电影《她》描绘了一个未来世界，人们与AI语音助手形成情感连接。近12年后，随着AI初创公司Sesame发布新的对话语音模型，这一虚构情节正逐渐成为现实。许多用户对其逼真程度感到既着迷又不安。

Sesame的对话语音模型（CSM）

Sesame在2023年2月底发布了其新的对话语音模型（CSM）的演示版本，该模型被认为跨越了AI生成语音的“恐怖谷”效应。测试者报告称，他们对男性或女性语音助手（“Miles”和“Maya”）产生了情感连接。在测试中，Sesame的语音表现出动态和富有表现力的特点，模仿了呼吸声、笑声、打断和自我纠正等人类行为。

技术实现与挑战

Sesame的CSM通过两个AI模型（骨干和解码器）共同工作，基于Meta的Llama架构处理交织的文本和音频。Sesame训练了三种规模的AI模型，最大的模型使用了83亿参数。CSM采用单阶段、多模态的基于变压器的模型，联合处理文本和音频标记以生成语音。尽管在无上下文的盲测中，人类评估者对CSM生成的语音和真实人类录音没有明显偏好，但在有上下文的对话中，评估者仍然更倾向于真实人类语音。

用户反应与潜在风险

许多用户对Sesame的逼真程度表示震惊，甚至有人报告与AI模型进行了长达30分钟的对话。然而，也有人对这种逼真感到不安，认为其语音和对话风格令人毛骨悚然。Sesame的CSM被认为比OpenAI的ChatGPT高级语音模式更逼真，但这也带来了潜在的风险，如语音钓鱼诈骗的升级。

未来发展与开源计划

Sesame计划在Apache 2.0许可下开源其研究的“关键组件”，并计划扩大模型规模、增加数据集、支持超过20种语言，并开发“全双工”模型以更好地处理真实对话的复杂动态。尽管Sesame的演示目前不涉及克隆个人声音，但未来类似技术的开源可能会被恶意行为者用于社交工程攻击。

总结

Sesame的对话语音模型在技术上取得了显著进展，其逼真程度引发了广泛讨论和情感反应。然而，这种技术进步也带来了潜在的风险，特别是在欺骗和诈骗方面。Sesame的未来发展计划包括技术改进和开源，但如何在技术进步与安全之间找到平衡，仍是一个重要的挑战。