逼真到令人不安的AI语音演示在网络上引发惊叹与不适

Sesame AI的语音模型引发情感连接与担忧

2013年,斯派克·琼斯的电影《她》描绘了一个未来世界,人们与AI语音助手形成情感连接。近12年后,随着AI初创公司Sesame发布新的对话语音模型,这一虚构情节正逐渐成为现实。许多用户对其逼真程度感到既着迷又不安。

Sesame的对话语音模型(CSM)

Sesame在2023年2月底发布了其新的对话语音模型(CSM)的演示版本,该模型被认为跨越了AI生成语音的“恐怖谷”效应。测试者报告称,他们对男性或女性语音助手(“Miles”和“Maya”)产生了情感连接。在测试中,Sesame的语音表现出动态和富有表现力的特点,模仿了呼吸声、笑声、打断和自我纠正等人类行为。

技术实现与挑战

Sesame的CSM通过两个AI模型(骨干和解码器)共同工作,基于Meta的Llama架构处理交织的文本和音频。Sesame训练了三种规模的AI模型,最大的模型使用了83亿参数。CSM采用单阶段、多模态的基于变压器的模型,联合处理文本和音频标记以生成语音。尽管在无上下文的盲测中,人类评估者对CSM生成的语音和真实人类录音没有明显偏好,但在有上下文的对话中,评估者仍然更倾向于真实人类语音。

用户反应与潜在风险

许多用户对Sesame的逼真程度表示震惊,甚至有人报告与AI模型进行了长达30分钟的对话。然而,也有人对这种逼真感到不安,认为其语音和对话风格令人毛骨悚然。Sesame的CSM被认为比OpenAI的ChatGPT高级语音模式更逼真,但这也带来了潜在的风险,如语音钓鱼诈骗的升级。

未来发展与开源计划

Sesame计划在Apache 2.0许可下开源其研究的“关键组件”,并计划扩大模型规模、增加数据集、支持超过20种语言,并开发“全双工”模型以更好地处理真实对话的复杂动态。尽管Sesame的演示目前不涉及克隆个人声音,但未来类似技术的开源可能会被恶意行为者用于社交工程攻击。

总结

Sesame的对话语音模型在技术上取得了显著进展,其逼真程度引发了广泛讨论和情感反应。然而,这种技术进步也带来了潜在的风险,特别是在欺骗和诈骗方面。Sesame的未来发展计划包括技术改进和开源,但如何在技术进步与安全之间找到平衡,仍是一个重要的挑战。

阅读 5 (UV 5)
0 条评论