Google 研发零样本语音转换模型,助力语音恢复与跨语言应用
Google Research 团队开发了一种零样本语音转换(Voice Transfer, VT)模型,能够通过特定人的声音定制文本转语音(TTS)系统。该技术特别适用于因帕金森病或肌萎缩侧索硬化症(ALS)等疾病失去声音的患者,帮助他们通过 TTS 设备恢复使用自己的原始声音。此外,该模型还支持跨语言应用。
核心功能与特点
- 零样本与少样本操作:模型仅需几秒钟的参考语音音频即可复制声音,这对于未提前保存声音样本的患者尤为重要。
- 跨语言支持:实验表明,模型能够生成参考说话者未掌握语言的语音。
技术架构:
- 说话者编码器:通过语音频谱图生成声音的嵌入向量表示。
- 解码器:将嵌入向量传递到 Google 模块化 TTS 系统的解码阶段,生成最终语音。
- 多语言训练:模型基于 Google 的多语言 TTS 系统,该系统使用包括纯文本、语音-文本配对数据和非转录语音数据在内的“发现”数据进行训练,支持超过 100 种语言的 TTS。
实验与评估
- 相同性测试:人类评审员在 76% 的情况下认为 VT 模型生成的音频与真实说话者的声音来自同一人。
- 跨语言测试:评审员在 73% 的情况下认为英语参考语音与生成的非英语语音来自同一说话者。
专家评价
言语治疗师 Richard Cave 在 X 平台上称赞该技术,称其为“合成语音逼近自然语音的惊人示例”,并强调其广泛的应用场景。
相关技术背景
AI 语音转换是当前热门研究领域,其他相关技术包括:
- Microsoft 的 VALL-E:仅需 3 秒音频即可复制声音。
- Meta 的 Voicebox:支持 6 种语言的语音生成、编辑和降噪。
- Google 的 AudioPaLM:结合 TTS、自动语音识别(ASR)和语音到语音翻译(S2ST)功能。
- Amazon 的 BASE TTS:支持语音克隆。
技术风险与应对
尽管 AI 语音克隆技术潜力巨大,但也存在被滥用的风险。为此,Google 研究人员在生成音频中加入了音频水印,即“合成音频波形中不可察觉的信息”,可通过软件检测以防止滥用。
总结
Google 的零样本语音转换模型为语音恢复和跨语言应用提供了创新解决方案,同时通过技术手段有效降低了潜在的滥用风险。该技术的推出标志着合成语音技术迈向了一个新的阶段。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。