Amazon Science 发布 BASE TTS:具有涌现能力的大规模自适应流式文本转语音模型
Amazon Science 近日发布了其最新研究成果——Big Adaptive Streamable TTS with Emergent abilities (BASE TTS)。该模型在语音克隆方面表现出色,并在人类评估中超越了基线文本转语音(TTS)模型。亚马逊的实验表明,扩大模型和数据规模能够显著提升模型输出的主观质量。
BASE TTS 的核心架构
BASE TTS 的核心是一个自回归 Transformer,类似于大型语言模型(LLMs)。该模型在从网络上抓取的 10 万小时无标签语音数据上进行训练,研究人员使用自动语音识别(ASR)技术为这些数据生成了转录文本。为了评估数据和模型规模对质量的影响,亚马逊团队训练了小型和中型版本的模型。他们还创建了一个测试数据集,供语言学专家评估模型的涌现能力,例如表达情感等未被明确训练的功能。
多语言支持与数据效率
BASE TTS 在英语和西班牙语上的表现优异,展示了其在多语言 TTS 方法中的潜力。亚马逊指出,该模型仅使用公共领域数据,实现了高表达性、对文本线索的适应性以及数据效率,适用于流式 TTS 应用,如为 LLM 输出生成语音。此外,亚马逊的研究还指向了大规模 TTS 模型的潜在扩展规律,即需要更多的语音和其他(文本、图像)数据来支持多模态目标,并在 TTS 领域取得新突破。
与其他 LLM 启发的 TTS 模型的比较
BASE TTS 是近年来多个支持语音克隆或转换的 LLM 启发的 TTS 模型之一。2023 年,InfoQ 报道了微软的 VALL-E、Google 的 AudioPaLM 和 Meta 的 Voicebox。这些模型在语音克隆、多语言 TTS 和语音编辑等方面各有特色。
技术细节:语音令牌与模型组件
BASE TTS 的关键思想是将语音音频转换为离散的语音令牌(tokens),并从中重建语音。亚马逊使用了一个名为 WavLM 的模型来创建编码器,该编码器能够从音频中分离“语音和韵律信息”,并提取说话者的声音表示。随后,一个名为 SpeechGPT 的自回归 Transformer 根据文本令牌和参考语音生成语音令牌,最终通过语音令牌解码器生成音频。
社区讨论与模型输出示例
在 Hacker News 上关于 BASE TTS 的讨论中,用户将其输出与其他模型的语音进行了比较。尽管 BASE TTS 在情感表达方面有所进步,但用户认为其情感范围仍接近于有声书朗读者,而非传统的声音表演者。
模型的开源与潜在滥用问题
尽管 BASE TTS 的演示网站提供了多个音频示例,但亚马逊选择不开源该模型,主要原因是担心其语音克隆能力可能被滥用。
总结
BASE TTS 是亚马逊在 TTS 领域的一项重要创新,展示了大规模模型和数据在提升语音生成质量方面的潜力。尽管其在多语言支持和情感表达上取得了显著进展,但模型的开源和潜在滥用问题仍是需要关注的焦点。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。