英伟达的新AI音频模型能够合成从未存在过的声音

Nvidia的Fugatto模型:音频生成的瑞士军刀

Nvidia最新发布的Fugatto模型在生成式AI领域迈出了重要一步。该模型通过创新的合成训练方法和推理级组合技术,能够“转换任何音乐、语音和声音的混合”,甚至生成从未存在过的声音。尽管Fugatto尚未公开测试,但其展示的多样化音频处理能力已足以支持Nvidia将其称为“音频的瑞士军刀”。

数据是关键

在Nvidia的研究论文中,研究人员详细解释了构建训练数据集的挑战,特别是如何揭示音频与语言之间的有意义关系。标准的语言模型通常可以从文本数据中推断出如何处理各种指令,但在音频领域,缺乏明确的指导使得从音频中泛化描述和特征变得困难。

为了解决这一问题,研究人员首先使用大语言模型(LLM)生成Python脚本,创建大量基于模板和自由形式的指令,描述不同的音频“角色”(如“标准、年轻人群、三十多岁、专业人士”)。然后,他们生成了一组绝对指令(如“合成一个快乐的声音”)和相对指令(如“增加这个声音的快乐程度”),并将这些指令应用于不同的音频角色。

合成字幕与音频处理

研究人员利用现有的音频理解模型为训练片段生成“合成字幕”,基于提示创建自然语言描述,自动量化性别、情感和语音质量等特征。音频处理工具也被用于在声学层面描述和量化训练片段(如“基频方差”或“混响”)。

为了进行关系比较,研究人员依赖于那些保持一个因素不变而另一个因素变化的数据集,例如同一文本的不同情感表达或不同乐器演奏相同音符。通过比较这些样本,模型可以学习到“更快乐”的语音中通常出现的音频特征,或区分萨克斯和长笛的声音。

经过这一过程,研究人员最终构建了一个包含2000万个独立样本的注释数据集,代表了至少5万小时的音频。在此基础上,使用32个Nvidia张量核心创建了一个拥有25亿参数的模型,该模型在各种音频质量测试中表现出了可靠的分数。

ComposableART系统

除了训练,Nvidia还强调了Fugatto的“ComposableART”系统(音频表示转换系统)。该系统在接收到文本和/或音频提示后,可以使用“条件指导”独立控制和生成(未见的)指令和任务的组合,生成“高度可定制的音频输出”,从而创造出从未听过的全新声音。

ComposableART系统通过“指令、帧索引和模型之间的加权向量场组合”实现复杂数学运算,最终生成的结果在项目网页和Nvidia的预告片中得到了展示。例如,它可以生成“听起来像笑婴儿的小提琴声”或“在轻柔雨声中演奏的班卓琴声”,甚至“工厂机器发出金属痛苦的尖叫声”。

音频特征的可调连续体

Fugatto最有趣的部分在于它将每个音频特征视为可调的连续体,而不是二元的。例如,在融合原声吉他和流水声的例子中,当吉他或流水声在Fugatto的插值混合中被赋予不同权重时,结果会有显著差异。Nvidia还提到,可以调整法语口音的轻重程度,或改变语音片段中固有的“悲伤程度”。

多功能音频处理

除了调整和组合不同的音频特征,Fugatto还可以执行之前模型中常见的音频任务,例如改变语音文本中的情感,或从音乐片段中分离出人声。它还可以检测MIDI音乐中的单个音符,并用各种人声表演替换它们,或检测音乐的节拍并添加从鼓声到狗吠声再到滴答钟声的效果,使其与节奏匹配。

未来应用与展望

尽管研究人员将Fugatto描述为“迈向无监督多任务学习未来的第一步”,Nvidia已经提出了从歌曲原型设计到动态改变视频游戏配乐,再到国际广告定位等多种应用场景。然而,Nvidia也强调,像Fugatto这样的模型最好被视为音频艺术家的新工具,而不是取代他们的创造力。

正如Nvidia Inception参与者、制作人兼词曲作者Ido Zmishlany所说:“音乐的历史也是技术的历史。电吉他给了世界摇滚乐,采样器的出现催生了嘻哈音乐。随着AI的出现,我们正在书写音乐的下一个篇章。我们有了新的乐器,新的音乐制作工具——这非常令人兴奋。”

阅读 10
0 条评论