真假难辨!AI 合成电影效果音,无须剪辑自动配合画面

技术编辑:芒果果丨发自 思否编辑部
SegmentFault 思否报道丨公众号:SegmentFault

想象一下,你正在看一部恐怖电影:女主人公高度警惕地穿过黑暗的地下室,悬疑片的经典音乐在背景中播放,而一些看不见的险恶生物在阴影中蠕动……bang!的一声,它撞到了一个物体。

电影中的音效大部分是后期剪辑的,需要剪辑师将声音与画面完美配合。

最近,研究人员创建了一个名为 AutoFoley 自动程序,该程序可以分析视频帧中的运动并创建自己的人造声音效果以匹配场景。在一项调查中,大多数接受调查的人表示他们相信假的声音效果是真实的。

该模型已在发表于 IEEE Transactions on Multimedia 的一项研究中进行了描述。

image

使用 AI 模型为 1000 部短片自动配乐

AutoFoley 的共同研究者,德克萨斯大学圣安东尼奥分校的教授 Jeff Prevost 和 他的博士生 Sanchita Ghose 使用 AutoFoley 为 1000 个短片制作了声音,这些短片捕捉了许多常见的动作,例如下雨、奔腾的马和滴答作响的时钟。

通常,这些声音效果是由录音室中的 Foley 艺术家们后期录制的,他们会使用大量不同物体碰撞、摩擦来发出声音。比如记录破碎玻璃的声音可能需要在录音室中重复的打碎玻璃录制声音,直到声音与视频的剪辑紧密匹配为止。

image

Jeff Prevost 说:“自 1930 年代以来,使用 Foley 艺术在后期制作中添加声音效果一直是电影和电视配乐的复杂部分,如果没有逼真的 Foley 音轨的可控层,电影将显得空旷而遥远。但是,Foley 声音合成的过程因此增加了动态影像的创建时间和成本。”

出于对自动化Foley系统的想法的兴趣, Jeff Prevost 和 Sanchita Ghose 开始着手创建一个多层的机器学习程序。他们创建了两个不同的模型,可以识别视频中的动作并确定适当的声音。

第一个机器学习模型从快速移动的动作剪辑的帧中提取图像特征(例如颜色和运动),以确定适当的声音效果。

第二个模型分析对象在单独帧中的时间关系。通过使用关系推理来比较跨时间的不同帧,第二个模型可以预测视频中正在发生的动作。

在最后一步中,声音被合成以匹配模型之一预测的活动或运动。

AutoFoley 骗过 73% 受访者

AutoFoley 最适合产生不需要时间与视频完美对准的声音(例如,下雨、,啪作响的声音)。但是,当视觉场景包含随时间变化的随机动作(例如,打字,雷暴)时,该程序与视频不同步的可能性更大。

Jeff Prevost 和 Sanchita Ghose 对当地 57 位大学生进行了调查,让他们辨别 AutoFoley 的自动配音,这些参与调查的学生认为,这些片段中包含电影原始的配乐。

在评估第一个模型产生的音轨时,接受调查的73%的学生选择了合成的 AutoFoley 片段作为原始片段,而不是真正的原始声音片段。在评估第二种模型时,有 66% 的受访者选择了 AutoFoley 片段而不是原始声音片段。

Jeff Prevost 说:“我们方法的局限性是要求分类主题出现在整个视频帧序列中。”他还指出,AutoFoley 当前依赖于 Foley 类别有限的数据集。虽然 AutoFoley 的研究仍处于早期阶段,但他们相信这些限制将在未来的研究中解决。

segmentfault 公众号


芒果果
3.4k 声望63 粉丝

一路走走看看,顺便留下点什么。