关注前沿科技 量子位
字节和浙大联合研发的项目Loopy火了!
只需一帧图像,一段音频,就能生成一段非常自然的视频!
研究团队还放出了Loopy和同类应用的对比视频:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632773856248512516" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4MyMt2pLPHmtsjE0x356qydnDjoOmAkVcDGMIX97jaWicqaIBiaStLlwQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="3.4532374100719423" data-w="1920" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632773856248512516"></iframe>
网友下场齐夸夸:
Loopy背后的技术有点牛哦!感觉互动媒体有新未来了!
前途无量奥!
真这么牛?咱们一起来看一下!
Loopy的生成效果
研究团队放出了一些DEMO视频,内容脑洞跨度有点大!
比如让小李子唱《黑神话》灵吉菩萨的陕北说书(高音时还会皱眉):
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632774610552061955" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK47fzx4tqlIJUcAx2bvicqaWIEbxibbBXg7ibNylF8V1V0Y8vqFbQFF1ykw%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632774610552061955"></iframe>
让兵马俑满口英伦腔:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632775310296465409" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4lnJib0OYNpHDJ79tFLNcnicPtuM1OfF8eoe5EhjU2qqUeNAibsce4cNeQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632775310296465409"></iframe>
蒙娜丽莎张口说话:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632775984421371906" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4t8nf2CK5lAZuHxkWHp8mnlRzoINc30SuvibJxCyibBavDMdZBV3jTXeg%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632775984421371906"></iframe>
梅梅自带Bgm说古装台词(甚至还有挑眉的小动作):
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632776481279049731" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4P4tq1H7qHKqFAq7ygC5CPB4vpKIoGXFshw08NhtuQroKWwFNq8lmiaw%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632776481279049731"></iframe>
狼叔的侧颜照也难不倒它:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632777087221530630" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4Ypkeu3hv0BeicyuThJQOHKUHZDfzYFibGOLwlzdxpcDheyBbfTnJgUOQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632777087221530630"></iframe>
叹息声的细节也能处理得很好:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632777828355063811" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4iakTQZUG3J0b35FUb4e9icpHmvLFnnWicV5EgKslv2zwJu8W8zQJ4mZ3g%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1.158371040723982" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632777828355063811"></iframe>
真人肖像的效果也很自然(甚至说话时眼睛还会顺势看向其他方向):
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632783752356642816" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4MRqpQlcQePaxvdsVJZ81AOo4flaofe0fyTSB6cfkXVo9Niah0QHSRqA%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1" data-w="512" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632783752356642816"></iframe>
Loopy如何“告别割裂感”?
看完这些毫无违和感DEMO视频,咱们来研究一下Loopy是如何生成这类视频的:
总的来说,Loopy是一个端到端的音频驱动视频生成模型。
它的框架可以由四部分构成,分别是:
ReferenceNet:一个额外的网络模块,它复制了原始SD U-Net的结构,以参考图像的潜在表示作为输入,来提取参考图像的特征。
DenoisingNet:一个去噪的U-Net,负责从噪声输入生成最终的视频帧。
在DenoisingNet的空间注意力层中,ReferenceNet提取的参考图像特征会与DenoisingNet的特征在token维度上进行拼接。
这样做是为了让DenoisingNet能够选择性地吸收ReferenceNet中与当前特征相关的图像信息,从而在生成过程中保持图像的视觉一致性。
简单来说,通过结合这两个网络的特征,DenoisingNet能够更好地利用参考图像的细节,提升生成结果的质量和连贯性。
Apperance:Loopy的外观模块,主要接收参考图像和运动帧图像,然后将它们压缩成特殊的数字编码(潜在向量)。
运动帧的潜在向量经过“时间序列模块”处理,与参考图像的潜在向量拼在一起。这样就融合了参考信息和动作信息。
然后将拼接后的潜在向量输入ReferenceNet模块中,生成一张特征图,标注着重要的视觉信息,方便供后续去噪模块使用。
Audio:Loopy的音频模块。模型先是使用Wav2Vec网络提取音频特征,并将每层的特征连接起来,形成多尺度音频特征。
然后对于每一帧视频,将前两帧和后两帧的音频特征连接,形成一个包含5帧音频特征的序列,作为当前帧的音频信息。
最后在每个残差块中,使用“交叉注意力”机制,将音频特征与视觉特征结合,计算出一个关注的音频特征,并将其与视觉特征相加,生成新的特征。
值得一提的是,模型中也涉及到了一个Audio2Latent模块,这个模块可以将音频信息映射到共享的运动潜在空间,进一步帮助模型理解音频与视频中人物动作之间的关系。
研究团队的实验结果如下:
One more thing
值得一提的是,在Loopy之前,字节和浙大就已经联合研发出了一款类似的项目CyberHost。
但与Loopy不同的是,CyberHost是一个端到端音频驱动的人类动画模型。
团队同样也放出了DEMO视频:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3632778389720662017" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtDoOTVk5shGEf1EaLmmwbK4PVC6090kP1ZBgfthIcgIge22YSJWHYwf9DeqooYw2g1FkxJZyky1OQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="2.9906542056074765" data-w="1920" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3632778389720662017"></iframe>
Loopy和CyberHost的相关链接都已附上,感兴趣的小伙伴们可以了解一下~
Loopy论文地址:arxiv.org/pdf/2409.02634 Loopy项目地址:https://loopyavatar.github.io/ CyberHost论文地址:https://arxiv.org/pdf/2409.01876 CyberHost项目地址:https://cyberhost.github.io/
— 完 —
量子位年度AI主题策划正在征集中!
欢迎投稿专题 一千零一个AI应用,365行AI落地方案
或与我们分享你在寻找的AI产品,或发现的AI新动向
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。