对虚假视频的思考：当眼见也为虚，我们该怎么办？

前言：随着深度学习技术的发展，虚假视频的制造成本越来越低，比如DeepFake这类的技术被大量恶意应用于明星色情视频与欺诈视频的生成，引起了各国政府与网络监管部门的重视。国内在不久之前的人脸生成程序ZAO也在网友的朋友圈里掀起了一波换脸秀，同时也带来了许多关于个人隐私与AI安全的思考。

俗话说“耳听为虚，眼见为实”，当眼睛看到的也不知真假的时候，我们的安全该怎么办？

正文:

换脸技术探秘

在考虑对策前，我们先要知道人脸是如何被篡改的。其实人脸编辑/换脸技术在很早之前就已经出现在影视行业中，比如好莱坞的的电影中《阿甘正传》、《速度与激情7》中，人脸的特效技术已经应用的十分逼真，但是这些作品的背后需要大量的CG（Computer Graphics，计算机图形学）技术，需要专业的人员来进行人像模型建模与渲染，消耗大量的时间与计算资源。在电影《猩球崛起3》中，我们会惊叹猩猩们的面部表情细节，这也得益于专业的面部动作捕捉设备，但往往这些设备价值不菲，并且需要专业的人员来进行操作与后期处理。

1.webp.jpg

左图《阿甘正传》中：主演与已故美国总统肯尼迪同框出现。右图《速7》中保罗的出镜由人脸特效生成

2.webp.jpg

《猩球崛起3》中猩猩凯撒的表情通过动作捕捉设备生成

近几年，随着深度学习（Deep learning）技术的进步，尤其是卷积神经网络的突飞猛进，比较复杂的图像操作也可以被深度模型实现，比如图像风格化、黑白影片上色、人脸上妆/卸妆等，人脸换脸也不例外，早在2017年DeepFake技术已经出现，作者采用深度卷积编码-解码方式修改视频中名人的脸，该技术在国外引发了一系列伪造色情片现象，以至于著名的论坛Reddit、Facebook、YouTube等采用强制封禁的方式才遏制住这一行为的传播。

3.webp.jpg

2017年网易杭研年会笔者为节目制作的换脸视频（将网易易盾实验室同事篡改为港台某男星）

正是因为深度学习技术降低了人脸换脸的门槛，因此类似的算法目前在社区有大量的开源项目，整个算法流程大概如下图所示，最核心的部分在于编码器-解码器（Encoder-Decoder）部分，编码器在于将输入的人脸图像进行抽象，主要保留人脸的表情信息等，解码器的作用在于将抽象的人脸信息进行复原，生成人脸图像。换脸的环节就在于将不同人的解码器互换，从而保证面部表情的一致。

编码器与解码器都需要采集人脸图像进行训练，因此，假如不注重防护的话，个人人脸图像泄露就会被不法分子利用，进行换脸的攻击。
4.webp.jpg

人脸换脸的流程

5.webp.jpg
人脸编码器的深度模型结构
6.webp.jpg
人脸解码器的深度模型结构

除了脸，身体也可以修改！

当换脸技术日益成熟，加州伯克利大学的研究者们另辟蹊径，提出了一种人体动作编辑技术。即使四肢不协调也可以变成舞王。该算法可以捕捉专业的舞者身体姿态，并通过对抗生成网络将动作转移到另外一个非专业的人身上，生成一段同样的舞蹈。

7.webp.jpg
舞蹈动作迁移
算法主要包括三个步骤：姿势检测、全局姿势归一化、从归一化的姿势简笔画映射到目标人物，如上图所示，姿态检测的目的是获取人体姿态的简笔画，通过对简笔画的处理操作，利用人体生成器从简笔画中恢复出目标人体的图像。只有在电影制作中才出现的人体动作编辑，现在只需要拥有GPU就可以在家里实现了！虽然目前该技术仍然不是很成熟，人物的动作会抖动，分辨率不高，但随着技术的发展，相信未来会更加的真实。

比利时大学的研究者们提出了一种技术可以骗过安防摄像头的算法，只需要在身上挂一小块干扰元素那么你在公共场合，行人检索系统将无法定位到你。这项技术还可能造成的隐患是，对于行人，自动驾驶系统将无法检测到前方的行人，从而引发交通事故。当然，这项算法可攻击的还仅仅是YOLOV2这一特定的检测器，并不能广泛攻击，但随着技术进步，也许攻击的算法会更加的鲁棒。

8.webp.jpg

9.webp.jpg

网上售卖的用来躲避安放监控系统的上衣（cloakwear.co）

风险与建议

由于人脸与人体都能够被篡改、伪造，并且伪造的技术门槛被大大降低，在网络上这方面的发展十分迅速，因此安全方面存在着巨大隐患。《华尔街日报》最近报道称，一家英国能源公司的首席执行官被骗将24.3万美元资金转到了匈牙利供应商的账户上。这位高管说，他以为自己是在老板对话，后者似乎已经批准了这笔交易。现在，这位首席执行官认为，他是一场音频深度伪造骗局的受害者。

江苏南京江宁分局岔路派出所近日向中国之声介绍了这样一个案例。该局接到报警，受害人陈先生微信收到“熟人”王某发来的借钱语音，受害人听到是朋友的声音，没多想就把钱转了过去，于是落入了骗子的圈套。警察表示骗子从微信里发过的语音中提取个人声音生成假语音，还能模仿语气和情绪，网售语音包和语音软件可以生成任何嗓音和内容的音频。这虽然仅仅是利用深度技术对音频进行篡改，但未来通过技术对人脸、人体进行篡改诈骗只是时间的问题，而且造成的损失会更大。

除了对视觉上进行肉眼可见的欺骗，即对人眼的欺骗，攻击者还可以进行肉眼不易观察到的欺骗，即对图像识别系统的欺骗。通常做法是在原始图像上增加一层精心设计的微小干扰，就能导致图像识别系统识别错误，从而混淆图像识别系统。目前的技术可以做到无目标攻击（识别结果错误），有目标攻击（识别成指定的结果）。

根据攻击者对被攻击系统情况的掌握程度，可以分为三种：黑盒攻击、灰盒攻击和白盒攻击。黑盒攻击是指攻击者对于机器学习系统的算法、模型、参数等毫无知情，只能获取输入与输出的结果。白盒攻击是与黑盒模型相反，攻击者对模型一切都可以掌握。灰盒攻击介于黑盒攻击和白盒攻击之间，仅仅了解模型的一部分，例如仅仅拿到模型的输出概率，或者只知道模型结构，但不知道参数。

10.webp.jpg

图像对抗攻击示意图（crowdai.org）

在2018年，清华大学的学生吴育昕等人在信息安全领域的国际安全极客大赛CAAD2018中，实现了对亚马逊、微软等人脸识别系统的攻击，通过对抗样本攻击，将主持人蒋昌建的人脸图像增加干扰，从而使得AI系统错误地识别成施瓦辛格。这项技术可以用于人脸刷脸认证系统的破解，对于安防、金融、医疗系统都可以产生威胁！

11.webp.jpg

亚马逊人脸识别系统将蒋昌建错误的识别成施瓦辛格

利用深度伪造技术，视频中的人脸信息可以被篡改，人体动作行为可以再生成，恶意改造可能会严重侵犯个人隐私，引起的传播效应会对个人造成负面的社会影响，并且，这一系列技术给司法鉴定也带来了更大的困难。同时，别有用心的组织利用深度伪造技术对政要、记者等人物进行篡改，在发生重大事件中可能会混淆视听，影响新闻报道的真实性，造成社会舆论混乱，危害社会稳定。

对于图像伪造，美国政府早已高度重视，将其列为国防部DARPA研究项目。国外科技巨头公司Facebook宣布拿出1000万美金用于奖励Deepfake视频的辨别研究，同时还联合微软、MIT、斯坦福等公司和研究机构举办相关的比赛。在国内，众多科技公司的AI部门与高校都有进行相关的研究，网易易盾实验室在图像对抗样本攻击与防御也在开展相关研究，深入研究攻击样本产生的原理，并结合线上真实案例，对于Deepfake、对抗生成样本，通过预处理、样本增强、图像质量增强、对抗训练等多种方案进行防御，均取得了不错的拦截效果。

线上UGC内容经常出现敏感人物被恶搞的图像、视频，包括涉黄、涉政等不良信息。随着技术的发展，我们发现这类伪造内容越来越逼真，越来越难发现。这一现象也督促易盾从内容治理到隐私保护进行技术拓展，抵御新的安全风险类型。视频换脸、动作生成等技术本身是炫酷、好玩、能带来应用价值的，前提是需要正确面对安全隐患，网易易盾正是朝着“让科技更安全”这个方向在积极行动，AI系统的安全防护任重而道远（文/网易易盾实验室）。

点击免费体验网易易盾全链路风控解决方案。

对虚假视频的思考：当眼见也为虚，我们该怎么办？

换脸技术探秘

除了脸，身体也可以修改！

风险与建议

网易易盾

引用和评论

报告显示：外挂样本更新频次越来越高辅助工具呈现平台化趋势

网络安全：数字时代的永恒命题

云电竞巅峰对决：ToDesk/网易云/START实战测评，谁是真王者？

如何解决网站风险提示

WireGuard 快速部署指南

大模型时代，安全如何洗牌？

ICCE 数字车钥匙介绍

对虚假视频的思考：当眼见也为虚，我们该怎么办？

换脸技术探秘

除了脸，身体也可以修改！

风险与建议

网易易盾

引用和评论

报告显示：外挂样本更新频次越来越高 辅助工具呈现平台化趋势

网络安全：数字时代的永恒命题

云电竞巅峰对决：ToDesk/网易云/START实战测评，谁是真王者？

如何解决网站风险提示

WireGuard 快速部署指南

大模型时代，安全如何洗牌？

ICCE 数字车钥匙介绍

报告显示：外挂样本更新频次越来越高辅助工具呈现平台化趋势