拜登也中招！口型同步技术无察觉合成假视频，美国高校开发检测“假话”工具

口型同步技术无察觉合成假视频！美国高校开发检测“假话”工具

耳听为真眼见为实这就话在当今时代已经不再适用了，只要你的对面是一块屏幕，那里面的内容就很难判断真假，口型同步技术可以无缝的在视频中插入一个从未出现过的单词，或者删除任何一句话。

由于担心这种技术会被不道德地使用，斯坦福大学和加州大学伯克利分校的研究人员共同开发了一个口型同步技术检测工具，用来识别视频中的虚假内容。

口型同步技术几乎无察觉的修改视频内容

其实，口型同步技术也是在斯坦福大学的 Maneesh Agrawala 的帮助下开发完成的，这种技术可以让视频编辑几乎无法察觉地修改说话人的话语。
这个工具对于某些非纪实类的电视节目很有用处，可以通过后期的技术加工来清理或修改内容，从而节省时间和金钱成本，而不需要重新拍摄整个场景。

但是，这项技术也为难以辨认的深度假视频创造了令人担忧的新机会，这些视频制作的目的明显是为了歪曲事实。例如最近美国副总统拜登一则接受采访时睡着的视频广为流传，在人们纷纷质疑拜登的身体状况和精神状态时，视频被证实为伪造的。

许多伪造的视频都是通过人脸交换，将一个人的脸部特征超过另一个人的脸部特征。尽管人脸交换工具几乎可以做到以假乱真的地步，但它们相对粗糙，通常会留下计算机可以检测到的数字或视觉效果。

另一方面，口型同步技术更加微妙，因此更难被发现。他们处理图像的一个很小的部分，然后合成嘴唇的动作，这些动作与一个人如果说了某些特定的单词，他或她嘴巴真正的动作非常吻合。只要有足够的一个人的形象和声音样本，就可以让视频中的人“说”任何话。

研究人员首先尝试了一种纯手动的技术，让人类观察者研究视频的帧。这种方法效果不错，但在实践中既费力又费时。然后，研究人员测试了一个基于人工智能的神经网络，这个神经网络的速度要快得多。

为了避免技术被滥用，今年夏天斯坦福大学和加州大学伯克利分校的研究人员公布了一种基于人工智能的方法来检测假口型同步技术。这个新程序通过识别人们发出的声音和嘴的形状之间微小的不匹配，可以准确地识别出 80% 以上的造假内容。

通过检测技术识别虚假内容治标不治本，真正的任务应该是提高人们的媒介素养，如果有人故意制造和传播错误信息就要承担责任。

比如，拜登那段被修改的视频就不是被技术曝光的，而是因为采访过他的人发现自己的问题被改变了。当这些工具被有意地用来传播错误信息时，问题就来了。因为许多技巧对普通观众来说是看不见的。

研究人员说，他们的方法只是“猫捉老鼠”游戏的一部分，随着伪造技术的改进，检测会变得更难。从长远来看，真正的挑战不是打击造假视频，而是打击虚假信息。

segmentfault 公众号