俗话说“耳听为虚,眼见为实”,如今在人工智能技术的影响下,“眼见”也不一定为实。在近日热播的英剧《真相捕捉(The Capture)》中,视频里的人都可以被换脸,即使是实时的监控录像也能被篡改,只要拥有一个人的声音或面部图像数据,就可以制造假视频作为假证据。虽然故事是虚拟的,但细思极恐,人工智能技术的突飞猛进的当下,我们必须警惕伴随AI技术发展而产生的AI技术被滥用的问题。
事实上,《真相捕捉》里的场景从技术角度看并非遥不可及,此前DeepFake事件已经给了人们一次提醒微软总裁Brad Smith也在其新书《工具,还是武器?》中呼吁大家直面这些人类科技最紧迫的争议性问题。微软亚洲研究院计算机视觉组一直试图从技术角度去鉴别人脸图像、视频的真假,Face X-Ray便是微软亚洲研究院在这一领域的最新突破。该技术的相关论文已被CVPR 2020收录。
Face X-Ray:可解释、且可信赖
Face X-Ray, 顾名思义就是要给人脸图像、视频做“X光检测”。微软亚洲研究院常务副院长郭百宁表示,“X-Ray最大的突破在于:无论换脸图像是采用已知还是未知的换脸算法,它都可以有较高的识别率,平均达到95%以上;而且还能告诉你为什么,这个方法在某种程度上解决了AI模型的传统‘黑盒’问题,可解释、且可信赖。”
传统的AI换脸一般分三步走:(1)检测目标图像的面部区域;(2)利用AI换脸算法生成新的面部及一部分周围区域;(3)将生成的新面部融合到原图像中,替换原图像中的面部。
此前的换脸鉴别方法主要从第二步入手,通过基于数据集的有监督训练学习 大量换脸图像,检测换脸过程中产生的瑕疵,判断真伪。但是,不同的换脸算法合成时的瑕疵各不相同,因此针对一种换脸算法进行训练后,应用于另外一种算法上时准确率明显下降,这就是已有换脸鉴别算法不具通用性的原因。
对此,微软亚洲研究院视觉计算组的研究员另辟蹊径,在Face X-Ray中通过一种全新的方式去判断一张人脸图像是否被更换过。Face X-Ray不需要事先知道操作方法或人工监督,而是从第三步入手,通过生成灰度图像,显示该图像是否可以分解为来自不同来源的两个图像的混合,从而检测出换脸的边界,就像照 X 光一样,让这个边界清晰可见(如下图所示)。
算法预测出的融合边界。BI表示人工合成人脸。DF、F2F、FS、NT分别表示DeepFakes、Face2Face、FaceSwap、NeuralTextures算法生成的人脸。
除此之外,由于Face X-Ray不是通过“学习”大量换脸图像去提高识别率的,训练数据也不依赖特定的换脸技术所生成的图像,而是直接采用普通的人脸照片进行训练,而且它还能标出换脸的边界在哪里,不再像以往的算法那样,是个只显示识别结果,却无法说出为什么的“黑盒”。
(a)行是真实图像,(b)行是合成图像,中间一列为噪声分析,右侧一列是误差水平分析
对未知换脸算法,检测精度高达95%以上
Face X-Ray算法依然基于FaceForensics数据集进行了测试,但采用了与之前的换脸鉴别算法不同的方式。但与此前的换脸鉴别算法采用数据集中的四种换脸算法生成的人脸图像进行训练不同的是, Face X-Ray只在其中一种算法(例如DeepFakes)合成的图像上训练,然后再在另外三种数据上测试,测试结果都可以达到95%以上的识别率。这在“通用”换脸鉴别算法中,无疑是一大创新突破。
测试结果表明,Face X-Ray的识别率均达到95%以上
包括换脸在内的安全问题,将是一场长期的战斗
《工具,还是武器?》一书说到,即使是最好的科技,也可能带来意想不到的后果;人类需要认真观察后视镜,以便能够利用过去的经验,去预测转弯之处的问题。书中还强调,人工智能的道德问题将不可避免地从一般性讨论转变为具体议题。而现阶段,换脸图像便是具体议题之一,与此同时,文字、语音、视频的虚构、嫁接问题也会接踵而至。
从技术上看,文字、声音属于一维信号,图像属于二维信号,视频则是三维信号,维度越高,识别难度就越大,因此图像的鉴别是一个攻坚课题,如果它有所突破,便意味着鉴别技术的整体进步。Face X-Ray的通用性和可解释性的提升,也让换脸图像的鉴别距离真正的应用越来越近。
郭百宁表示,在研究换脸图像/视频鉴别的同时,微软亚洲研究院也在研究真假语音的鉴别。对微软亚洲研究院来说,这只是一个开始。本质上这些都属于安全问题,就像PC、互联网时代的病毒和杀毒软件一样,实际上是一场猫与鼠之间的较量,而这也将是计算机科学领域科研人员的一场长期战斗!