跳到主要内容
研究

如何提高安全关键领域人工智能感知的鲁棒性

raybet雷竞技ios下载博世研究博客|作者:Jan Hendrik Metzen, 2021-02-25

Jan Hendrik Metzen讨论了如何提高安全关键领域AI感知的鲁棒性

未来的汽车或机器人等自主系统需要对环境有强大的感知,才能安全行动。然而,恶意的参与者,即所谓的对手,可以通过在场景中放置精心制作的物理工件来持续欺骗当前的系统。这种物理工件可以是任何一种普遍的对抗补丁(对手仔细选择打印出来并放置在场景中的图案)或半透明敌对的相机贴纸在相机镜头上。这篇文章概述了元对抗训练(MAT),这是一种在物理世界中对这种对抗性攻击显著提高感知鲁棒性的方法。

人工智能感知很容易受到物理世界的对抗性攻击

深度学习(DL)已经彻底改变了汽车或机器人等人工自主系统的环境感知。例如,它用于检测行人、车辆、交通灯和交通标志等物体,或用于分割场景中的可驾驶区域。深度神经网络越来越多地嵌入到传感器中,例如raybet雷竞技ios下载博世多用相机,使未来的应用包括基于视频的应用驾驶员辅助系统或高度自动化开车

从汽车后座透过挡风玻璃看到的景象。前方行驶的汽车被监视器检测到。
环境感知对于自主系统至关重要。

然而,这一成功也带来了新的挑战,因为深度学习在这些安全关键领域的广泛采用也增加了恶意行为者(“对手”)试图欺骗感知系统的风险。这可能会带来潜在的灾难性后果,比如没有发现过街的行人,从而导致事故。因此,博世多用途相机依赖于额外的处理路径,raybet雷竞技ios下载如光流和运动结构(“多路径方法”),以减轻基于dl的感知的故障模式,并确保安全性。然而,提高系统的可用性和更强烈地依赖于基于DL的感知的新功能,如交通灯/标志分类,将要求DL变得固有的健壮性。

不幸的是,基于dl的感知非常容易被所谓的对抗性示例愚弄。更严重的,物理神器如普遍的对抗补丁(对手仔细选择打印出来并放置在场景中的图案)或半透明敌对的相机贴纸摄像头的镜头可以以安全关键的方式欺骗物体探测器。具体来说,通用补丁是有问题的,因为它们是通用的,一旦创建,它们可以在许多不同的情况下持续欺骗感知系统。图1(左)给出了一个愚弄交通灯探测器不检测到红色交通灯的例子。很明显,没有发现红灯会导致灾难性的后果。因此,让深度学习感知强大地抵御这种攻击是一个重要的挑战。

让深度学习感知强大地抵御这种攻击是一个重要的挑战。

MAT模型导致补丁无效

图1。数字通用补丁攻击对一个无防御模型(左)和一个用元对抗训练(MAT)防御的模型(右)的说明raybet雷竞技ios下载博世小型交通.补丁会导致没有防御的模型检测不存在的红绿灯,而错过没有补丁会检测到的真实红绿灯。相比之下,同样的补丁对MAT模型无效。此外,为MAT模型(右上)优化的补丁(与红绿灯相似)不会导致模型删除正确的检测。

图1。对无防御模型(左)和用元对抗训练防御模型(右)的数字通用补丁攻击的插图。

对抗性训练:通过在训练中模拟攻击来增加健壮性

目前,提高深度神经网络对这种对抗性攻击的鲁棒性的最有效方法是所谓的对抗性训练。对抗性训练在训练的每一步都模拟对抗性攻击,从而训练网络对特定类型的攻击变得健壮。然而,由于每次训练迭代都需要重新模拟攻击,因此只有计算成本低的攻击才能被合并。

因此,对抗性训练要求针对廉价代理攻击的鲁棒性训练也要增加对更复杂和计算成本更高的攻击的鲁棒性。这一假设适用于典型的学术对抗威胁模型。先前的工作还表明,针对廉价代理攻击的训练增加了对通用补丁和扰动的鲁棒性。

一种虚假的健壮感

对抗性训练使得当前的对抗性攻击寻找愚弄系统的通用补丁无效。然而,该模型是否在本质上更健壮,以至于未来可能开发的更高级攻击仍然无效,这仍然是一个悬而未决的问题。为了阐明这一点,我们以各种方式扩展了现有的攻击:我们改变了它们的初始化,将它们约束为低频模式,在不同的模型之间转移它们,并系统地改变它们的一些超参数。结果很有说服力:使用现有对抗性训练方法训练的模型都没有显著提高对通用补丁的感知鲁棒性。因此,鲁棒性的明显提高是由于评估弱攻击,而不是神经网络的真正鲁棒性。

元对抗训练:通过元学习有效模拟强攻击

我们的假设是,只有在训练过程中模拟强攻击,才能实现对通用补丁的真正鲁棒性。然而,这些攻击在计算上是昂贵的,因此在对抗性训练中使用它们是禁止的。的关键思想元对抗训练(垫)我们提出的是,人们可以在对抗性训练的同时元学习强对抗性补丁:更具体地说,我们仍然在每次训练迭代中进行廉价的对抗性攻击。然而,我们不是随机地初始化这种攻击,而是从以前迭代中有效的大量攻击模式集中初始化这种攻击。在训练神经网络的同时,我们通过元学习更新这组攻击模式。这允许在训练期间生成强大而多样的攻击模式,同时保持计算开销可控。

我们提出的元对抗训练(MAT)的关键思想是在对抗训练的同时元学习强对抗补丁。

结果

用MAT训练的模型对通用补丁,甚至对上面概述的大型和多样化的强攻击程序都具有很高的鲁棒性。图1(右)为交通灯检测器的情况提供了一个示例:MAT训练的模型正确地检测到任何测试的攻击模式的红色交通灯。此外,与实际红绿灯相似的补丁也不会导致模型产生假阳性检测,这可能是同样有害的。评估目标探测器性能的定量测量,“平均平均精度”(mAP),在补丁攻击下,标准模型从0.41下降到0.09。这意味着:该模型错过了许多实际的红绿灯,并在对抗性补丁上发出了许多错误的检测。使用MAT训练的模型mAP保持在0.38。这些结果令人鼓舞,并为基于深度学习的感知能够抵御物理世界的攻击提供了希望。

的目录下提供了MAT的开源实现raybet雷竞技ios下载博世研究github页面

你对这个话题有什么看法?

请随时通过领英分享或直接与我联系。

作者:Jan Hendrik Metzen

Jan是博世人工智能中心健壮可伸缩感知的高级专家。raybet雷竞技ios下载他的研究是出于提高基于深度学习的感知的理解、稳健性和适用性的愿望。特别是,他专注于评估和增加神经网络的鲁棒性。

Jan Hendrik Metzen

分享到: