多模态大模型的「共同弱点」，我们找到了！

发布日期：2024-03-06 来源：瑞莱智慧RealAI 分享到：

最近一年来，以GPT-4V为代表的通用多模态大模型快速发展，并形成了丰富多样的落地应用，其中不乏自动驾驶、政务问答等安全敏感场景。大模型的架构均基于深度神经网络，不可避免地承袭了神经网络对抗鲁棒性差、易受干扰等安全风险。

红队机制是一种用于引出模型不良行为漏洞的评估形式，可以揭露大模型的安全漏洞和局限性。伴随大模型的广泛部署应用，红队也成为了大模型研究工作流程中亟待探索又至关重要的组成部分。对抗攻击是一种典型的红队评估方法，可以评价模型在恶意的最坏情况下的鲁棒性。

我们在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念，并据此研发算法来最大化黑盒迁移攻击的效果。这一攻击方法可以引发多个当前最先进的商用多模态大模型（如OpenAI的GPT-4V、谷歌的Bard等）出现各类错误行为。这一结果表明当下最先进的多模态大模型仍然存在对抗鲁棒性差、易受干扰的风险，进一步揭示了大模型在实际应用中的安全风险，亟需更安全、鲁棒、稳定的防御算法为其保驾护航。

论文链接：

https://openreview.net/forum?id=AcJrSoArlh

代码链接：

https://github.com/huanranchen/AdversarialAttacks

论文作者：

陈焕然、张亦弛、董胤蓬、杨啸、苏航、朱军

问题背景

深度神经网络很容易被人眼不可见的微小噪声（对抗样本）欺骗干扰，如图1所示，这使模型在应用中的可靠性和安全性大幅降低。

图1：对抗样本示意图

（参见https://arxiv.org/abs/1710.06081）

黑盒迁移攻击，即在生成对抗样本时既没有攻击模型的具体信息，也没有调用权限，是实际应用场景中最可行的攻击方案。因此对黑盒迁移攻击的研究可以进一步贴合实际地评估模型安全性。为了提升攻击性能，迁移攻击在一个或多个已知的白盒模型（称为替代模型）上生成对抗样本，利用对抗样本的迁移性攻击黑盒模型。现有的方法往往会因为对抗防御机制、模型结构差异等因素影响，而攻击效果大大降低。我们需要更有效的攻击方法来深入挖掘现有模型和防御机制的安全漏洞。

图2：黑盒攻击原理示意图

方法概述

在本篇工作中，我们主要研究集成攻击。集成攻击指的是攻击者使用多个白盒替代模型来制造对抗样本。在这种情况下，对抗样本同时攻击更多的替代模型，通常能够提高对抗样本对黑盒模型的迁移性。这可以类比为深度学习模型的泛化性，当使用更多的训练数据的情况下，模型在测试数据上的泛化性往往可以得到提升。因此，采用更多的白盒替代模型也可以提升生成对抗样本对其他黑盒模型的迁移性/泛化性。

然而，之前的集成攻击方法仅将这些模型的输出进行平均，从而构造一个新模型，然后使用对抗样本攻击这个新模型。在这种情况下，人们实际上仅仅利用了这个“平均模型”的信息，而没有充分利用每一个模型的信息。

我们认为要充分利用模型的多样性，同时攻击多个模型各自的薄弱环节，找到这些模型的“共同弱点”，进而生成迁移性更强的对抗样本。通过分析集成攻击的损失函数并将其进行二阶泰勒展开，我们从数学上发现模型“共同弱点”可以表示为搜索空间中不同模型损失曲线的平滑性和它们局部最优值之间的相近性。

图3：模型共同弱点示意图

我们结合了锐度感知最小化算法（Sharpness Aware Minimization, SAM）和梯度余弦相似度最大化（Cosine Similarity Encourager, CSE）两个策略，形成了攻击“共同弱点”的算法（Common Weakness Attack, CWA）。这一算法可以与当前基于梯度的对抗攻击算法无缝组合，来进一步提升对抗样本迁移攻击效果。

我们发现：如果不同模型的梯度方向高度一致，那么针对这些一致方向优化的对抗样本将更有可能同时攻破这些模型。然而，由于实际情况下模型梯度往往存在差异，我们提出了一种策略，旨在提升不同白盒替代模型梯度的余弦相似度。通过这种方式，我们可以更有效地定位并利用这些模型的共同脆弱点，从而生成具有更强迁移能力的对抗样本。

实验效果

我们首先在图像分类和目标检测等经典视觉任务上验证了方法的有效性，大幅领先最优的现有方法，对主流模型的黑盒攻击成功率达到99%以上。

进一步，我们成功攻破了谷歌的Bard（现更名为Gemini）、OpenAI的GPT-4V、微软的Bing Chat等多模态大模型。只需基于开源的图像编码器（如CLIP、BLIP2），就可以所提出的方法（CWA）生成对抗样本并作用于闭源的商用模型上，实现红队攻击测试。在攻击谷歌Bard时，CWA生成的对抗样本可以让模型将小刀的图片错误识别为“一个人手里拿着一个热狗”，并由于攻击引起的幻觉给出了细致但没有根据的文本描述。此外，模型在攻击下还会出现无法“看到”图片，因将羊错误识别为人而拒绝服务等错误行为，极大地影响了模型提供服务的稳定性和可靠性。量化指标上，CWA可以在图像描述的任务上，分别实现22%（Bard）、45%（GPT-4V）、26%（Bing Chat）的攻击成功率。这意味着即使是强大的通用多模态大模型，依然存在着对抗鲁棒性差的安全风险漏洞。=

未来展望

我们的工作展示了即使是当前最先进的商用多模态大模型，依然在安全上存在漏洞。目前主流的对抗防御方法为对抗训练，其需要更大的训练开销，同时会影响模型的精度，在大模型时代可用性不强。这启发我们应当面向大模型设计开发更加可靠和全面的安全性评估框架，同时持续改进和创新大模型的防御机制，以确保人工智能系统在面对各种潜在威胁时的稳健性和可靠性因此。清华大学和RealAI团队近期提出了基于生成式建模的新型对抗防御方法（参见https://arxiv.org/abs/2305.15241；https://arxiv.org/abs/2402.02316），利用生成式模型对数据分布的建模能力，实现对抗样本去噪和鲁棒生成式分类器，取得了SOTA的防御效果，为构建安全可靠的大模型提供了新的可能性。

同时，本篇工作所提出的算法利用“共同弱点”的思路，在攻击上取得了高度的迁移性，攻破了多个商用大模型。这意味着我们可以通过迁移攻击的范式，来以更高的效率和更低的成本来攻击大模型，进而评价它们的鲁棒性和安全性。

多模态大模型的「共同弱点」，我们找到了！

你知道你的Internet Explorer是过时了吗?