IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding¶

会议: CVPR 2026
arXiv: 2508.09456
代码: https://github.com/lijunxian111/IAG
领域: AI安全
关键词: 后门攻击, 视觉定位, 多目标攻击, 输入感知触发器, VLM安全

一句话总结¶

提出IAG，首个针对VLM视觉定位的多目标后门攻击方法，通过文本条件U-Net动态生成输入感知触发器，将任意指定目标物体的语义信息嵌入视觉输入中，在12种设置下的11种达到最高攻击成功率。

研究背景与动机¶

领域现状: VLM-based视觉定位(Visual Grounding)已被广泛部署在GUI Agent、具身AI等系统中，用户通过自然语言指定目标物体让模型定位。HuggingFace等平台的开放模型分享使得恶意模型传播成为可能。
现有痛点: 现有VLM后门攻击(BadSem等)主要使用静态触发器和固定目标——只能攻击预定义的单一类别。但真实视觉定位场景中，物体种类和描述在不同图片间变化巨大，静态方案远不够用。
核心矛盾: 多目标后门攻击需要触发器能够动态编码任意目标物体的语义信息，同时保持不可察觉性和对干净样本的正常性能——这比单目标攻击困难得多。
本文目标: 实现首个多目标VLM视觉定位后门攻击——攻击者可指定图中任意物体让被攻击VLM定位之，无论用户查询的是什么。
切入角度: 利用文本条件U-Net作为触发器生成器，将目标物体描述编码为不可感知的视觉扰动，让VLM学会将这种扰动模式与目标定位关联。
核心 idea: 用文本条件U-Net动态生成在语义上编码攻击目标的不可感知触发器。

方法详解¶

整体框架¶

输入：干净图像\(x\)和攻击者指定的目标物体描述\(o\)。触发器生成：文本条件U-Net \(\mathcal{G}_\phi\)以\(x\)和\(o\)的嵌入\(z_o\)为条件生成触发器\(r\)，构造触发图像\(x \oplus r\)。后门注入：联合训练U-Net和VLM，使VLM在干净输入上正常工作，在触发输入上定位攻击目标。推理时攻击者只需提供触发图像（如注入广告链接的网页截图），用户查询任何内容VLM都会定位到攻击目标。

关键设计¶

输入感知触发器生成器 (Input-aware Trigger Generator):
- 功能：根据输入图像和目标物体描述动态生成不可感知的后门触发器。
- 核心思路：采用文本条件U-Net(3个下采样块+1个中间块+3个上采样块)，中间块和上采样块后加入交叉注意力层融入目标文本嵌入\(z_o\)。\(z_o\)来自冻结的干净VLM嵌入层。输出触发器与原图大小相同，直接相加得到触发图像。
- 设计动机：线性映射(如Imperio)无法建模目标物体与触发器之间的复杂非线性关系；浅层条件自编码器(如Marksman)存在信息瓶颈。U-Net的跨模态条件注入+跳连接能同时捕获全局上下文和精细视觉细节。
联合训练目标 (Joint Training Objective):
- 功能：平衡攻击效果、干净性能和触发器不可察觉性。
- 核心思路：总损失\(\mathcal{L} = \mathcal{L}_{LM} + \beta \cdot \mathcal{L}_{rec}\)。\(\mathcal{L}_{LM}\)包含两部分——干净样本的正常定位损失+触发样本的攻击目标定位损失（标准token级交叉熵）。\(\mathcal{L}_{rec} = \alpha_1 \mathcal{L}_{pix} + \alpha_2 \mathcal{L}_{LPIPS}\)强制触发器视觉不可感知（像素L1+感知LPIPS）。\(\alpha_1=1, \alpha_2=0.05, \beta=0.5\)。
- 设计动机：\(\mathcal{L}_{LM}\)的双部分确保模型在两种输入下都有正确行为，\(\mathcal{L}_{rec}\)的LPIPS保证触发器人眼不可见。三者联合训练让U-Net和VLM协同优化。

攻击数据准备 (Attack Data Preparation):

功能：系统化地从现有标注数据中构造少量投毒数据。

核心思路：从视觉定位数据集中以投毒率\(\alpha\)随机采样子集。对每张图随机选择一个标注物体作为攻击目标\(o\)，用户查询\(q\)来自非目标物体的描述，答案\(y^*\)是攻击目标的位置。统一提示模板：Q: xxx

设置	IAG ASR@0.5	最强baseline	超出
LLaVA + RefCOCO	58.9%	Imperio 55.2%	+3.7%
LLaVA + F30k	40.0%	Imperio 33.6%	+6.4%
InternVL + RefCOCO	66.9%	Imperio 65.5%	+1.4%
InternVL + RefCOCO+	68.1%	Imperio 63.8%	+4.3%
Ferret + F30k	53.8%	Imperio 48.1%	+5.7%
Ferret + RefCOCO	48.9%	Imperio 35.6%	+13.3%

配置	ASR	说明
Full IAG	58.9%	完整模型
无LPIPS损失	ASR提高但触发器可视	不可感知性受损
固定触发器 (One-to-N)	3.2%	无法多目标攻击
浅层自编码器 (Marksman)	8.5%	信息瓶颈限制
线性映射 (Imperio)	55.2%	较好但无法建模复杂关系

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验 (12种VLM×数据集组合)¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶