V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs¶

会议: CVPR 2026
arXiv: 2511.20223
代码: GitHub
领域: AI安全
关键词: 对抗攻击, 视觉语言模型, Value特征, 语义操控, 可控攻击

一句话总结¶

发现 ViT 中 Value 特征相比 Patch 特征具有更解耦的局部语义表示，提出 V-Attack 通过自增强 Value 特征 + 文本引导语义操控实现精确可控的 LVLM 局部语义攻击，ASR 平均提升 36%。

核心矛盾：领域现状：对抗攻击已从干扰分类预测进化到操控 LVLM 的图像语义。但现有方法在精确操控特定概念时成功率极低——同时改变3个概念，成功率<10%。

核心发现：ViT 自注意力使 Patch 特征产生语义纠缠（全局上下文主导，局部语义被稀释），而 Value 特征天然抑制全局上下文通道，保留高熵的解耦局部语义。通道分布分析显示 Patch 特征被少数高激活通道（与 CLS token 相关）主导，而 Value 特征分布均匀。

多代理模型 Value 特征提取 → Self-Value Enhancement → Text-Guided Value Manipulation → PGD 迭代生成对抗扰动。

Value 特征解耦性：分析 CLIP-L/14 发现 Patch 特征的信息熵在中间层骤降，而 Value 特征始终保持高熵。文本对齐分析显示 V 与特定文本的余弦相似度图有清晰空间对齐（"dog" → 0.28 vs X 的 0.22），V 是更精确的语义操控目标。
Self-Value Enhancement：对提取的 Value 特征做"自注意力"（Q=K=V 全来自 Value），强化局部语义的内部一致性：\(\widetilde{\mathbf{V}}^{(k)} = \text{Attn}(\mathbf{V}^{(k)}, \mathbf{V}^{(k)}, \mathbf{V}^{(k)})\)
Text-Guided Value Manipulation：
- 用 CLIP 文本编码器编码源/目标概念
- 计算每个增强 Value token 与源文本的余弦相似度
- 自适应阈值 \(\tau^{(k)}\) 选出与源概念对齐的 token 集合 \(\mathcal{I}_{\text{align}}^{(k)}\)
- 损失：\(\mathcal{L} = \sum_{k} \sum_{i \in \mathcal{I}_{\text{align}}^{(k)}} [-s_i^{(k)}(t_s) + s_i^{(k)}(t_t)]\)
- PGD 迭代 + 随机裁缩增强迁移性

跨多个代理模型（CLIP变体）集成优化，对选出的语义对齐 token 同时远离源概念、靠近目标概念。

方法	LLaVA CAP	InternVL CAP	DeepseekVL CAP	GPT-4o CAP	Avg
MF-it	0.051	0.040	0.040	0.028	0.040
SSA-CWA	0.262	0.304	0.241	0.285	0.273
M-Attack	0.370	0.405	0.483	0.544	0.450
V-Attack	最高	最高	最高	最高	+36%