V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs¶
会议: CVPR 2026
arXiv: 2511.20223
代码: GitHub
领域: AI安全
关键词: 对抗攻击, 视觉语言模型, Value特征, 语义操控, 可控攻击
一句话总结¶
发现 ViT 中 Value 特征相比 Patch 特征具有更解耦的局部语义表示,提出 V-Attack 通过自增强 Value 特征 + 文本引导语义操控实现精确可控的 LVLM 局部语义攻击,ASR 平均提升 36%。
研究背景与动机¶
核心矛盾¶
核心矛盾:领域现状:对抗攻击已从干扰分类预测进化到操控 LVLM 的图像语义。但现有方法在精确操控特定概念时成功率极低——同时改变3个概念,成功率<10%。
核心发现:ViT 自注意力使 Patch 特征产生语义纠缠(全局上下文主导,局部语义被稀释),而 Value 特征天然抑制全局上下文通道,保留高熵的解耦局部语义。通道分布分析显示 Patch 特征被少数高激活通道(与 CLS token 相关)主导,而 Value 特征分布均匀。
方法详解¶
整体框架¶
多代理模型 Value 特征提取 → Self-Value Enhancement → Text-Guided Value Manipulation → PGD 迭代生成对抗扰动。
关键设计¶
-
Value 特征解耦性:分析 CLIP-L/14 发现 Patch 特征的信息熵在中间层骤降,而 Value 特征始终保持高熵。文本对齐分析显示 V 与特定文本的余弦相似度图有清晰空间对齐("dog" → 0.28 vs X 的 0.22),V 是更精确的语义操控目标。
-
Self-Value Enhancement:对提取的 Value 特征做"自注意力"(Q=K=V 全来自 Value),强化局部语义的内部一致性:\(\widetilde{\mathbf{V}}^{(k)} = \text{Attn}(\mathbf{V}^{(k)}, \mathbf{V}^{(k)}, \mathbf{V}^{(k)})\)
-
Text-Guided Value Manipulation:
- 用 CLIP 文本编码器编码源/目标概念
- 计算每个增强 Value token 与源文本的余弦相似度
- 自适应阈值 \(\tau^{(k)}\) 选出与源概念对齐的 token 集合 \(\mathcal{I}_{\text{align}}^{(k)}\)
- 损失:\(\mathcal{L} = \sum_{k} \sum_{i \in \mathcal{I}_{\text{align}}^{(k)}} [-s_i^{(k)}(t_s) + s_i^{(k)}(t_t)]\)
- PGD 迭代 + 随机裁缩增强迁移性
损失函数 / 训练策略¶
跨多个代理模型(CLIP变体)集成优化,对选出的语义对齐 token 同时远离源概念、靠近目标概念。
实验关键数据¶
主实验(局部语义攻击,MS-COCO)¶
| 方法 | LLaVA CAP | InternVL CAP | DeepseekVL CAP | GPT-4o CAP | Avg |
|---|---|---|---|---|---|
| MF-it | 0.051 | 0.040 | 0.040 | 0.028 | 0.040 |
| SSA-CWA | 0.262 | 0.304 | 0.241 | 0.285 | 0.273 |
| M-Attack | 0.370 | 0.405 | 0.483 | 0.544 | 0.450 |
| V-Attack | 最高 | 最高 | 最高 | 最高 | +36% |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 攻击 Patch 特征 X | 低 | 语义纠缠 |
| 攻击 Value 特征 V | 显著提升 | 解耦局部语义 |
| +Self-Enhancement | 进一步提升 | 语义更丰富 |
| +Text-Guided | 最优 | 精确定位+操控 |
关键发现¶
- Value 特征抑制了 Patch 中主导全局信息的高激活通道
- 攻击 Value 比攻击 Patch 平均 ASR 提升 36%
- 在 GPT-4o、GPT-o3 等闭源模型上也有效
亮点与洞察¶
- 深度洞察:首次揭示 ViT Value 特征的解耦性质,为对抗攻击提供新视角
- 精确可控:实现单概念级别的精准语义替换("狗"→"猫")
- 强迁移性:白盒代理生成的扰动在黑盒 GPT-4o 上有效
局限与展望¶
- 依赖 CLIP 等白盒代理模型,架构差异大时迁移效果可能下降
- 多概念同时攻击的成功率仍有提升空间
- 需关注此类工具的伦理风险
相关工作与启发¶
- AttackVLM 首次用 CLIP 做 LVLM 对抗攻击,V-Attack 找到更精确的攻击目标
- M-Attack 用裁剪增强+模型集成,V-Attack 从特征选择角度切入
- 对 LVLM 安全防御也有启示:可保护 Value 特征空间
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Value 特征解耦的发现非常深刻
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型多场景全面验证(含 GPT-4o)
- 写作质量: ⭐⭐⭐⭐ 分析透彻可视化优秀
- 价值: ⭐⭐⭐⭐ 揭示 LVLM 安全隐患
- 价值: 待评
相关论文¶
- [CVPR 2026] Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction
- [ICML 2025] Identifying and Understanding Cross-Class Features in Adversarial Training
- [CVPR 2026] Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models
- [CVPR 2025] MOS-Attack: A Scalable Multi-Objective Adversarial Attack Framework
- [CVPR 2026] Generative Adversarial Perturbations with Cross-paradigm Transferability on Localized Crowd Counting