Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates¶

会议: ACL 2025
arXiv: 2505.22943
代码: https://vision.snu.ac.kr/projects/mac
领域: 多模态VLM
关键词: 组合性漏洞, 对抗攻击, CLIP, 自训练, 多模态表征

一句话总结¶

提出MAC基准和diversity-promoting自训练方法，通过让LLM生成欺骗性文本来系统暴露CLIP等预训练多模态表征的组合性漏洞，在图像/视频/音频三个模态上均显著超越已有方法。

研究背景与动机¶

领域现状：CLIP等预训练多模态表征已成为检索、生成、奖励建模等下游任务的核心组件，其质量直接影响整个系统。
现有痛点：这些表征存在严重的组合性漏洞——例如，CLIP可能给"a bed is sitting on a baby"比"a baby is sitting on a bed"更高的相似度分数。现有基准（Winoground、SugarCrepe等）只针对特定模态（图像）和预定义的文本操作类型（替换、交换），无法全面暴露漏洞。
核心矛盾：(a) 基于规则的方法（词交换等）生成的负样本不自然、容易防御；(b) 人工标注成本高、难以规模化；(c) 现有方法只评估攻击成功率，忽略了攻击样本集的多样性——单调的攻击模式容易防御且无法揭示多样化的漏洞。
本文要解决什么？ (a) 提出模态无关的组合性漏洞评估框架；(b) 同时评估攻击成功率和多样性；(c) 用小模型（8B）实现高效的漏洞发现。
切入角度：将"LLM能否欺骗CLIP"形式化为对抗攻击问题，定义多维评估准则（跨模态、单模态、距离、辅助），并用rejection sampling自训练+diversity-promoting选择使LLM学会生成更有效且多样的对抗文本。
核心idea一句话：用LLM自训练生成欺骗性文本，通过多维攻击成功率+熵值多样性双重评估来系统基准测试多模态表征的组合性漏洞。

方法详解¶

整体框架¶

给定多模态数据对\((t_i, x_i)\)（文本+图像/视频/音频），用LLM生成器\(g\)产生对抗文本\(\tilde{t}_i\)，使目标表征\(f\)（如CLIP）错误地认为\(\tilde{t}_i\)比原始\(t_i\)与\(x_i\)更匹配。然后通过sample-wise四维准则评估每个样本的攻击成功，通过group-wise熵值评估整个攻击集的多样性。

关键设计¶

MAC四维评估准则（sample-wise）:
做什么：定义攻击成功的严格多维条件
核心思路：攻击成功需同时满足四个条件：(i) 跨模态准则：\(d_\theta(y_{t_i}, y_{x_i}) < d_\theta(y_{\tilde{t}_i}, y_{x_i})\)，即欺骗模型认为对抗文本与原始模态更匹配；(ii) 单模态准则：NLI模型判定\(\tilde{t}_i\)与\(t_i\)不构成蕴含关系（不是简单改写）；(iii) 距离准则：Levenshtein编辑距离 < 平均token长度的一半（限制修改幅度）；(iv) 辅助准则：遵循预定义规则（如指定的操作类型、排除否定等捷径）。总攻击成功率 \(R = \frac{1}{M_D}\sum_i (s_i^c \cdot s_i^u \cdot s_i^d \cdot s_i^a)\)
设计动机：任何单一准则都不足以定义有效攻击——仅看跨模态容易退化为改写，仅看编辑距离忽略语义区分。四维准则形成对攻击质量的全面约束
Group-wise多样性评估:
做什么：衡量整个对抗样本集使用了多少种不同的文本变换模式
核心思路：为每个样本对\((t_i, \tilde{t}_i)\)构建属性增强token（OP_POS_LEMMA格式，如I_NOUN_man表示插入名词man），然后计算所有token集合的熵 \(H = -\sum_j p_j \log p_j\) 和distinct-1 \(D_1\)。更高的\(H\)表示更多样化的攻击模式
设计动机：如果攻击总是使用相同词汇（如总是换man/woman），虽然成功率高但容易防御，且无法揭示表征的多种漏洞
Diversity-Promoting Self-Training:
做什么：训练小LLM（Llama-3.1-8B）自动生成高攻击成功率且多样化的对抗文本
核心思路：三步流程。(i) 用基础LLM对每个训练样本生成N=64个候选；(ii) 通过Gibbs采样式迭代选择：为每个样本点从其成功攻击候选中选择能最大化全局熵\(H\)的样本（Algorithm 1），循环K轮；(iii) 用选出的多样化成功样本做RFT（rejection sampling fine-tuning），loss为标准自回归：\(\mathcal{L} = -\frac{1}{M_{\hat{D}}}\sum_i\sum_j \log g(\tilde{t}_{i,j}|\tilde{t}_{i,<j}, \mathcal{I}, t_i; \Theta)\)
设计动机：朴素自训练只用随机选择的成功样本训练，会导致模型单调化（总生成类似模式）。通过在训练数据选择阶段引入多样性优化，让模型学到更丰富的攻击模式

损失函数 / 训练策略¶

采用RFT损失（标准自回归交叉熵）。训练数据来自N=64的大规模采样后经diversity-promoting选择的成功攻击样本。推理时只需N=4即可获得高性能。

实验关键数据¶

主实验¶

在三个模态上的攻击效果对比（N=4, 本文方法 vs 最佳baseline）：

模态/数据集	指标	本文 (Total ASR)	最佳Baseline	提升
Image/COCO (CLIP)	Total ASR↑	42.10%	23.33% (SeeTrue)	+18.77pp
Video/MSRVTT (LB)	Total ASR↑	45.60%	36.90% (VFC)	+8.70pp
Audio/AudioCaps (LB)	Total ASR↑	52.87%	5.76% (CompA)	+47.11pp

多样性对比（N=4, Image/COCO）：

方法	H↑	D1↑
本文 (Diversity-Promoted)	7.747	0.129
Self-Train (无diversity)	7.507	0.120
Zero-shot	7.571	0.130
SeeTrue	7.168	0.124

消融实验¶

自训练各组件的贡献（Image/COCO, N=4）：

配置	Cross ASR	Total ASR	H
Zero-shot	37.29%	19.19%	7.571
+ Self-Train	43.08%	34.64%	7.507
+ Large-N Distilled	48.29%	42.03%	7.452
+ Diversity-Promoted (Full)	47.93%	42.10%	7.747

关键发现¶

自训练显著提升攻击成功率：从zero-shot的19.19%到self-train的34.64%（+15.45pp），说明LLM可以通过学习自己生成的成功样本大幅提升漏洞发现能力
跨模型迁移性良好：在CLIP上训练的攻击对SigLIP、NegCLIP、BLIP也有效（ASR 23-29%），说明组合性漏洞在不同表征模型间共享
ASR与多样性的trade-off：朴素自训练提升ASR但降低多样性（H从7.571降至7.507），diversity-promoting选择恢复并提升多样性（7.747）而几乎不损失ASR
小模型不输大模型：Llama-3.1-8B的攻击效果不逊于GPT-4o（甚至在某些设置下更好），说明漏洞发现不需要昂贵的大模型
音频模态最脆弱：Audio/AudioCaps上Total ASR达52.87%，远高于Image（42.10%）和Video（45.60%），说明音频-语言表征的组合性漏洞最严重

亮点与洞察¶

模态无关的统一评估框架：将组合性漏洞从视觉-语言扩展到视频和音频，用统一的四维准则+熵值多样性评估，这是此前工作没有做到的
Diversity-promoting选择的巧妙设计：不改变训练loss，而是在训练数据选择阶段引入diversity优化（Gibbs采样最大化全局熵），简单但有效地解决了自训练单调化问题。这个思路可以迁移到任何rejection sampling场景
属性增强token设计：OP_POS_LEMMA的编码方式把文本变换结构化为可量化比较的token，使得diversity有了可计算的度量

局限性 / 可改进方向¶

仅修改文本不修改模态输入：只通过文本变换攻击，未探索图像/视频/音频侧的联合攻击
评估依赖NLI模型：单模态准则使用NLI模型判断蕴含关系，NLI本身的错误会影响评估
对防御策略的分析不足：知道了漏洞，但如何利用这些发现来增强模型的组合性没有深入探讨
可改进方向：利用发现的对抗样本做对比学习数据增强来修复CLIP的组合性漏洞

评分¶

新颖性: ⭐⭐⭐⭐ 首次将对抗攻击+多样性评估统一应用于多模态组合性漏洞基准测试
实验充分度: ⭐⭐⭐⭐⭐ 三模态、多目标模型、跨模型迁移、消融实验齐全
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，评估准则定义严格
价值: ⭐⭐⭐⭐ 揭示CLIP等核心表征的系统漏洞，对VLM安全性研究有重要意义