Contamination Detection for VLMs using Multi-Modal Semantic Perturbation¶
会议: ICLR2026
arXiv: 2511.03774
代码: https://github.com/jadenpark0/mm-perturb
领域: 多模态VLM
关键词: data contamination, VLM, benchmark leakage, semantic perturbation, ControlNet
一句话总结¶
提出多模态语义扰动方法检测 VLM 数据污染:用 LLM 生成密集描述 + Flux ControlNet 在保持图像构图的同时改变答案相关语义元素,污染模型因记忆原始图像-文本对而在扰动版本上失败,首次系统验证现有 LLM 检测方法在 VLM 上不可靠。
研究背景与动机¶
- 领域现状:VLM(LLaVA、Qwen2-VL 等)在 MMStar、RealWorldQA 等 benchmark 上表现优异,但训练数据常不公开,可能包含测试集泄露。现有污染检测方法(n-gram、CircularEval、Choice Confusion 等)主要为 LLM 设计。
- 现有痛点:(a) LLM 检测方法应用于 VLM 时不可靠——文本扰动不影响视觉特征,模型可凭图像记忆答题;(b) 缺乏系统研究不同污染策略(LoRA vs 全量微调、不同 epoch)下检测方法的有效性;(c) 没有方法同时满足实用性(无需 clean 模型)、可靠性(跨训练策略一致)、一致性(与污染程度正相关)。
- 核心矛盾:VLM 是多模态的——仅扰动文本不够,仅扰动选项不够——需要同时扰动图像和文本语义。
- 本文要解决什么? 设计满足三个要求(实用性+可靠性+一致性)的 VLM 污染检测方法。
- 切入角度:生成语义扰动的图像-问题对——保持构图但改变答案相关元素→污染模型因记忆而失败,干净模型因推理能力而成功。
- 核心idea一句话:用 ControlNet 生成语义扰动图像(改变答案但保持构图),比较原始 vs 扰动性能差异检测污染。
方法详解¶
整体框架¶
(1) 随机改变原始问题的正确答案;(2) GPT-4o 生成与新答案一致的密集描述;(3) Flux ControlNet + Canny edge 保持构图生成扰动图像;(4) 人工/自动过滤确保扰动问题可回答;(5) 比较模型在原始 vs 扰动 benchmark 上的准确率差异→差异大 = 污染。
关键设计¶
- 多模态语义扰动:
- 做什么:生成难度相当但答案不同的图像-问题对
- 例子:原图限速 30→扰动图限速 50(Canny edge 保持道路结构,ControlNet 重绘限速牌数字)
- 关键:条件化在新答案上生成密集描述→确保扰动目标明确。ControlNet 保持全局结构→确保难度不变
-
设计动机:污染模型记忆了"这张图答 B"→扰动后答案变 C 但图像视觉相似→记忆型模型仍答 B(错误),推理型模型能正确识别新答案
-
三个要求的形式化:
- 实用性:无需知道 clean 模型行为,只需黑盒交互
- 可靠性:跨不同微调策略(LoRA/全量/LLM+MLP)一致检测
-
一致性:检测信号与污染程度(epoch 数)正相关
-
系统性污染实验:
- 模型:LLaVA-v1.5-7B, Qwen2-VL-7B
- 策略:标准微调(不同解冻策略)+ LoRA
- Epoch 1-3 级别的污染程度
实验关键数据¶
主实验(MMStar, LLaVA-v1.5-7B)¶
| 方法 | Clean | LoRA Ep1 | LoRA Ep3 | LLM+MLP Ep3 | 满足3要求 |
|---|---|---|---|---|---|
| Ours Δ | +31.51 | -8.29 | -16.16 | -13.74 | ✓✓✓ |
| CircularEval Δ | -11.72 | -23.44 | +1.22 | -28.69 | ✗ |
| Choice Confusion | 部分有效 | 不一致 | 不一致 | 不一致 | ✗ |
关键发现¶
- Clean 模型在扰动版本上性能更好(+31.51):扰动问题更简单或相当→干净模型泛化无问题
- 所有污染模型在扰动版本上显著下降:LoRA Ep3 下降 16.16——记忆导致泛化失败
- 检测信号与 epoch 正相关:Ep1 (-8.29) < Ep2 (-13.13) < Ep3 (-16.16)——满足一致性要求
- 现有方法大面积失败:7 种现有方法中无一满足全部 3 个要求
- 跨模型有效:LLaVA 和 Qwen2-VL 上一致有效
亮点与洞察¶
- 首次系统研究 VLM 污染检测:之前只研究 LLM。VLM 的多模态性质让文本扰动失效——需要同时扰动图像
- "clean 模型扰动后更好"是优雅的检测原理:不需要知道 clean 模型是什么——任何模型在等难度扰动上不该更差
- ControlNet 的新用途:从图像编辑工具变为污染检测工具——生成受控扰动的 benchmark
- 自动化可行:虽然主实验用人工过滤,但表 9 显示自动过滤也有效
局限性 / 可改进方向¶
- 扰动质量依赖生成模型:Flux ControlNet 在低分辨率或复杂文字渲染上有局限
- 人工过滤成本:主实验需人工验证扰动质量(765→440 有效对)
- 只检测 fine-tuning 阶段污染:预训练阶段污染未被检测
- 改进方向:更强的受控图像编辑模型可提升扰动质量→减少过滤损失
相关工作与启发¶
- vs CircularEval:循环选项顺序检测——VLM 上不一致(有时 clean 也下降)
- vs Choice Confusion:选项困惑度——VLM 上信号不稳定
- vs BGR Shuffling / Image Masking:简单图像扰动不够——需要语义级别的扰动
评分¶
- 新颖性: ⭐⭐⭐⭐ 多模态语义扰动检测 VLM 污染的思路新颖,三要求形式化有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 2 模型 × 2 benchmark × 多种微调策略 × 多 epoch × 7 种基线对比
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验设计严谨
- 价值: ⭐⭐⭐⭐⭐ 对 VLM benchmark 可信度有直接影响,实用性强