Contamination Detection for VLMs using Multi-Modal Semantic Perturbation¶

会议: ICLR2026
arXiv: 2511.03774
代码: https://github.com/jadenpark0/mm-perturb
领域: 多模态VLM
关键词: data contamination, VLM, benchmark leakage, semantic perturbation, ControlNet

一句话总结¶

提出多模态语义扰动方法检测 VLM 数据污染：用 LLM 生成密集描述 + Flux ControlNet 在保持图像构图的同时改变答案相关语义元素，污染模型因记忆原始图像-文本对而在扰动版本上失败，首次系统验证现有 LLM 检测方法在 VLM 上不可靠。

研究背景与动机¶

领域现状：VLM（LLaVA、Qwen2-VL 等）在 MMStar、RealWorldQA 等 benchmark 上表现优异，但训练数据常不公开，可能包含测试集泄露。现有污染检测方法（n-gram、CircularEval、Choice Confusion 等）主要为 LLM 设计。
现有痛点：(a) LLM 检测方法应用于 VLM 时不可靠——文本扰动不影响视觉特征，模型可凭图像记忆答题；(b) 缺乏系统研究不同污染策略（LoRA vs 全量微调、不同 epoch）下检测方法的有效性；(c) 没有方法同时满足实用性（无需 clean 模型）、可靠性（跨训练策略一致）、一致性（与污染程度正相关）。
核心矛盾：VLM 是多模态的——仅扰动文本不够，仅扰动选项不够——需要同时扰动图像和文本语义。
本文要解决什么？ 设计满足三个要求（实用性+可靠性+一致性）的 VLM 污染检测方法。
切入角度：生成语义扰动的图像-问题对——保持构图但改变答案相关元素→污染模型因记忆而失败，干净模型因推理能力而成功。
核心idea一句话：用 ControlNet 生成语义扰动图像（改变答案但保持构图），比较原始 vs 扰动性能差异检测污染。

方法详解¶

整体框架¶

(1) 随机改变原始问题的正确答案；(2) GPT-4o 生成与新答案一致的密集描述；(3) Flux ControlNet + Canny edge 保持构图生成扰动图像；(4) 人工/自动过滤确保扰动问题可回答；(5) 比较模型在原始 vs 扰动 benchmark 上的准确率差异→差异大 = 污染。

关键设计¶

多模态语义扰动:
做什么：生成难度相当但答案不同的图像-问题对
例子：原图限速 30→扰动图限速 50（Canny edge 保持道路结构，ControlNet 重绘限速牌数字）
关键：条件化在新答案上生成密集描述→确保扰动目标明确。ControlNet 保持全局结构→确保难度不变
设计动机：污染模型记忆了"这张图答 B"→扰动后答案变 C 但图像视觉相似→记忆型模型仍答 B（错误），推理型模型能正确识别新答案
三个要求的形式化:
实用性：无需知道 clean 模型行为，只需黑盒交互
可靠性：跨不同微调策略（LoRA/全量/LLM+MLP）一致检测
一致性：检测信号与污染程度（epoch 数）正相关
系统性污染实验:
模型：LLaVA-v1.5-7B, Qwen2-VL-7B
策略：标准微调（不同解冻策略）+ LoRA
Epoch 1-3 级别的污染程度

实验关键数据¶

主实验（MMStar, LLaVA-v1.5-7B）¶

方法	Clean	LoRA Ep1	LoRA Ep3	LLM+MLP Ep3	满足3要求
Ours Δ	+31.51	-8.29	-16.16	-13.74	✓✓✓
CircularEval Δ	-11.72	-23.44	+1.22	-28.69	✗
Choice Confusion	部分有效	不一致	不一致	不一致	✗

关键发现¶

Clean 模型在扰动版本上性能更好（+31.51）：扰动问题更简单或相当→干净模型泛化无问题
所有污染模型在扰动版本上显著下降：LoRA Ep3 下降 16.16——记忆导致泛化失败
检测信号与 epoch 正相关：Ep1 (-8.29) < Ep2 (-13.13) < Ep3 (-16.16)——满足一致性要求
现有方法大面积失败：7 种现有方法中无一满足全部 3 个要求
跨模型有效：LLaVA 和 Qwen2-VL 上一致有效

亮点与洞察¶

首次系统研究 VLM 污染检测：之前只研究 LLM。VLM 的多模态性质让文本扰动失效——需要同时扰动图像
"clean 模型扰动后更好"是优雅的检测原理：不需要知道 clean 模型是什么——任何模型在等难度扰动上不该更差
ControlNet 的新用途：从图像编辑工具变为污染检测工具——生成受控扰动的 benchmark
自动化可行：虽然主实验用人工过滤，但表 9 显示自动过滤也有效

局限性 / 可改进方向¶

扰动质量依赖生成模型：Flux ControlNet 在低分辨率或复杂文字渲染上有局限
人工过滤成本：主实验需人工验证扰动质量（765→440 有效对）
只检测 fine-tuning 阶段污染：预训练阶段污染未被检测
改进方向：更强的受控图像编辑模型可提升扰动质量→减少过滤损失

评分¶

新颖性: ⭐⭐⭐⭐ 多模态语义扰动检测 VLM 污染的思路新颖，三要求形式化有价值
实验充分度: ⭐⭐⭐⭐⭐ 2 模型 × 2 benchmark × 多种微调策略 × 多 epoch × 7 种基线对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，实验设计严谨
价值: ⭐⭐⭐⭐⭐ 对 VLM benchmark 可信度有直接影响，实用性强