跳转至

Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

会议: ICLR2026
arXiv: 2511.03774
代码: https://github.com/jadenpark0/mm-perturb
领域: 多模态VLM
关键词: data contamination, VLM, benchmark leakage, semantic perturbation, ControlNet

一句话总结

提出多模态语义扰动方法检测 VLM 数据污染:用 LLM 生成密集描述 + Flux ControlNet 在保持图像构图的同时改变答案相关语义元素,污染模型因记忆原始图像-文本对而在扰动版本上失败,首次系统验证现有 LLM 检测方法在 VLM 上不可靠。

研究背景与动机

  1. 领域现状:VLM(LLaVA、Qwen2-VL 等)在 MMStar、RealWorldQA 等 benchmark 上表现优异,但训练数据常不公开,可能包含测试集泄露。现有污染检测方法(n-gram、CircularEval、Choice Confusion 等)主要为 LLM 设计。
  2. 现有痛点:(a) LLM 检测方法应用于 VLM 时不可靠——文本扰动不影响视觉特征,模型可凭图像记忆答题;(b) 缺乏系统研究不同污染策略(LoRA vs 全量微调、不同 epoch)下检测方法的有效性;(c) 没有方法同时满足实用性(无需 clean 模型)、可靠性(跨训练策略一致)、一致性(与污染程度正相关)。
  3. 核心矛盾:VLM 是多模态的——仅扰动文本不够,仅扰动选项不够——需要同时扰动图像和文本语义。
  4. 本文要解决什么? 设计满足三个要求(实用性+可靠性+一致性)的 VLM 污染检测方法。
  5. 切入角度:生成语义扰动的图像-问题对——保持构图但改变答案相关元素→污染模型因记忆而失败,干净模型因推理能力而成功。
  6. 核心idea一句话:用 ControlNet 生成语义扰动图像(改变答案但保持构图),比较原始 vs 扰动性能差异检测污染。

方法详解

整体框架

(1) 随机改变原始问题的正确答案;(2) GPT-4o 生成与新答案一致的密集描述;(3) Flux ControlNet + Canny edge 保持构图生成扰动图像;(4) 人工/自动过滤确保扰动问题可回答;(5) 比较模型在原始 vs 扰动 benchmark 上的准确率差异→差异大 = 污染。

关键设计

  1. 多模态语义扰动:
  2. 做什么:生成难度相当但答案不同的图像-问题对
  3. 例子:原图限速 30→扰动图限速 50(Canny edge 保持道路结构,ControlNet 重绘限速牌数字)
  4. 关键:条件化在新答案上生成密集描述→确保扰动目标明确。ControlNet 保持全局结构→确保难度不变
  5. 设计动机:污染模型记忆了"这张图答 B"→扰动后答案变 C 但图像视觉相似→记忆型模型仍答 B(错误),推理型模型能正确识别新答案

  6. 三个要求的形式化:

  7. 实用性:无需知道 clean 模型行为,只需黑盒交互
  8. 可靠性:跨不同微调策略(LoRA/全量/LLM+MLP)一致检测
  9. 一致性:检测信号与污染程度(epoch 数)正相关

  10. 系统性污染实验:

  11. 模型:LLaVA-v1.5-7B, Qwen2-VL-7B
  12. 策略:标准微调(不同解冻策略)+ LoRA
  13. Epoch 1-3 级别的污染程度

实验关键数据

主实验(MMStar, LLaVA-v1.5-7B)

方法 Clean LoRA Ep1 LoRA Ep3 LLM+MLP Ep3 满足3要求
Ours Δ +31.51 -8.29 -16.16 -13.74 ✓✓✓
CircularEval Δ -11.72 -23.44 +1.22 -28.69
Choice Confusion 部分有效 不一致 不一致 不一致

关键发现

  • Clean 模型在扰动版本上性能更好(+31.51):扰动问题更简单或相当→干净模型泛化无问题
  • 所有污染模型在扰动版本上显著下降:LoRA Ep3 下降 16.16——记忆导致泛化失败
  • 检测信号与 epoch 正相关:Ep1 (-8.29) < Ep2 (-13.13) < Ep3 (-16.16)——满足一致性要求
  • 现有方法大面积失败:7 种现有方法中无一满足全部 3 个要求
  • 跨模型有效:LLaVA 和 Qwen2-VL 上一致有效

亮点与洞察

  • 首次系统研究 VLM 污染检测:之前只研究 LLM。VLM 的多模态性质让文本扰动失效——需要同时扰动图像
  • "clean 模型扰动后更好"是优雅的检测原理:不需要知道 clean 模型是什么——任何模型在等难度扰动上不该更差
  • ControlNet 的新用途:从图像编辑工具变为污染检测工具——生成受控扰动的 benchmark
  • 自动化可行:虽然主实验用人工过滤,但表 9 显示自动过滤也有效

局限性 / 可改进方向

  • 扰动质量依赖生成模型:Flux ControlNet 在低分辨率或复杂文字渲染上有局限
  • 人工过滤成本:主实验需人工验证扰动质量(765→440 有效对)
  • 只检测 fine-tuning 阶段污染:预训练阶段污染未被检测
  • 改进方向:更强的受控图像编辑模型可提升扰动质量→减少过滤损失

相关工作与启发

  • vs CircularEval:循环选项顺序检测——VLM 上不一致(有时 clean 也下降)
  • vs Choice Confusion:选项困惑度——VLM 上信号不稳定
  • vs BGR Shuffling / Image Masking:简单图像扰动不够——需要语义级别的扰动

评分

  • 新颖性: ⭐⭐⭐⭐ 多模态语义扰动检测 VLM 污染的思路新颖,三要求形式化有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 2 模型 × 2 benchmark × 多种微调策略 × 多 epoch × 7 种基线对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验设计严谨
  • 价值: ⭐⭐⭐⭐⭐ 对 VLM benchmark 可信度有直接影响,实用性强