跳转至

Rethinking VLMs for Image Forgery Detection and Localization

会议: CVPR 2025
arXiv: 2603.12930
代码: 待确认
领域: AI Safety / 图像伪造检测
关键词: 图像伪造检测与定位, VLM, SAM, ViT, 可解释性, 篡改检测

一句话总结

提出 IFDL-VLM,揭示 VLM 先验对伪造检测/定位几乎无益,通过将检测/定位与语言解释解耦的两阶段框架,用 ViT+SAM 专家模型做检测定位、再将定位 mask 作为辅助输入增强 VLM 训练以生成可解释文字说明。

研究背景与动机

  1. 图像伪造检测的重要性: 随着生成模型(GAN、Diffusion)日益强大,高质量伪造图像的泛滥对信息安全和社会信任构成严重威胁,亟需高效的伪造检测与定位(IFDL)方法
  2. VLM 在 IFDL 中的应用尝试: 近期工作(如 FakeShield、SIDA)尝试利用 VLM 做 IFDL 并输出文字解释,但将检测/定位/解释混合在一起训练
  3. VLM 的固有偏置问题: VLM 天然偏向语义合理性而非真实性判断,对语义一致的伪造(如 copy-move、splicing 等不改变语义的篡改)不敏感
  4. 核心发现: 作者实验发现 VLM 先验对检测/定位几乎不提供额外增益——直接用 ViT 专家模型反而更好
  5. 反向发现: 但定位 mask 对 VLM 的可解释性训练有显著增益——mask 提供了「哪里被篡改」的精确空间信息,帮助 VLM 生成准确的文字解释
  6. 核心idea: 将 IFDL 拆解为两阶段——先用专家模型做检测/定位,再将定位结果注入 VLM 以增强解释能力

方法详解

整体框架

IFDL-VLM 采用两阶段解耦架构:

  • Stage 1: 训练 ViT + SAM 专家模型用于伪造检测与定位,完全不依赖 VLM
  • Stage 2: 将 Stage 1 输出的定位 mask 作为辅助视觉输入,通过 Region-Aware Visual Feature Enhancement(RAVFE)模块注入 VLM,微调 VLM 生成可解释性说明

关键设计 1: ViT+SAM 伪造检测/定位专家

  • 使用预训练 ViT 作为伪造特征提取器
  • 以 SAM 的 mask decoder 作为定位头,输出像素级伪造 mask
  • 通过二分类头同时输出图像级检测结果(真/假)
  • 不引入任何语言模块,避免 VLM 语义偏置的干扰

关键设计 2: Region-Aware Visual Feature Enhancement (RAVFE)

  • 将 Stage 1 预测的伪造 mask 与原始视觉特征融合
  • 通过注意力机制让 VLM 聚焦于被篡改区域
  • mask 作为 soft spatial prior 引导 VLM 理解「哪里」被篡改以及「如何」被篡改
  • 仅在 VLM 微调阶段使用,不影响检测/定位模块

关键设计 3: 两阶段解耦的核心动机

  • 为什么不端到端: VLM 的语义先验会干扰低级伪造痕迹的检测(如 JPEG 伪影、边界不一致等),导致检测/定位性能下降
  • 为什么加 mask 有用: mask 提供了明确的空间证据,将 VLM 从「猜测哪里有问题」变为「解释已知的篡改区域」,大幅降低了解释任务的难度

实验关键数据

主实验

任务 指标 IFDL-VLM SIDA FakeShield 提升
检测 (SID-Set) Accuracy 99.7%
检测 (SID-Set) F1 99.8%
定位 (SID-Set) IoU 0.65 0.54 +21%
跨数据集定位 Avg IoU (8 benchmarks) 0.47 0.42 +13%
可解释性 GPT-5 Score 2.44 1.67 +0.77

消融实验

配置 检测 Acc 定位 IoU 解释 GPT Score
完整 IFDL-VLM 99.7% 0.65 2.44
用 VLM 做检测/定位 ~95% ~0.48
Stage 2 无 mask 辅助 ~1.8
端到端联合训练 ~96% ~0.50 ~2.0

关键发现

  • VLM 先验对检测/定位提供的收益可忽略不计,甚至有负面影响
  • 定位 mask 作为辅助输入对 VLM 训练的解释准确性有巨大提升(+0.77 GPT score)
  • ViT+SAM 专家模型在跨数据集泛化性上表现优异(8 个 benchmark 平均 0.47 IoU)
  • 两阶段解耦比端到端联合训练在所有维度上都更优

亮点与洞察

  1. 反直觉发现: 挑战了「VLM 万能」的假设,实验证明 VLM 对 IFDL 任务中的检测/定位帮助甚微,专家模型更优
  2. 解耦思想的通用性: 将「感知」与「理解/解释」解耦的思路可推广到其他需要 VLM 做细粒度分析的任务
  3. mask 作为 VLM 输入的新范式: 用上游模型的输出作为 VLM 的辅助空间先验,提升了 VLM 在细粒度空间推理中的能力
  4. 实用性强: 检测精度极高(99.7%),同时提供可解释的篡改描述,满足实际取证需求

局限性

  • Stage 1 和 Stage 2 分开训练,无法实现端到端梯度优化
  • 定位 mask 的质量直接影响 Stage 2 的解释质量,Stage 1 失败会级联传播
  • 仅在图像伪造上验证,对视频伪造、deepfake 等场景未探索
  • GPT-5 score 作为可解释性评估指标的可靠性有待讨论

相关工作与启发

  • FakeShield / SIDA: 直接用 VLM 端到端做 IFDL+解释,本文证明其检测/定位性能受限于 VLM 偏置
  • SAM: 本文利用 SAM 的 mask decoder 架构用于伪造定位,展示了基础模型在下游安全任务中的价值
  • 启发: 对于其他安全检测任务(如 deepfake、AI 生成内容检测),专家模型+VLM 解释的解耦范式值得探索

评分

  • 新颖性: ⭐⭐⭐⭐ — 反直觉发现有价值,解耦思想清晰
  • 实验充分度: ⭐⭐⭐⭐ — 8 个跨数据集评估 + 消融 + 可解释性评估
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,论证有力
  • 实用性: ⭐⭐⭐⭐ — 检测精度高,可解释性强
  • 综合推荐: ⭐⭐⭐⭐