Rethinking VLMs for Image Forgery Detection and Localization¶

会议: CVPR 2025
arXiv: 2603.12930
代码: 待确认
领域: AI Safety / 图像伪造检测
关键词: 图像伪造检测与定位, VLM, SAM, ViT, 可解释性, 篡改检测

一句话总结¶

提出 IFDL-VLM，揭示 VLM 先验对伪造检测/定位几乎无益，通过将检测/定位与语言解释解耦的两阶段框架，用 ViT+SAM 专家模型做检测定位、再将定位 mask 作为辅助输入增强 VLM 训练以生成可解释文字说明。

图像伪造检测的重要性: 随着生成模型（GAN、Diffusion）日益强大，高质量伪造图像的泛滥对信息安全和社会信任构成严重威胁，亟需高效的伪造检测与定位（IFDL）方法
VLM 在 IFDL 中的应用尝试: 近期工作（如 FakeShield、SIDA）尝试利用 VLM 做 IFDL 并输出文字解释，但将检测/定位/解释混合在一起训练
VLM 的固有偏置问题: VLM 天然偏向语义合理性而非真实性判断，对语义一致的伪造（如 copy-move、splicing 等不改变语义的篡改）不敏感
核心发现: 作者实验发现 VLM 先验对检测/定位几乎不提供额外增益——直接用 ViT 专家模型反而更好
反向发现: 但定位 mask 对 VLM 的可解释性训练有显著增益——mask 提供了「哪里被篡改」的精确空间信息，帮助 VLM 生成准确的文字解释
核心idea: 将 IFDL 拆解为两阶段——先用专家模型做检测/定位，再将定位结果注入 VLM 以增强解释能力

IFDL-VLM 采用两阶段解耦架构：

Stage 1: 训练 ViT + SAM 专家模型用于伪造检测与定位，完全不依赖 VLM
Stage 2: 将 Stage 1 输出的定位 mask 作为辅助视觉输入，通过 Region-Aware Visual Feature Enhancement（RAVFE）模块注入 VLM，微调 VLM 生成可解释性说明

任务	指标	IFDL-VLM	SIDA	FakeShield	提升
检测 (SID-Set)	Accuracy	99.7%	—	—	—
检测 (SID-Set)	F1	99.8%	—	—	—
定位 (SID-Set)	IoU	0.65	0.54	—	+21%
跨数据集定位	Avg IoU (8 benchmarks)	0.47	—	0.42	+13%
可解释性	GPT-5 Score	2.44	1.67	—	+0.77

配置	检测 Acc	定位 IoU	解释 GPT Score
完整 IFDL-VLM	99.7%	0.65	2.44
用 VLM 做检测/定位	~95%	~0.48	—
Stage 2 无 mask 辅助	—	—	~1.8
端到端联合训练	~96%	~0.50	~2.0