Rethinking VLMs for Image Forgery Detection and Localization¶
会议: CVPR 2026
arXiv: 2603.12930
代码: github.com/sha0fengGuo/IFDL-VLM
领域: AI安全 / 图像伪造检测
关键词: 图像伪造检测, VLM, 可解释性, 解耦优化, SAM定位
一句话总结¶
揭示VLM的语义合理性偏差(semantic plausibility bias)会妨碍伪造检测,提出IFDL-VLM将检测/定位与语言解释生成解耦为两阶段:先用ViT+SAM专做检测定位,再将定位mask作为VLM辅助输入增强可解释性,在9个基准上全面SOTA。
背景与动机¶
AIGC时代图像伪造检测(IFDL)面临三大挑战:联合利用高/低层特征、跨伪造类型泛化、结果可解释性。现有方法如SIDA和FakeShield直接在VLM管线内端到端优化检测、定位和语言解释。但作者发现关键问题:VLM的CLIP视觉编码器天然偏向"语义合理性"而非"真实性"——伪造图像只要语义上说得通,CLIP特征就几乎不变(余弦相似度96~99%),这使得VLM先验反而妨碍伪造检测。
核心问题¶
(1) VLM的视觉-语言对齐先验是否真的有助于伪造检测和定位?(答案是否定的)(2) 检测定位结果能否反过来辅助VLM生成更好的解释?(答案是肯定的)
方法详解¶
整体框架¶
两阶段解耦框架: - Stage-1: 可训练ViT backbone(CLIP-ViT-L/14初始化)+ frozen SAM做检测和定位。CLS token走线性分类器做三分类(真实/全合成/篡改),patch token经注意力聚合为SEG token输入SAM生成定位mask。 - Stage-2: 将Stage-1的定位mask作为辅助输入增强VLM视觉特征。\(T_{vis} = \alpha \cdot \text{CLIP}(x) + (1-\alpha) \cdot \text{CLIP}(x \odot M)\),mask高亮区域的低层线索被编码进视觉token,减轻VLM推理伪造概念的负担。
关键设计¶
-
语义合理性偏差的发现与验证: CLIP对伪造图像和原图的视觉特征余弦相似度高达96.3%~98.5%,说明CLIP的对齐优化使其对真实性变化不敏感。这个insight驱动了解耦设计——不让CLIP/LLM参与检测定位。
-
定位mask编码伪造概念: mask显式告诉VLM"哪里被改了",VLM不再需要从数据中隐式学习伪造概念,训练优化大幅简化。这是从检测向可解释性的信息反馈。
-
区域感知视觉特征增强: α=0.5平衡全局语义和局部伪造线索。推理时用Stage-1预测的mask替代GT mask。
损失函数 / 训练策略¶
- Stage-1: BCE + Dice(定位)+ CE(分类),等权重
- Stage-2: 标准语言建模CE损失
- AdamW, lr=1e-5, cosine warmup-decay, mixed-precision
实验关键数据¶
SID-Set检测(三分类):
| 方法 | Overall ACC | Overall F1 |
|---|---|---|
| SIDA-13B | 0.94 | 0.94 |
| IFDL-VLM | 0.997 | 0.998 |
SID-Set定位:
| 方法 | AUC | F1 | IoU |
|---|---|---|---|
| SIDA-7B | 0.87 | 0.74 | 0.44 |
| IFDL-VLM | 0.99 | 0.87 | 0.65 (+21% abs) |
跨数据集泛化(8个数据集平均): - IFDL-VLM: Avg IoU 0.47, Avg F1 0.58 - FakeShield: Avg IoU 0.34/0.39 - SIDA-13B: Avg IoU 0.38
可解释性(GPT-5评分): Overall 2.36 vs SIDA 1.44(+63.9%),用户偏好研究中65.2%选择本文方法。
消融实验要点¶
- α=0.5最优,平衡全局语义和局部伪造线索
- 解冻CLIP微调会破坏跨模态对齐,导致语言生成质量下降
- 即使mask有小幅边界扰动,CSS分数仍保持0.842(vs GT mask 0.853),说明框架对定位误差鲁棒
- 参数14.3B,FLOPs 6.2T,与SIDA(14.0B/6.1T)相当
亮点¶
- 核心insight极有价值:VLM偏向语义合理性而非真实性,这个发现可能影响整个AIGC检测领域
- 解耦设计简洁有效——看起来"更简单"的管线反而更好,因为消除了CLIP偏差的干扰
- "检测结果帮助解释"的反向信息流设计巧妙——mask告诉LLM应该解释哪里
- 跨数据集泛化性能突出
局限性 / 可改进方向¶
- Stage-1定位错误仍会影响Stage-2解释质量(虽然实验显示鲁棒性较好)
- Stage-2仍使用frozen CLIP,可能在某些场景下限制语言生成质量
- 两阶段训练增加了工程复杂度
- GPT-5自动评估的可靠性需要更多验证
与相关工作的对比¶
- SIDA: 端到端VLM管线,SID-Set检测ACC 0.94 vs 本文0.997,IoU 0.44 vs 0.65
- FakeShield: 使用SAM和MLLM的IFDL方法,跨数据集Avg IoU 0.34-0.39 vs 本文0.47
- TruFor/MVSS-Net: 传统IFDL方法,无语言解释能力,定位性能也远不如本文
启发与关联¶
- "VLM偏向语义合理性"这个发现对所有使用VLM做异常/伪造检测的工作都有警示意义
- 解耦思路可推广:遇到VLM先验与任务目标不一致时,不应强行端到端训练,而应解耦
- 用检测结果辅助生成解释的思路可迁移到其他需要可解释性的检测任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 提出VLM语义合理性偏差的核心insight非常有价值,解耦设计反直觉但有效
- 实验充分度: ⭐⭐⭐⭐⭐ 9个数据集、检测+定位+可解释性三维度、用户研究+GPT评估+CSS+传统NLG指标
- 写作质量: ⭐⭐⭐⭐⭐ 动机分析(Fig.2余弦相似度)有说服力,方法描述清晰
- 价值: ⭐⭐⭐⭐⭐ 对AIGC时代的图像真实性验证有重要实用价值