Semantic Discrepancy-aware Detector for Image Forgery Identification¶
会议: ICCV 2025
arXiv: 2508.12341
代码: GitHub
领域: 目标检测
关键词: 图像伪造检测, 语义概念空间, 重建学习, CLIP, 视觉-语言模型
一句话总结¶
提出语义差异感知检测器(SDD),通过语义 token 采样、概念级伪造差异学习和低层伪造特征增强三个模块,利用重建学习将 CLIP 的视觉语义概念空间与伪造空间进行细粒度对齐,在 UnivFD 和 SynRIS 基准上取得 SOTA 性能(\(ap_m\) 98.51%,AUROC 95.1%)。
研究背景与动机¶
随着 GAN 和扩散模型的快速发展,生成的图像越来越逼真,检测伪造图像变得至关重要。现有方法存在以下问题:
单一伪造特征方法泛化差:早期方法(如 CNNSpot)挖掘噪声模式、纹理统计或频率信号等单一特征,但这些特征对特定生成模型过拟合,在未见模型上性能急剧下降。
语义概念空间与伪造空间的错位: - 冻结预训练模型的局限(如 UnivFD):直接使用 CLIP 冻结特征配合线性探测,保留了语义先验但忽略了细粒度伪造细节。由于语义概念空间被冻结,共享相似语义的真假样本容易被误分类。 - Prompt 调优的局限(如 FatFormer):虽然通过伪造感知适配器构建伪造自适应空间效果好,但基于简单 [CLASS] 嵌入的 soft prompt 在语义描述粒度上有内在限制——概念覆盖面窄可能导致检测偏向错误的语义维度。
关键洞察:作者通过统计分析发现,不同语义概念可能引导模型发现不同的伪造痕迹。即语义概念和伪造特征之间存在细腻的关联关系——纯粹冻结或纯粹微调语义空间都不是最优解。
方法详解¶
整体框架¶
SDD 包含三个关键模块,构成一个基于重建学习的伪造检测框架:
- 语义 Token 采样(STS):从真实图像中采样代表性的语义 patch token
- 概念级伪造差异学习(CFDL):利用这些 token 通过重建学习捕捉伪造差异
- 低层伪造特征增强器(Feature Enhancer):将重建差异图融入低层特征,提取高泛化伪造特征
最终将 LoRA-CLIP 的 CLS token 与增强后的低层特征拼接,送入线性分类器进行真/假二分类。
关键设计¶
-
Semantic Tokens Sampling(STS):
- 功能:从真实图像中均匀采样一组代表性 patch token \(f_s \in \mathbb{R}^{M \times D}\),作为视觉线索平滑连接语义概念空间和伪造空间
- 核心思路:使用 Jensen-Shannon(JS)散度衡量 token 间的分布差异。给定初始 token \(\tilde{r}\),将 JS 散度范围 \([0,1]\) 等分为 \(M\) 段,从每段内选一个 token:\(f_s = \mathcal{S}(\mathbb{R}^{N \times D}, \delta)\),其中 \(\delta\) 是采样率,\(M = 1/\delta\)
- 设计动机:直接将所有真实 patch token 融入重建模块计算量过大且包含冗余;基于 JS 散度的均匀采样确保 token 在统一 CLIP 空间中均匀分布,代表真实图像的语义分布,同时避免偏向任何特定的非伪造相关分布。关键优势是绕过了文本 prompt 引入的语义偏差
-
Concept-level Forgery Discrepancy Learning(CFDL):
- 功能:通过 Transformer 编码器-解码器进行重建学习,捕获伪造图像在语义概念层面的差异
- 核心思路:
- 使用 LoRA 微调 CLIP-ViT 获取高层视觉特征 \(V_H = \mathcal{F}_{LoRA}(\mathcal{I})\)
- 编码器:采样的语义 token \(f_s\) 作为 query,\(V_H\) 作为 key/value:\(R_1 = \text{LN}(\text{MHA}(f_s, V_H, V_H))\),\(R_2 = \text{LN}(\text{MHA}(R_1, V_H, V_H))\)
- 解码器:\(R_3 = \text{LN}(\text{MHA}(R_2, R_2, R_2))\),\(R_e = \text{LN}(\text{MHA}(R_1, R_3, R_3))\)
- 重建损失仅对真实样本计算:\(\mathcal{L}_r = \frac{1}{B}\sum_{i=0}^B \text{MSE}(R_e, V_H)\)
- 重建差异图:\(\mathcal{D}_s = |R_f - f_r|\)
- 设计动机:仅缩小真实样本的重建差距,使伪造样本的重建差异被自然放大。与 FatFormer 使用文本 prompt 不同,CFDL 纯粹基于视觉信息——采样的语义 token 提供比粗粒度文本 prompt 更丰富的细节,能揭示更多隐藏在图像中的伪造痕迹
-
Low-level Forgery Feature Enhancer(低层伪造特征增强器):
- 功能:利用重建差异图引导提取多尺度低层伪造特征,弥补高层语义特征对弱语义关联伪造线索的忽视
- 核心思路:
- 使用多阶段卷积网络提取 \(F(n)\)(\(n=1,2,3\))
- 将差异图 \(\mathcal{D}_s\) 反卷积后与 \(F(n)\) 逐像素相乘:\(F'(n) = F(n) \otimes \text{deconv}(\mathcal{D}_s)\)
- 自适应权重系数:\(\frac{1}{e_n} = \frac{1}{e^{|F'(n) - F(n)|}}\),当差异大时权重小(快速区间:关注语义强相关特征),差异小时权重趋近 1(慢速区间:保留与语义弱相关但与伪造强相关的特征)
- 最终:\(F_{low}(n) = F(n) + \frac{F(n)}{e_n}\)
- 设计动机:单纯依赖高层语义概念会遗漏像素级的伪造痕迹。自适应权重的指数逆函数设计巧妙地平衡了两类特征:语义概念强相关的伪造特征(差异大时低权重避免过度依赖语义)和语义弱相关但伪造高相关的特征(差异小时高权重保留)
损失函数 / 训练策略¶
总损失:\(\mathcal{L} = \mathcal{L}_{bce} + \lambda_1 \mathcal{L}_{tri} + \lambda_2 \mathcal{L}_r\)
- \(\mathcal{L}_{bce}\):二元交叉熵,用于真/假分类
- \(\mathcal{L}_{tri}\):三元组损失,拉近同类特征、推远异类特征:\(\mathcal{L}_{tri} = \max(0, d(f_p, f_a) - d(f_n, f_a) + \alpha)\)
- \(\mathcal{L}_r\):重建损失(MSE),仅在真实样本上计算
训练设置:学习率 \(1 \times 10^{-5}\),batch size 32,LoRA 参数 \(r=6, \alpha=6\),dropout=0.8。使用 ProGAN 图像作为训练数据。
实验关键数据¶
主实验¶
| 数据集 | 指标 | SDD (本文) | FatFormer | UnivFD | NPR | 提升 |
|---|---|---|---|---|---|---|
| UnivFD | \(ap_m\) | 98.51 | 98.18 | 93.38 | 92.19 | +0.33 vs FatFormer |
| UnivFD | \(acc_m\) | 93.61 | 90.86 | 81.38 | 86.20 | +2.75 vs FatFormer |
| SynRIS | AUROC 平均 | 95.1 | 78.0 | 62.3 | 90.3 | +4.8 vs NPR |
SynRIS 上的显著优势:在高保真文本到图像模型生成的图像上,SDD (95.1%) 远超 FatFormer (78.0%) 和 UnivFD (62.3%)。
消融实验¶
| # | STS | CFDL | 增强器 | \(ap_m\) | \(acc_m\) | 说明 |
|---|---|---|---|---|---|---|
| 1 | - | ✓ | - | 97.37 | 81.64 | 仅 CFDL |
| 2 | - | ✓ | ✓ | 97.41 | 90.17 | 增强器贡献显著 (+8.53 acc) |
| 3 | ✓ | ✓ | - | 97.39 | 89.98 | STS 有帮助 |
| 4 | ✓ | ✓ | ✓ | 98.52 | 93.61 | 全组件最优 |
自适应权重函数对比:
| 函数 | \(ap_m\) | \(acc_m\) | 说明 |
|---|---|---|---|
| $f(x) = | x | $ | 97.77 |
| \(f(x) = x^2\) | 97.93 | 92.34 | 二次权重 |
| \(1/e^x\)(本文) | 98.52 | 93.61 | 指数逆最优 |
关键发现¶
- 视觉信息优于文本 prompt:SDD 完全不使用文本 prompt,仅依靠视觉语义 token 和重建学习,在 UnivFD 上超越使用 prompt 的 FatFormer,证明细粒度视觉信息比粗粒度文本描述更适合捕捉伪造痕迹
- SynRIS 数据集上的优势最大(AUROC 95.1% vs NPR 90.3%),因为高保真生成模型能把握全局语义但无法精细化局部像素,SDD 同时捕获语义概念和低层伪造特征
- 注意力图可视化显示 SDD 能对不同伪造图像关注不同区域(背景、局部目标、边缘细节),而真实图像几乎不显示伪造差异区域——验证了重建损失的有效性
- t-SNE 可视化中 ProGAN 的真假分界比其他模型更模糊——因为在语义概念监督下,决策边界更复杂和细腻
亮点与洞察¶
- 首个完全基于视觉信息的预训练 VLM 伪造检测范式:不使用任何文本 prompt,绕过了文本描述粗粒度导致的语义偏差问题
- JS 散度均匀采样是简洁但有效的 token 选择策略,确保采样 token 在语义空间中均匀分布
- 重建学习的巧妙应用:仅对真实样本计算重建损失,伪造样本的重建差异自然放大——这比显式构造对比样本更优雅
- 指数逆自适应权重 \(1/e^x\) 的双区间特性:快速区间捕获语义强相关特征,慢速区间保留伪造强相关但语义弱相关的特征,实现两类特征的自动平衡
局限与展望¶
- 训练数据仅使用 ProGAN(或 Stable Diffusion v1),对新兴生成模型的泛化依赖于方法本身的鲁棒性而非数据覆盖
- STS 模块的采样率 \(\delta\) 是用户定义的超参数,最优值可能随数据集变化
- 重建模块增加了推理延迟,实际部署需考虑效率
- 在 DALL-E 3 上的表现相对较弱(AUROC 85.9%),说明对部分高端商业模型的泛化仍有提升空间
- LoRA 参数设置(\(r=6, \alpha=6\))的敏感性未充分讨论
相关工作与启发¶
- UnivFD(CVPR 2023)证明了 VLM 特征空间对伪造检测的价值,本文在此基础上解决了冻结特征的局限
- FatFormer(CVPR 2024)通过 prompt 调优构建伪造自适应空间,但本文指出 prompt 的语义粒度不足
- 重建学习在无监督表示学习中广泛应用(如 MAE),本文将其创新性地引入伪造检测,利用真实图像的可重建性与伪造图像的不可重建性之间的差异
- NPR 关注像素级邻居关系,与 SDD 的语义概念+低层特征的组合是互补的
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 纯视觉范式、语义概念空间与伪造空间对齐的思路、指数逆自适应权重都有显著创新
- 实验充分度: ⭐⭐⭐⭐ 两个主要基准全面评估,消融深入,但缺少视频伪造检测等扩展评估
- 写作质量: ⭐⭐⭐⭐ 动机论证有力,方法描述清晰,但部分符号略不一致
- 价值: ⭐⭐⭐⭐⭐ 随着 AI 生成图像的泛滥,通用伪造检测方法具有重大实际价值
相关论文¶
- [ICCV 2025] ForgeLens: Data-Efficient Forgery Focus for Generalizable Forgery Image Detection
- [ICCV 2025] FakeRadar: Probing Forgery Outliers to Detect Unknown Deepfake Videos
- [CVPR 2025] Image Reconstruction from Readout-Multiplexed Single-Photon Detector Arrays
- [ICCV 2025] Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation
- [ICCV 2025] Uncertainty-Aware Gradient Stabilization for Small Object Detection