Semantic Discrepancy-aware Detector for Image Forgery Identification¶

会议: ICCV 2025
arXiv: 2508.12341
代码: GitHub
领域: 目标检测
关键词: 图像伪造检测, 语义概念空间, 重建学习, CLIP, 视觉-语言模型

一句话总结¶

提出语义差异感知检测器（SDD），通过语义 token 采样、概念级伪造差异学习和低层伪造特征增强三个模块，利用重建学习将 CLIP 的视觉语义概念空间与伪造空间进行细粒度对齐，在 UnivFD 和 SynRIS 基准上取得 SOTA 性能（$ap_m$ 98.51%，AUROC 95.1%）。

研究背景与动机¶

随着 GAN 和扩散模型的快速发展，生成的图像越来越逼真，检测伪造图像变得至关重要。现有方法存在以下问题：

单一伪造特征方法泛化差：早期方法（如 CNNSpot）挖掘噪声模式、纹理统计或频率信号等单一特征，但这些特征对特定生成模型过拟合，在未见模型上性能急剧下降。

语义概念空间与伪造空间的错位： - 冻结预训练模型的局限（如 UnivFD）：直接使用 CLIP 冻结特征配合线性探测，保留了语义先验但忽略了细粒度伪造细节。由于语义概念空间被冻结，共享相似语义的真假样本容易被误分类。 - Prompt 调优的局限（如 FatFormer）：虽然通过伪造感知适配器构建伪造自适应空间效果好，但基于简单 [CLASS] 嵌入的 soft prompt 在语义描述粒度上有内在限制——概念覆盖面窄可能导致检测偏向错误的语义维度。

关键洞察：作者通过统计分析发现，不同语义概念可能引导模型发现不同的伪造痕迹。即语义概念和伪造特征之间存在细腻的关联关系——纯粹冻结或纯粹微调语义空间都不是最优解。

方法详解¶

整体框架¶

SDD 包含三个关键模块，构成一个基于重建学习的伪造检测框架：

语义 Token 采样（STS）：从真实图像中采样代表性的语义 patch token
概念级伪造差异学习（CFDL）：利用这些 token 通过重建学习捕捉伪造差异
低层伪造特征增强器（Feature Enhancer）：将重建差异图融入低层特征，提取高泛化伪造特征

最终将 LoRA-CLIP 的 CLS token 与增强后的低层特征拼接，送入线性分类器进行真/假二分类。

关键设计¶

Semantic Tokens Sampling（STS）:
- 功能：从真实图像中均匀采样一组代表性 patch token $f_s \in \mathbb{R}^{M \times D}$，作为视觉线索平滑连接语义概念空间和伪造空间
- 核心思路：使用 Jensen-Shannon（JS）散度衡量 token 间的分布差异。给定初始 token $\tilde{r}$，将 JS 散度范围 $[0,1]$ 等分为 $M$ 段，从每段内选一个 token：$f_s = \mathcal{S}(\mathbb{R}^{N \times D}, \delta)$，其中 $\delta$ 是采样率，$M = 1/\delta$
- 设计动机：直接将所有真实 patch token 融入重建模块计算量过大且包含冗余；基于 JS 散度的均匀采样确保 token 在统一 CLIP 空间中均匀分布，代表真实图像的语义分布，同时避免偏向任何特定的非伪造相关分布。关键优势是绕过了文本 prompt 引入的语义偏差
Concept-level Forgery Discrepancy Learning（CFDL）:
- 功能：通过 Transformer 编码器-解码器进行重建学习，捕获伪造图像在语义概念层面的差异
- 核心思路：
  - 使用 LoRA 微调 CLIP-ViT 获取高层视觉特征 $V_H = \mathcal{F}_{LoRA}(\mathcal{I})$
  - 编码器：采样的语义 token $f_s$ 作为 query，$V_H$ 作为 key/value：$R_1 = \text{LN}(\text{MHA}(f_s, V_H, V_H))$，$R_2 = \text{LN}(\text{MHA}(R_1, V_H, V_H))$
  - 解码器：$R_3 = \text{LN}(\text{MHA}(R_2, R_2, R_2))$，$R_e = \text{LN}(\text{MHA}(R_1, R_3, R_3))$
  - 重建损失仅对真实样本计算：$\mathcal{L}_r = \frac{1}{B}\sum_{i=0}^B \text{MSE}(R_e, V_H)$
  - 重建差异图：$\mathcal{D}_s = |R_f - f_r|$
- 设计动机：仅缩小真实样本的重建差距，使伪造样本的重建差异被自然放大。与 FatFormer 使用文本 prompt 不同，CFDL 纯粹基于视觉信息——采样的语义 token 提供比粗粒度文本 prompt 更丰富的细节，能揭示更多隐藏在图像中的伪造痕迹
Low-level Forgery Feature Enhancer（低层伪造特征增强器）:
- 功能：利用重建差异图引导提取多尺度低层伪造特征，弥补高层语义特征对弱语义关联伪造线索的忽视
- 核心思路：
  - 使用多阶段卷积网络提取 $F(n)$（$n=1,2,3$）
  - 将差异图 $\mathcal{D}_s$ 反卷积后与 $F(n)$ 逐像素相乘：$F'(n) = F(n) \otimes \text{deconv}(\mathcal{D}_s)$
  - 自适应权重系数：$\frac{1}{e_n} = \frac{1}{e^{|F'(n) - F(n)|}}$，当差异大时权重小（快速区间：关注语义强相关特征），差异小时权重趋近 1（慢速区间：保留与语义弱相关但与伪造强相关的特征）
  - 最终：$F_{low}(n) = F(n) + \frac{F(n)}{e_n}$
- 设计动机：单纯依赖高层语义概念会遗漏像素级的伪造痕迹。自适应权重的指数逆函数设计巧妙地平衡了两类特征：语义概念强相关的伪造特征（差异大时低权重避免过度依赖语义）和语义弱相关但伪造高相关的特征（差异小时高权重保留）

损失函数 / 训练策略¶

总损失：$\mathcal{L} = \mathcal{L}_{bce} + \lambda_1 \mathcal{L}_{tri} + \lambda_2 \mathcal{L}_r$

$\mathcal{L}_{bce}$：二元交叉熵，用于真/假分类
$\mathcal{L}_{tri}$：三元组损失，拉近同类特征、推远异类特征：$\mathcal{L}_{tri} = \max(0, d(f_p, f_a) - d(f_n, f_a) + \alpha)$
$\mathcal{L}_r$：重建损失（MSE），仅在真实样本上计算

训练设置：学习率 $1 \times 10^{-5}$，batch size 32，LoRA 参数 $r=6, \alpha=6$，dropout=0.8。使用 ProGAN 图像作为训练数据。

实验关键数据¶

主实验¶

数据集	指标	SDD (本文)	FatFormer	UnivFD	NPR	提升
UnivFD	$ap_m$	98.51	98.18	93.38	92.19	+0.33 vs FatFormer
UnivFD	$acc_m$	93.61	90.86	81.38	86.20	+2.75 vs FatFormer
SynRIS	AUROC 平均	95.1	78.0	62.3	90.3	+4.8 vs NPR

SynRIS 上的显著优势：在高保真文本到图像模型生成的图像上，SDD (95.1%) 远超 FatFormer (78.0%) 和 UnivFD (62.3%)。

消融实验¶

#	STS	CFDL	增强器	$ap_m$	$acc_m$	说明
1	-	✓	-	97.37	81.64	仅 CFDL
2	-	✓	✓	97.41	90.17	增强器贡献显著 (+8.53 acc)
3	✓	✓	-	97.39	89.98	STS 有帮助
4	✓	✓	✓	98.52	93.61	全组件最优

自适应权重函数对比：

函数	$ap_m$	$acc_m$	说明
$f(x) =	x	$	97.77
$f(x) = x^2$	97.93	92.34	二次权重
$1/e^x$（本文）	98.52	93.61	指数逆最优

关键发现¶

视觉信息优于文本 prompt：SDD 完全不使用文本 prompt，仅依靠视觉语义 token 和重建学习，在 UnivFD 上超越使用 prompt 的 FatFormer，证明细粒度视觉信息比粗粒度文本描述更适合捕捉伪造痕迹
SynRIS 数据集上的优势最大（AUROC 95.1% vs NPR 90.3%），因为高保真生成模型能把握全局语义但无法精细化局部像素，SDD 同时捕获语义概念和低层伪造特征
注意力图可视化显示 SDD 能对不同伪造图像关注不同区域（背景、局部目标、边缘细节），而真实图像几乎不显示伪造差异区域——验证了重建损失的有效性
t-SNE 可视化中 ProGAN 的真假分界比其他模型更模糊——因为在语义概念监督下，决策边界更复杂和细腻

亮点与洞察¶

首个完全基于视觉信息的预训练 VLM 伪造检测范式：不使用任何文本 prompt，绕过了文本描述粗粒度导致的语义偏差问题
JS 散度均匀采样是简洁但有效的 token 选择策略，确保采样 token 在语义空间中均匀分布
重建学习的巧妙应用：仅对真实样本计算重建损失，伪造样本的重建差异自然放大——这比显式构造对比样本更优雅
指数逆自适应权重 $1/e^x$ 的双区间特性：快速区间捕获语义强相关特征，慢速区间保留伪造强相关但语义弱相关的特征，实现两类特征的自动平衡

局限与展望¶

训练数据仅使用 ProGAN（或 Stable Diffusion v1），对新兴生成模型的泛化依赖于方法本身的鲁棒性而非数据覆盖
STS 模块的采样率 $\delta$ 是用户定义的超参数，最优值可能随数据集变化
重建模块增加了推理延迟，实际部署需考虑效率
在 DALL-E 3 上的表现相对较弱（AUROC 85.9%），说明对部分高端商业模型的泛化仍有提升空间
LoRA 参数设置（$r=6, \alpha=6$）的敏感性未充分讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ 纯视觉范式、语义概念空间与伪造空间对齐的思路、指数逆自适应权重都有显著创新
实验充分度: ⭐⭐⭐⭐ 两个主要基准全面评估，消融深入，但缺少视频伪造检测等扩展评估
写作质量: ⭐⭐⭐⭐ 动机论证有力，方法描述清晰，但部分符号略不一致
价值: ⭐⭐⭐⭐⭐ 随着 AI 生成图像的泛滥，通用伪造检测方法具有重大实际价值