FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies¶

会议: NeurIPS 2025
arXiv: 2509.20890
代码: FerretNet
领域: image_generation
关键词: synthetic image detection, local pixel dependencies, Markov Random Fields, lightweight network, generalization

一句话总结¶

基于 Markov Random Field 理论提出局部像素依赖（LPD）特征表示，结合仅 1.1M 参数的轻量 FerretNet 网络，仅在 4 类 ProGAN 数据上训练即在 22 个生成模型上达到 97.1% 平均准确率。

研究动机¶

合成图像检测面临两大核心挑战：

泛化能力不足：许多检测方法依赖模型特定特征（如频域伪影），难以跨模型泛化
计算效率低：基于预训练大模型（如 CLIP）的方法虽有较好泛化性，但参数量大、推理慢

本文从生成过程的共性出发，识别出两类通用伪影来源： 1. 潜变量分布偏移：采样分布 \(Q(z)\) 与训练时先验 \(P(z)\) 的不匹配 2. 解码过程的平滑效应：卷积核大小、步幅、上采样方式引入的纹理异常

方法详解¶

局部像素依赖（LPD）特征提取¶

基于 Markov Random Field 假设，像素的概率分布仅依赖于局部邻域：

\[P(x_{i,j} \mid x_{k,l}, (k,l) \neq (i,j)) = P(x_{i,j} \mid x_{k,l}, (k,l) \in \mathcal{N}_{i,j})\]

其中 \(\mathcal{N}_{i,j}\) 为以 \((i,j)\) 为中心的 \(n \times n\) 邻域（不含中心）。

中值重建：引入零掩码策略，将中心像素置零后计算邻域中值：

\[y_{i,j} = \text{Median}(x_{k,l}, (k,l) \in \mathcal{N}_{i,j}')\]

其中 \(\mathcal{N}_{i,j}' = \mathcal{N}_{i,j} \cup \{x_{i,j} = 0\}\)。

LPD 特征图为原图与中值重建图的逐像素差异：

\[\text{LPD} = I - I'\]

真实图像因物理成像过程的局部一致性，LPD 差异小且均匀；合成图像在纹理连续性和边缘连贯性上存在微观破坏，LPD 差异更大且呈结构化分布。

FerretNet 架构¶

轻量卷积网络，总计仅 1.1M 参数：

输入层：2 个 3×3 卷积 + BN + ReLU
核心模块：4 个级联 Ferret Block
主路径：3×3 膨胀分组卷积（dilation=2），扩大感受野
辅路径：3×3 标准分组卷积，捕获细粒度局部模式
双路径输出通过 1×1 卷积融合，等效稀疏 5×5 感受野
残差连接保证梯度稳定
输出层：1×1 卷积 + 全局平均池化 + Dropout + 全连接分类

训练细节¶

仅在 ProGAN 4 类（car, cat, chair, horse）上训练，每类 18K 合成 + 18K 真实
Adam 优化器，lr=2×10⁻⁴，batch=32，100 epochs
训练裁剪 224×224，测试中心裁剪 256×256
BCEWithLogitsLoss 损失函数

实验结果¶

ForenSynths 测试集（8 个 GAN + Deepfake 模型）¶

方法	参数量	ProGAN	StyleGAN2	BigGAN	CycleGAN	Deepfake	均值 ACC/AP
Ojha	~300M	99.7	83.9	90.5	87.9	80.2	89.1/98.3
FatFormer	~150M	99.9	98.8	99.5	99.3	93.2	98.4/99.7
FerretNet	1.1M	99.9	98.5	92.6	98.8	89.2	95.9/99.3

Diffusion-6-cls 测试集（6 个扩散模型）¶

方法	DALL-E	Guided	LDM-200	均值 ACC/AP
FatFormer	98.8	76.1	98.6	95.0/98.8
SAFE	97.5	82.4	98.8	94.5/99.1
FerretNet	91.4	92.1	98.8	96.9/99.6

Synthetic-Pop 测试集（6 个最新高分辨率模型）¶

方法	SDXL-Turbo	RealVisXL-4.0	SD-3.5-Medium	均值 ACC/AP
FatFormer	58.7	49.0	81.9	70.5/74.8
SAFE	98.1	97.9	98.1	97.9/99.7
FerretNet	98.9	98.8	97.2	98.3/99.8

效率对比¶

方法	参数量(M)	FLOPs(G)	FPS
FatFormer	174.83	61.10	79.9
SAFE	1.85	2.58	223.1
FerretNet	1.10	0.24	4024.8

FerretNet 的 FPS 是 FatFormer 的 50 倍、SAFE 的 18 倍。

跨 22 模型平均性能¶

在全部 22 个生成模型的开放世界测试中，FerretNet 以 97.1% 的平均准确率名列前茅，同时保持极低计算开销。

评价¶

⭐⭐⭐⭐

优点： - LPD 特征基于 MRF 理论有清晰的物理直觉，抓住了生成模型的共性伪影 - 极致轻量设计：1.1M 参数、0.24G FLOPs、4000+ FPS，适合边缘部署 - 仅 4 类 ProGAN 训练即泛化到 22 个生成模型（含最新 SD 3.5），泛化能力极强 - 新提出 Synthetic-Pop 60K 基准，覆盖最新高保真生成模型

局限： - 在部分 GAN 模型（如 BigGAN）上略逊于 FatFormer 等大模型方法 - LPD 特征依赖中值滤波窗口大小 \(n\) 的选择，对不同分辨率可能需要调整 - 面对未来更先进的生成模型（如视频生成），LPD 方法的适用性需进一步验证 - 价值: 待评