FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies¶
会议: NeurIPS 2025
arXiv: 2509.20890
代码: FerretNet
领域: image_generation
关键词: synthetic image detection, local pixel dependencies, Markov Random Fields, lightweight network, generalization
一句话总结¶
基于 Markov Random Field 理论提出局部像素依赖(LPD)特征表示,结合仅 1.1M 参数的轻量 FerretNet 网络,仅在 4 类 ProGAN 数据上训练即在 22 个生成模型上达到 97.1% 平均准确率。
研究动机¶
合成图像检测面临两大核心挑战:
- 泛化能力不足:许多检测方法依赖模型特定特征(如频域伪影),难以跨模型泛化
- 计算效率低:基于预训练大模型(如 CLIP)的方法虽有较好泛化性,但参数量大、推理慢
本文从生成过程的共性出发,识别出两类通用伪影来源: 1. 潜变量分布偏移:采样分布 \(Q(z)\) 与训练时先验 \(P(z)\) 的不匹配 2. 解码过程的平滑效应:卷积核大小、步幅、上采样方式引入的纹理异常
方法详解¶
局部像素依赖(LPD)特征提取¶
基于 Markov Random Field 假设,像素的概率分布仅依赖于局部邻域:
其中 \(\mathcal{N}_{i,j}\) 为以 \((i,j)\) 为中心的 \(n \times n\) 邻域(不含中心)。
中值重建:引入零掩码策略,将中心像素置零后计算邻域中值:
其中 \(\mathcal{N}_{i,j}' = \mathcal{N}_{i,j} \cup \{x_{i,j} = 0\}\)。
LPD 特征图为原图与中值重建图的逐像素差异:
真实图像因物理成像过程的局部一致性,LPD 差异小且均匀;合成图像在纹理连续性和边缘连贯性上存在微观破坏,LPD 差异更大且呈结构化分布。
FerretNet 架构¶
轻量卷积网络,总计仅 1.1M 参数:
- 输入层:2 个 3×3 卷积 + BN + ReLU
- 核心模块:4 个级联 Ferret Block
- 主路径:3×3 膨胀分组卷积(dilation=2),扩大感受野
- 辅路径:3×3 标准分组卷积,捕获细粒度局部模式
- 双路径输出通过 1×1 卷积融合,等效稀疏 5×5 感受野
- 残差连接保证梯度稳定
- 输出层:1×1 卷积 + 全局平均池化 + Dropout + 全连接分类
训练细节¶
- 仅在 ProGAN 4 类(car, cat, chair, horse)上训练,每类 18K 合成 + 18K 真实
- Adam 优化器,lr=2×10⁻⁴,batch=32,100 epochs
- 训练裁剪 224×224,测试中心裁剪 256×256
- BCEWithLogitsLoss 损失函数
实验结果¶
ForenSynths 测试集(8 个 GAN + Deepfake 模型)¶
| 方法 | 参数量 | ProGAN | StyleGAN2 | BigGAN | CycleGAN | Deepfake | 均值 ACC/AP |
|---|---|---|---|---|---|---|---|
| Ojha | ~300M | 99.7 | 83.9 | 90.5 | 87.9 | 80.2 | 89.1/98.3 |
| FatFormer | ~150M | 99.9 | 98.8 | 99.5 | 99.3 | 93.2 | 98.4/99.7 |
| FerretNet | 1.1M | 99.9 | 98.5 | 92.6 | 98.8 | 89.2 | 95.9/99.3 |
Diffusion-6-cls 测试集(6 个扩散模型)¶
| 方法 | DALL-E | Guided | LDM-200 | 均值 ACC/AP |
|---|---|---|---|---|
| FatFormer | 98.8 | 76.1 | 98.6 | 95.0/98.8 |
| SAFE | 97.5 | 82.4 | 98.8 | 94.5/99.1 |
| FerretNet | 91.4 | 92.1 | 98.8 | 96.9/99.6 |
Synthetic-Pop 测试集(6 个最新高分辨率模型)¶
| 方法 | SDXL-Turbo | RealVisXL-4.0 | SD-3.5-Medium | 均值 ACC/AP |
|---|---|---|---|---|
| FatFormer | 58.7 | 49.0 | 81.9 | 70.5/74.8 |
| SAFE | 98.1 | 97.9 | 98.1 | 97.9/99.7 |
| FerretNet | 98.9 | 98.8 | 97.2 | 98.3/99.8 |
效率对比¶
| 方法 | 参数量(M) | FLOPs(G) | FPS |
|---|---|---|---|
| FatFormer | 174.83 | 61.10 | 79.9 |
| SAFE | 1.85 | 2.58 | 223.1 |
| FerretNet | 1.10 | 0.24 | 4024.8 |
FerretNet 的 FPS 是 FatFormer 的 50 倍、SAFE 的 18 倍。
跨 22 模型平均性能¶
在全部 22 个生成模型的开放世界测试中,FerretNet 以 97.1% 的平均准确率名列前茅,同时保持极低计算开销。
评价¶
⭐⭐⭐⭐
优点: - LPD 特征基于 MRF 理论有清晰的物理直觉,抓住了生成模型的共性伪影 - 极致轻量设计:1.1M 参数、0.24G FLOPs、4000+ FPS,适合边缘部署 - 仅 4 类 ProGAN 训练即泛化到 22 个生成模型(含最新 SD 3.5),泛化能力极强 - 新提出 Synthetic-Pop 60K 基准,覆盖最新高保真生成模型
局限: - 在部分 GAN 模型(如 BigGAN)上略逊于 FatFormer 等大模型方法 - LPD 特征依赖中值滤波窗口大小 \(n\) 的选择,对不同分辨率可能需要调整 - 面对未来更先进的生成模型(如视频生成),LPD 方法的适用性需进一步验证 - 价值: 待评