Epistemic Uncertainty for Generated Image Detection¶

会议: NeurIPS 2025
arXiv: 2412.05897
代码: tmlr-group/WePe
领域: 图像生成
关键词: AI生成图像检测, 认识不确定性, 权重扰动, DINOv2, 分布外检测

一句话总结¶

提出 WePe（Weight Perturbation），通过对预训练视觉大模型（DINOv2）施加权重扰动来估计认识不确定性（epistemic uncertainty），利用自然图像与 AI 生成图像在不确定性空间的差异实现检测，无需训练即可使用。

研究背景与动机¶

随着 Stable Diffusion、DALL-E、Midjourney 等生成模型的发展，高度逼真的 AI 生成图像带来了 deepfake 等安全威胁。现有检测方法面临几个核心挑战：

泛化性差：基于二分类训练的方法（CNNspot 等）对未见过的生成器泛化不足
数据依赖：需要持续收集最新生成器的图像来更新训练集
不可获取性：当最新生成模型未开源时，难以获取大量生成图像用于训练

关键观察：即使在 Inception v3 这样的简单网络上，先进的生成模型如 ADM 的 FID 仍达到 11.84（远非 0），说明自然图像与生成图像在特征空间中存在显著的分布差异。在更强大的 DINOv2 上，这种差异更加明显。

本文的核心 insight：预训练视觉模型在自然图像上训练，其认识不确定性对自然图像低、对生成图像高——这种不确定性差异可以直接用于检测，无需见过任何生成图像。

方法详解¶

整体框架¶

WePe 将 AI 生成图像检测问题转化为不确定性估计问题。框架分三步：

使用预训练 DINOv2 模型提取图像特征
对模型权重施加随机扰动，获取多次特征预测
通过特征相似度的方差估计认识不确定性，高不确定性即判为 AI 生成

整个流程不需要任何生成图像作为训练数据。

关键设计¶

贝叶斯框架下的不确定性分析：认识不确定性反映模型对数据分布的"知识缺失"，可通过参数后验分布来量化。根据 Bernstein-von Mises 定理，样本量 N 趋于无穷时，后验近似为以 MLE 为均值、Fisher 信息矩阵逆为协方差的高斯分布。对于分布内（自然图像）数据，后验方差随训练数据增多而降低。对于分布外（生成图像），Fisher 信息矩阵与测试分布不匹配，导致认识不确定性持续偏高。

通过权重扰动估计不确定性：传统方法如 MC Dropout、Deep Ensemble 在大模型上不适用（DINOv2 训练时不使用 dropout；多模型集成计算不可行）。WePe 提出用权重扰动替代：

对 DINOv2 的学生模型参数 theta 施加 n 次扰动得到多组扰动参数，利用学生-教师特征相似度的方差作为不确定性。但教师模型不一定可获取，因此推导出不确定性的上界：u(x) <= 2 - (2/n) * sum_k cos_sim(f(x; theta_k), f(x; theta))。

此上界仅需原始模型参数和扰动后参数，无需教师模型。核心直觉：如果扰动前后特征相似度高（cosine similarity 接近 1），则不确定性低，图像更可能是自然图像。

扰动敏感性的理论保证（Theorem 3.2）：定义扰动敏感度为特征映射对参数的 Jacobian 的 Frobenius 范数平方，证明了自然图像的期望敏感度低于生成图像。即自然图像的特征表示对参数扰动更鲁棒，生成图像更敏感。

扰动策略：使用 DINOv2 ViT-L/14（24 个 transformer block），仅扰动前 19 个 block（高层扰动会过度破坏自然图像特征）。高斯扰动的方差与每个 block 参数均值成正比，比例为 0.1。

WePe*（训练增强版）：当有训练数据时，通过微调放大不确定性差距。损失函数鼓励自然图像的扰动前后特征相似度高、生成图像的相似度低。

损失函数 / 训练策略¶

无训练版 WePe：直接使用预训练 DINOv2，不需要任何额外训练
训练版 WePe*：使用对比损失微调 DINOv2 学生模型，放大自然 vs 生成图像的不确定性差距

实验关键数据¶

主实验¶

ImageNet 数据集上的检测性能（9 种生成器，AUROC/AP 百分比）：

方法	类型	ADM	BigGAN	GigaGAN	StyleGAN-XL	平均AUROC	平均AP
CNNspot	训练	62.25	85.71	74.85	68.41	67.04	66.78
FatFormer	训练	91.77	98.76	97.65	97.64	93.68	93.11
DRCT	训练	90.26	95.87	86.89	89.11	90.36	89.92
WePe*	训练	93.89	99.85	99.03	99.52	95.57	94.33
RIGID	无训练	87.16	90.08	86.39	86.32	83.58	81.58
WePe	无训练	89.79	94.24	92.15	93.86	87.99	85.04

不同模型的检测效果：

模型	AUROC	AP
DINOv2: ViT-S/14	72.83	71.63
DINOv2: ViT-B/14	81.82	80.64
DINOv2: ViT-L/14	87.99	85.04
DINOv2: ViT-g/14	84.92	81.83
CLIP: ViT-L/14	84.82	84.20

消融实验¶

扰动类型对比：

扰动类型	AUROC	AP
Gaussian noise	87.99	85.04
Uniform noise	89.06	86.32
Laplace noise	87.13	84.22
MC Dropout	81.63	79.71

三种权重扰动方法均优于 MC Dropout
Uniform noise 略优于 Gaussian noise

扰动层数：前 9~20 个 block 均能获得良好性能，方法对层数选择鲁棒

扰动强度：方法对扰动噪声水平相当鲁棒，仅在噪声极大或极小时性能下降

关键发现¶

无训练版 WePe 平均 AUROC 87.99%，超越所有无训练方法（RIGID 83.58%）
训练版 WePe* 在 9 种生成器上平均 AUROC 95.57%，全面超越 SOTA
DINOv2 优于 CLIP，因为 DINOv2 纯图像自监督训练更聚焦视觉细节
WePe 对图像扰动攻击（JPEG 压缩、高斯噪声、高斯模糊）鲁棒，噪声反而增大分布差距
ViT-g/14 反而不如 ViT-L/14，可能因过大模型的特征空间过于冗余

亮点与洞察¶

范式转换：将检测问题转化为不确定性估计问题，从"学习区分"变为"感知未知"
理论扎实：从贝叶斯视角出发，给出了扰动敏感性的理论证明（Theorem 3.2）
FID 关联：WePe 的检测性能与生成器的 FID 分数强相关，验证了分布差异假设
无训练即可用：利用预训练模型的固有属性检测，无需收集生成图像
实用性强：代码已开源，方法简单高效

局限性 / 可改进方向¶

对扩散模型生成图像（LDM、DiT）的无训练检测性能相对较弱（78.47、77.13 AUROC）
依赖特定预训练模型（DINOv2），当生成器学会"模仿"DINOv2 特征空间时可能失效
ViT-g/14 性能反而下降的原因未深入分析
仅使用 cosine similarity 作为特征距离度量，可能遗漏更细粒度的分布差异信息
未讨论计算效率：多次权重扰动推理的时间开销

评分¶

创新性：4/5 - 不确定性视角新颖，但基本思想与 OOD 检测相似
实用性：5/5 - 无训练方法，代码开源，即插即用
实验充分度：5/5 - 4 个 benchmark、9 种生成器、多种消融和攻击测试
写作质量：4/5 - 动机和理论推导清晰，实验详尽