Is Artificial Intelligence Generated Image Detection a Solved Problem?¶

会议: NeurIPS 2025
arXiv: 2505.12335
代码: HorizonTEL/AIGIBench
领域: image_generation
关键词: AI生成图像检测, benchmark, 鲁棒性评估, 数据增强, 泛化性

一句话总结¶

提出 AIGIBench 综合基准，通过四大任务（多源泛化、多退化鲁棒性、数据增强敏感性、测试预处理影响）系统评估 11 个 SOTA 检测器，揭示现有 AIGI 检测方法在真实场景下性能严重下降，表明该问题远未解决。

背景与动机¶

随着 GAN 和扩散模型的快速发展，生成的合成图像越来越逼真，引发了虚假信息传播、Deepfake 和版权侵权等严重问题。尽管已有大量 AIGI 检测器报告了超过 95% 的检测准确率，但这些高性能多在理想化实验环境下取得。现有基准存在以下不足：

生成方法覆盖不全：多数基准仅覆盖 2022 年前的生成方法，缺少最新的扩散模型（如 FLUX、Imagen-3、SD-3 等）
评估维度单一：仅测试泛化性，忽略鲁棒性、数据增强效果、测试预处理等关键环节
缺少真实世界数据：未纳入社交媒体和 AI 绘画社区的真实传播样本
检测方法过时：多数基准评估的检测方法集中在 2022 年前

因此，论文提出一个核心问题：AI 生成图像检测是否已是一个已解决的问题？

核心问题¶

论文通过构建 AIGIBench 基准来系统回答上述问题。该基准模拟真实世界的端到端 AIGI 检测流水线，覆盖从训练、增强到推理预处理的完整流程，定义了四个核心评估任务：

Task 1 — 多源泛化评估：检测器对来自未知生成模型的图像的泛化能力
Task 2 — 多退化鲁棒性评估：在 JPEG 压缩、高斯噪声、上下采样等退化条件下的稳定性
Task 3 — 数据增强变化评估：不同增强策略（旋转、颜色抖动、随机遮挡）对检测性能的影响
Task 4 — 测试预处理评估：Resize vs. Crop 两种预处理策略对检测结果的影响

方法详解¶

数据集构建¶

训练设置：

Setting-I：72K 张 ProGAN 生成图像（car、cat、chair、horse 四类）
Setting-II：144K 张图像（ProGAN + SD-v1.4），同样四类

测试集（23 个子集 + 2 个真实世界子集）：

类别	生成方法
GAN 噪声到图像	ProGAN, StyleGAN3, StyleGAN-XL, StyleSwim, R3GAN, WFIR
扩散文生图	SD-XL, SD-3, DALLE-3, Midjourney-v6, FLUX.1-dev, Imagen-3, GLIDE
GAN Deepfake	BlendFace, E4S, FaceSwap, InSwap, SimSwap
扩散个性化生成	InstantID, Infinite-ID, PhotoMaker, BLIP-Diffusion, IP-Adapter
开源平台	SocialRF（社交媒体）、CommunityAI（AI 绘画社区）

数据质量控制：

使用 CLIP 嵌入（余弦相似度阈值 0.98）去除近重复图像
CLIP 美学评分筛选低质量图像
人工审核移除明显伪造图像

真实图像来源：FFHQ、CelebA-HQ、Open Images V7，与假图一一对应保证平衡。

评估指标¶

Acc.：总体准确率
A.P.：平均精度
R.Acc.：真实图像检测准确率（判断为"真"的正确率）
F.Acc.：伪造图像检测准确率（判断为"假"的正确率）

将准确率分解为 R.Acc. 和 F.Acc. 是本文的重要设计，能更细致地揭示检测器的偏置问题。

评估的 11 个检测器¶

覆盖 2016-2025 年的代表性方法：ResNet-50、CNNDetection、Gram-Net、LGrad、CLIPDetection、FreqNet、NPR、LaDeDa、DFFreq、AIDE、SAFE。超过一半发表于 2024 年之后。

训练与推理¶

训练设置¶

Setting-I：72K 张 ProGAN 生成图像（car/cat/chair/horse 四类），仅覆盖单一 GAN 来源
Setting-II：144K 张图像（ProGAN + SD-v1.4），引入扩散模型以扩展训练分布
所有 11 个检测器均采用原始超参数重新训练，确保公平对比
从 Setting-I 到 Setting-II，加入 SD-v1.4 显著提升 R.Acc.，但常以 F.Acc. 下降为代价，表明灵敏度与精确度之间存在 trade-off

推理流程¶

测试图像来自未知生成模型且可能经历未知退化
推理前需进行预处理（Resize 或 Crop）以适配训练分辨率
Resize 会无意中平滑合成图像的局部相关性，削弱低层特征空间中的细微判别性伪影
Crop 更好地保留细粒度纹理和局部结构，但可能移除边界伪影等判别线索
检测器输出二分类结果（real/fake），评估时分解为 R.Acc.（真图正确率）和 F.Acc.（假图正确率），避免总体准确率掩盖偏置问题

实验关键数据¶

Task 1：泛化评估（Setting-II）¶

检测器	平均 R.Acc.	平均 F.Acc.	Acc.	A.P.
SAFE	96.8%	63.0%	79.9%	82.6%
AIDE	88.1%	67.0%	77.6%	82.7%
LaDeDa	91.7%	54.9%	73.4%	79.3%
CLIPDetection	73.3%	71.5%	72.5%	75.6%
DFFreq	89.6%	51.9%	71.1%	75.7%
CNNDetection	98.2%	11.6%	54.9%	67.0%

关键发现：即使是表现最好的 SAFE，在 Deepfake 数据集（FaceSwap、SimSwap）和 DALLE-3、SocialRF、CommunityAI 上 F.Acc. 极低甚至接近 0%，说明检测器在真实世界分布偏移下严重失效。

Task 2：鲁棒性评估¶

退化类型	典型后果
JPEG 压缩	几乎所有检测器 F.Acc. 降到 ~0%，R.Acc. 保持 ~100%（严重偏向判"真"）
高斯噪声	F.Acc. 普遍降至 < 35%
上下采样	影响相对较小，部分方法仍可维持合理性能

最抗扰动的方法是 CLIPDetection 和 FreqNet，其机理各异：

CLIPDetection：在大规模预训练 CLIP-ViT 的特征空间中做二分类，采用 nearest-neighbor + linear probing 策略，无需显式训练伪造检测特征，因此对退化类型解耦性强
FreqNet：在频域操作，捕获的伪造模式对空间域扰动（压缩、噪声）不敏感，天然具备更好的鲁棒性
整体趋势：Mean 行显示所有检测器在扰动下 R.Acc. ≥ 90% 但 F.Acc. < 35%，表明检测器在扰动下严重偏向判真，实际检测可靠性堪忧

Task 3：数据增强评估¶

评估三种增强策略：RandomRotation、Color-Jitter、RandomMask，在五个先进检测器上的影响：

常见增强策略对 AIGI 检测收益有限，甚至可能引入性能权衡
增强通常提升 R.Acc.，但可能降低 F.Acc.——例如 CLIPDetection 加 Rotation 后 R.Acc. 从 73.3% → 86.1%，但 F.Acc. 从 71.5% → 54.9%
三种增强组合使用并无明显优势：FreqNet 三合一后 F.Acc. 降至 62.5%（原 66.4%），NPR 降至 32.5%（原 41.9%）
增强效果高度依赖具体检测器：SAFE 对增强策略最不敏感，Acc. 在各组合间波动仅 ~2%；而 FreqNet/DFFreq 等频域模型对语义或频率扰动更脆弱
核心结论：数据增强不是 AIGI 检测的银弹，需要为特定检测器设计增强感知的训练流水线

Task 4：预处理评估¶

Crop vs. Resize	结论
R.Acc.	Crop 显著提升（如 SAFE 从 63.3% → 96.8%）
F.Acc.	Crop 基本不变甚至略降
总体 Acc.	Crop 通常更优

核心解释：真实图像的模态分布集中且一致，Crop 能保留高频局部特征和纹理细节，有利于识别真实内容。而假图来自多样化生成模型，模态方差大，Crop 可能移除边界伪影等判别性线索，导致对假图检测的改进不稳定。这种模态不对称性解释了 Crop 一致提升 R.Acc. 但对 F.Acc. 帮助有限的现象。

亮点¶

首个全流水线评估框架：覆盖泛化、鲁棒性、数据增强、预处理四个维度，系统性远超现有基准
R.Acc./F.Acc. 分解：揭示了被总体准确率掩盖的严重偏置问题——多数检测器 R.Acc. 高但 F.Acc. 极低
最新生成方法覆盖：25 个子集中 11 个来自 2024 年及之后的方法（FLUX、Imagen-3、SD-3 等）
真实世界数据引入：SocialRF 和 CommunityAI 填补了社交传播场景的评估空白
预处理的模态不对称性分析：对 Crop/Resize 的深层机理给出了清晰解释

局限与展望¶

训练设置有限：仅使用 ProGAN 和 SD-v1.4 训练，未探索多源联合训练或大规模数据集训练
检测方法可扩展：11 个检测器虽已覆盖代表性方法，但可进一步纳入最新的多模态和基础模型方法
视频和多模态扩展：当前仅关注静态图像，视频 Deepfake 和多模态伪造检测未涉及
攻防对抗评估缺失：未评估对抗攻击（如对抗扰动、隐写术）下的检测器表现
文本引导的生成 prompt 多样性：虽用 Gemini 生成多样化描述，但 prompt 分布是否真正反映真实世界仍需验证

与相关工作的对比¶

基准	生成方法数	2024+	检测方法数	任务维度	真实世界数据
GenImage (NeurIPS'23)	8	0	7	1	✗
DeepfakeBench (NeurIPS'23)	9	0	34	1	✗
WildFake (AAAI'25)	22	0	6	2	✗
Chameleon (ICLR'25)	-	-	10	2	AI 社区
DF40 (NeurIPS'24)	40	3	7	1	✗
AIGIBench (本文)	25	11	11	4	社交+AI 社区

AIGIBench 在最新生成方法覆盖、评估任务维度全面性、真实世界数据源多样性三方面显著领先。

My Notes¶

频域特征值得深挖：FreqNet 和 DFFreq 在频域特征上展现了更好的泛化和鲁棒性，暗示频域分析是提升检测器稳定性的重要方向。特别是 FreqNet 在 JPEG 压缩下仍保持相对较高的 F.Acc.，说明频域伪影比空域伪影更持久
大规模预训练是关键：CLIPDetection 和 AIDE 利用 CLIP-ViT 等大模型的特征空间实现了跨分布泛化，未来可探索更大规模视觉基础模型。AIDE 在 Setting-II 取得最高 A.P.（82.7%），表明 self-supervised 特征空间对 AIGI 检测有天然优势
检测器需要"反偏置"训练：R.Acc./F.Acc. 的严重不平衡说明现有方法过度偏向"判真"，需要专门的偏置缓解策略。CNNDetection 是极端案例——R.Acc. 98.2% 但 F.Acc. 仅 11.6%，几乎失去检测功能
真实世界部署需端到端考量：从数据增强到推理预处理都会影响最终性能，实际部署时需要针对性地设计检测流水线。论文揭示的模态不对称性（真图分布集中、假图分布分散）是理解各环节影响的关键框架
与 AI 安全的关联：该工作为 AI 生成内容治理提供了关键技术评估基础，可与水印、溯源等安全技术结合
Benchmark 设计的启示：R.Acc./F.Acc. 分解 + 四维度评估的方法论值得其他检测领域借鉴（如 deepfake video、AI 生成文本检测），单一 Acc. 指标在不平衡场景下极具误导性
SocialRF/CommunityAI 是最难子集：几乎所有检测器在这两个真实世界子集上 F.Acc. < 20%，暗示当前检测技术距离实际部署还有很大差距，需要 domain adaptation 或 test-time adaptation 策略

评分¶

新颖性: ⭐⭐⭐ — 核心贡献在于评估框架设计而非新算法，但四维度评估和 R.Acc./F.Acc. 分解有价值
实验充分度: ⭐⭐⭐⭐⭐ — 11 个检测器 × 25 个测试集 × 4 个任务维度，实验量极大且分析深入
写作质量: ⭐⭐⭐⭐ — 结构清晰，表格信息丰富，分析有洞察力
价值: ⭐⭐⭐⭐ — 对该领域的实际现状给出了清醒评估，对未来研究方向有指导意义