Is Artificial Intelligence Generated Image Detection a Solved Problem?¶
会议: NeurIPS 2025
arXiv: 2505.12335
代码: HorizonTEL/AIGIBench
领域: image_generation
关键词: AI生成图像检测, benchmark, 鲁棒性评估, 数据增强, 泛化性
一句话总结¶
提出 AIGIBench 综合基准,通过四大任务(多源泛化、多退化鲁棒性、数据增强敏感性、测试预处理影响)系统评估 11 个 SOTA 检测器,揭示现有 AIGI 检测方法在真实场景下性能严重下降,表明该问题远未解决。
背景与动机¶
随着 GAN 和扩散模型的快速发展,生成的合成图像越来越逼真,引发了虚假信息传播、Deepfake 和版权侵权等严重问题。尽管已有大量 AIGI 检测器报告了超过 95% 的检测准确率,但这些高性能多在理想化实验环境下取得。现有基准存在以下不足:
- 生成方法覆盖不全:多数基准仅覆盖 2022 年前的生成方法,缺少最新的扩散模型(如 FLUX、Imagen-3、SD-3 等)
- 评估维度单一:仅测试泛化性,忽略鲁棒性、数据增强效果、测试预处理等关键环节
- 缺少真实世界数据:未纳入社交媒体和 AI 绘画社区的真实传播样本
- 检测方法过时:多数基准评估的检测方法集中在 2022 年前
因此,论文提出一个核心问题:AI 生成图像检测是否已是一个已解决的问题?
核心问题¶
论文通过构建 AIGIBench 基准来系统回答上述问题。该基准模拟真实世界的端到端 AIGI 检测流水线,覆盖从训练、增强到推理预处理的完整流程,定义了四个核心评估任务:
- Task 1 — 多源泛化评估:检测器对来自未知生成模型的图像的泛化能力
- Task 2 — 多退化鲁棒性评估:在 JPEG 压缩、高斯噪声、上下采样等退化条件下的稳定性
- Task 3 — 数据增强变化评估:不同增强策略(旋转、颜色抖动、随机遮挡)对检测性能的影响
- Task 4 — 测试预处理评估:Resize vs. Crop 两种预处理策略对检测结果的影响
方法详解¶
数据集构建¶
训练设置:
- Setting-I:72K 张 ProGAN 生成图像(car、cat、chair、horse 四类)
- Setting-II:144K 张图像(ProGAN + SD-v1.4),同样四类
测试集(23 个子集 + 2 个真实世界子集):
| 类别 | 生成方法 |
|---|---|
| GAN 噪声到图像 | ProGAN, StyleGAN3, StyleGAN-XL, StyleSwim, R3GAN, WFIR |
| 扩散文生图 | SD-XL, SD-3, DALLE-3, Midjourney-v6, FLUX.1-dev, Imagen-3, GLIDE |
| GAN Deepfake | BlendFace, E4S, FaceSwap, InSwap, SimSwap |
| 扩散个性化生成 | InstantID, Infinite-ID, PhotoMaker, BLIP-Diffusion, IP-Adapter |
| 开源平台 | SocialRF(社交媒体)、CommunityAI(AI 绘画社区) |
数据质量控制:
- 使用 CLIP 嵌入(余弦相似度阈值 0.98)去除近重复图像
- CLIP 美学评分筛选低质量图像
- 人工审核移除明显伪造图像
真实图像来源:FFHQ、CelebA-HQ、Open Images V7,与假图一一对应保证平衡。
评估指标¶
- Acc.:总体准确率
- A.P.:平均精度
- R.Acc.:真实图像检测准确率(判断为"真"的正确率)
- F.Acc.:伪造图像检测准确率(判断为"假"的正确率)
将准确率分解为 R.Acc. 和 F.Acc. 是本文的重要设计,能更细致地揭示检测器的偏置问题。
评估的 11 个检测器¶
覆盖 2016-2025 年的代表性方法:ResNet-50、CNNDetection、Gram-Net、LGrad、CLIPDetection、FreqNet、NPR、LaDeDa、DFFreq、AIDE、SAFE。超过一半发表于 2024 年之后。
训练与推理¶
训练设置¶
- Setting-I:72K 张 ProGAN 生成图像(car/cat/chair/horse 四类),仅覆盖单一 GAN 来源
- Setting-II:144K 张图像(ProGAN + SD-v1.4),引入扩散模型以扩展训练分布
- 所有 11 个检测器均采用原始超参数重新训练,确保公平对比
- 从 Setting-I 到 Setting-II,加入 SD-v1.4 显著提升 R.Acc.,但常以 F.Acc. 下降为代价,表明灵敏度与精确度之间存在 trade-off
推理流程¶
- 测试图像来自未知生成模型且可能经历未知退化
- 推理前需进行预处理(Resize 或 Crop)以适配训练分辨率
- Resize 会无意中平滑合成图像的局部相关性,削弱低层特征空间中的细微判别性伪影
- Crop 更好地保留细粒度纹理和局部结构,但可能移除边界伪影等判别线索
- 检测器输出二分类结果(real/fake),评估时分解为 R.Acc.(真图正确率)和 F.Acc.(假图正确率),避免总体准确率掩盖偏置问题
实验关键数据¶
Task 1:泛化评估(Setting-II)¶
| 检测器 | 平均 R.Acc. | 平均 F.Acc. | Acc. | A.P. |
|---|---|---|---|---|
| SAFE | 96.8% | 63.0% | 79.9% | 82.6% |
| AIDE | 88.1% | 67.0% | 77.6% | 82.7% |
| LaDeDa | 91.7% | 54.9% | 73.4% | 79.3% |
| CLIPDetection | 73.3% | 71.5% | 72.5% | 75.6% |
| DFFreq | 89.6% | 51.9% | 71.1% | 75.7% |
| CNNDetection | 98.2% | 11.6% | 54.9% | 67.0% |
关键发现:即使是表现最好的 SAFE,在 Deepfake 数据集(FaceSwap、SimSwap)和 DALLE-3、SocialRF、CommunityAI 上 F.Acc. 极低甚至接近 0%,说明检测器在真实世界分布偏移下严重失效。
Task 2:鲁棒性评估¶
| 退化类型 | 典型后果 |
|---|---|
| JPEG 压缩 | 几乎所有检测器 F.Acc. 降到 ~0%,R.Acc. 保持 ~100%(严重偏向判"真") |
| 高斯噪声 | F.Acc. 普遍降至 < 35% |
| 上下采样 | 影响相对较小,部分方法仍可维持合理性能 |
最抗扰动的方法是 CLIPDetection 和 FreqNet,其机理各异:
- CLIPDetection:在大规模预训练 CLIP-ViT 的特征空间中做二分类,采用 nearest-neighbor + linear probing 策略,无需显式训练伪造检测特征,因此对退化类型解耦性强
- FreqNet:在频域操作,捕获的伪造模式对空间域扰动(压缩、噪声)不敏感,天然具备更好的鲁棒性
- 整体趋势:Mean 行显示所有检测器在扰动下 R.Acc. ≥ 90% 但 F.Acc. < 35%,表明检测器在扰动下严重偏向判真,实际检测可靠性堪忧
Task 3:数据增强评估¶
评估三种增强策略:RandomRotation、Color-Jitter、RandomMask,在五个先进检测器上的影响:
- 常见增强策略对 AIGI 检测收益有限,甚至可能引入性能权衡
- 增强通常提升 R.Acc.,但可能降低 F.Acc.——例如 CLIPDetection 加 Rotation 后 R.Acc. 从 73.3% → 86.1%,但 F.Acc. 从 71.5% → 54.9%
- 三种增强组合使用并无明显优势:FreqNet 三合一后 F.Acc. 降至 62.5%(原 66.4%),NPR 降至 32.5%(原 41.9%)
- 增强效果高度依赖具体检测器:SAFE 对增强策略最不敏感,Acc. 在各组合间波动仅 ~2%;而 FreqNet/DFFreq 等频域模型对语义或频率扰动更脆弱
- 核心结论:数据增强不是 AIGI 检测的银弹,需要为特定检测器设计增强感知的训练流水线
Task 4:预处理评估¶
| Crop vs. Resize | 结论 |
|---|---|
| R.Acc. | Crop 显著提升(如 SAFE 从 63.3% → 96.8%) |
| F.Acc. | Crop 基本不变甚至略降 |
| 总体 Acc. | Crop 通常更优 |
核心解释:真实图像的模态分布集中且一致,Crop 能保留高频局部特征和纹理细节,有利于识别真实内容。而假图来自多样化生成模型,模态方差大,Crop 可能移除边界伪影等判别性线索,导致对假图检测的改进不稳定。这种模态不对称性解释了 Crop 一致提升 R.Acc. 但对 F.Acc. 帮助有限的现象。
亮点¶
- 首个全流水线评估框架:覆盖泛化、鲁棒性、数据增强、预处理四个维度,系统性远超现有基准
- R.Acc./F.Acc. 分解:揭示了被总体准确率掩盖的严重偏置问题——多数检测器 R.Acc. 高但 F.Acc. 极低
- 最新生成方法覆盖:25 个子集中 11 个来自 2024 年及之后的方法(FLUX、Imagen-3、SD-3 等)
- 真实世界数据引入:SocialRF 和 CommunityAI 填补了社交传播场景的评估空白
- 预处理的模态不对称性分析:对 Crop/Resize 的深层机理给出了清晰解释
局限与展望¶
- 训练设置有限:仅使用 ProGAN 和 SD-v1.4 训练,未探索多源联合训练或大规模数据集训练
- 检测方法可扩展:11 个检测器虽已覆盖代表性方法,但可进一步纳入最新的多模态和基础模型方法
- 视频和多模态扩展:当前仅关注静态图像,视频 Deepfake 和多模态伪造检测未涉及
- 攻防对抗评估缺失:未评估对抗攻击(如对抗扰动、隐写术)下的检测器表现
- 文本引导的生成 prompt 多样性:虽用 Gemini 生成多样化描述,但 prompt 分布是否真正反映真实世界仍需验证
与相关工作的对比¶
| 基准 | 生成方法数 | 2024+ | 检测方法数 | 任务维度 | 真实世界数据 |
|---|---|---|---|---|---|
| GenImage (NeurIPS'23) | 8 | 0 | 7 | 1 | ✗ |
| DeepfakeBench (NeurIPS'23) | 9 | 0 | 34 | 1 | ✗ |
| WildFake (AAAI'25) | 22 | 0 | 6 | 2 | ✗ |
| Chameleon (ICLR'25) | - | - | 10 | 2 | AI 社区 |
| DF40 (NeurIPS'24) | 40 | 3 | 7 | 1 | ✗ |
| AIGIBench (本文) | 25 | 11 | 11 | 4 | 社交+AI 社区 |
AIGIBench 在最新生成方法覆盖、评估任务维度全面性、真实世界数据源多样性三方面显著领先。
My Notes¶
- 频域特征值得深挖:FreqNet 和 DFFreq 在频域特征上展现了更好的泛化和鲁棒性,暗示频域分析是提升检测器稳定性的重要方向。特别是 FreqNet 在 JPEG 压缩下仍保持相对较高的 F.Acc.,说明频域伪影比空域伪影更持久
- 大规模预训练是关键:CLIPDetection 和 AIDE 利用 CLIP-ViT 等大模型的特征空间实现了跨分布泛化,未来可探索更大规模视觉基础模型。AIDE 在 Setting-II 取得最高 A.P.(82.7%),表明 self-supervised 特征空间对 AIGI 检测有天然优势
- 检测器需要"反偏置"训练:R.Acc./F.Acc. 的严重不平衡说明现有方法过度偏向"判真",需要专门的偏置缓解策略。CNNDetection 是极端案例——R.Acc. 98.2% 但 F.Acc. 仅 11.6%,几乎失去检测功能
- 真实世界部署需端到端考量:从数据增强到推理预处理都会影响最终性能,实际部署时需要针对性地设计检测流水线。论文揭示的模态不对称性(真图分布集中、假图分布分散)是理解各环节影响的关键框架
- 与 AI 安全的关联:该工作为 AI 生成内容治理提供了关键技术评估基础,可与水印、溯源等安全技术结合
- Benchmark 设计的启示:R.Acc./F.Acc. 分解 + 四维度评估的方法论值得其他检测领域借鉴(如 deepfake video、AI 生成文本检测),单一 Acc. 指标在不平衡场景下极具误导性
- SocialRF/CommunityAI 是最难子集:几乎所有检测器在这两个真实世界子集上 F.Acc. < 20%,暗示当前检测技术距离实际部署还有很大差距,需要 domain adaptation 或 test-time adaptation 策略
评分¶
- 新颖性: ⭐⭐⭐ — 核心贡献在于评估框架设计而非新算法,但四维度评估和 R.Acc./F.Acc. 分解有价值
- 实验充分度: ⭐⭐⭐⭐⭐ — 11 个检测器 × 25 个测试集 × 4 个任务维度,实验量极大且分析深入
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,表格信息丰富,分析有洞察力
- 价值: ⭐⭐⭐⭐ — 对该领域的实际现状给出了清醒评估,对未来研究方向有指导意义
相关论文¶
- [NeurIPS 2025] Epistemic Uncertainty for Generated Image Detection
- [NeurIPS 2025] Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection
- [AAAI 2026] Aggregating Diverse Cue Experts for AI-Generated Image Detection
- [NeurIPS 2025] Detecting Generated Images by Fitting Natural Image Distributions
- [NeurIPS 2025] FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies