跳转至

Is Artificial Intelligence Generated Image Detection a Solved Problem?

会议: NeurIPS 2025
arXiv: 2505.12335
代码: HorizonTEL/AIGIBench
领域: image_generation
关键词: AI生成图像检测, benchmark, 鲁棒性评估, 数据增强, 泛化性

一句话总结

提出 AIGIBench 综合基准,通过四大任务(多源泛化、多退化鲁棒性、数据增强敏感性、测试预处理影响)系统评估 11 个 SOTA 检测器,揭示现有 AIGI 检测方法在真实场景下性能严重下降,表明该问题远未解决。

背景与动机

随着 GAN 和扩散模型的快速发展,生成的合成图像越来越逼真,引发了虚假信息传播、Deepfake 和版权侵权等严重问题。尽管已有大量 AIGI 检测器报告了超过 95% 的检测准确率,但这些高性能多在理想化实验环境下取得。现有基准存在以下不足:

  • 生成方法覆盖不全:多数基准仅覆盖 2022 年前的生成方法,缺少最新的扩散模型(如 FLUX、Imagen-3、SD-3 等)
  • 评估维度单一:仅测试泛化性,忽略鲁棒性、数据增强效果、测试预处理等关键环节
  • 缺少真实世界数据:未纳入社交媒体和 AI 绘画社区的真实传播样本
  • 检测方法过时:多数基准评估的检测方法集中在 2022 年前

因此,论文提出一个核心问题:AI 生成图像检测是否已是一个已解决的问题?

核心问题

论文通过构建 AIGIBench 基准来系统回答上述问题。该基准模拟真实世界的端到端 AIGI 检测流水线,覆盖从训练、增强到推理预处理的完整流程,定义了四个核心评估任务:

  1. Task 1 — 多源泛化评估:检测器对来自未知生成模型的图像的泛化能力
  2. Task 2 — 多退化鲁棒性评估:在 JPEG 压缩、高斯噪声、上下采样等退化条件下的稳定性
  3. Task 3 — 数据增强变化评估:不同增强策略(旋转、颜色抖动、随机遮挡)对检测性能的影响
  4. Task 4 — 测试预处理评估:Resize vs. Crop 两种预处理策略对检测结果的影响

方法详解

数据集构建

训练设置

  • Setting-I:72K 张 ProGAN 生成图像(car、cat、chair、horse 四类)
  • Setting-II:144K 张图像(ProGAN + SD-v1.4),同样四类

测试集(23 个子集 + 2 个真实世界子集):

类别 生成方法
GAN 噪声到图像 ProGAN, StyleGAN3, StyleGAN-XL, StyleSwim, R3GAN, WFIR
扩散文生图 SD-XL, SD-3, DALLE-3, Midjourney-v6, FLUX.1-dev, Imagen-3, GLIDE
GAN Deepfake BlendFace, E4S, FaceSwap, InSwap, SimSwap
扩散个性化生成 InstantID, Infinite-ID, PhotoMaker, BLIP-Diffusion, IP-Adapter
开源平台 SocialRF(社交媒体)、CommunityAI(AI 绘画社区)

数据质量控制

  • 使用 CLIP 嵌入(余弦相似度阈值 0.98)去除近重复图像
  • CLIP 美学评分筛选低质量图像
  • 人工审核移除明显伪造图像

真实图像来源:FFHQ、CelebA-HQ、Open Images V7,与假图一一对应保证平衡。

评估指标

  • Acc.:总体准确率
  • A.P.:平均精度
  • R.Acc.:真实图像检测准确率(判断为"真"的正确率)
  • F.Acc.:伪造图像检测准确率(判断为"假"的正确率)

将准确率分解为 R.Acc. 和 F.Acc. 是本文的重要设计,能更细致地揭示检测器的偏置问题。

评估的 11 个检测器

覆盖 2016-2025 年的代表性方法:ResNet-50、CNNDetection、Gram-Net、LGrad、CLIPDetection、FreqNet、NPR、LaDeDa、DFFreq、AIDE、SAFE。超过一半发表于 2024 年之后。

训练与推理

训练设置

  • Setting-I:72K 张 ProGAN 生成图像(car/cat/chair/horse 四类),仅覆盖单一 GAN 来源
  • Setting-II:144K 张图像(ProGAN + SD-v1.4),引入扩散模型以扩展训练分布
  • 所有 11 个检测器均采用原始超参数重新训练,确保公平对比
  • 从 Setting-I 到 Setting-II,加入 SD-v1.4 显著提升 R.Acc.,但常以 F.Acc. 下降为代价,表明灵敏度与精确度之间存在 trade-off

推理流程

  • 测试图像来自未知生成模型且可能经历未知退化
  • 推理前需进行预处理(Resize 或 Crop)以适配训练分辨率
  • Resize 会无意中平滑合成图像的局部相关性,削弱低层特征空间中的细微判别性伪影
  • Crop 更好地保留细粒度纹理和局部结构,但可能移除边界伪影等判别线索
  • 检测器输出二分类结果(real/fake),评估时分解为 R.Acc.(真图正确率)和 F.Acc.(假图正确率),避免总体准确率掩盖偏置问题

实验关键数据

Task 1:泛化评估(Setting-II)

检测器 平均 R.Acc. 平均 F.Acc. Acc. A.P.
SAFE 96.8% 63.0% 79.9% 82.6%
AIDE 88.1% 67.0% 77.6% 82.7%
LaDeDa 91.7% 54.9% 73.4% 79.3%
CLIPDetection 73.3% 71.5% 72.5% 75.6%
DFFreq 89.6% 51.9% 71.1% 75.7%
CNNDetection 98.2% 11.6% 54.9% 67.0%

关键发现:即使是表现最好的 SAFE,在 Deepfake 数据集(FaceSwap、SimSwap)和 DALLE-3、SocialRF、CommunityAI 上 F.Acc. 极低甚至接近 0%,说明检测器在真实世界分布偏移下严重失效。

Task 2:鲁棒性评估

退化类型 典型后果
JPEG 压缩 几乎所有检测器 F.Acc. 降到 ~0%,R.Acc. 保持 ~100%(严重偏向判"真")
高斯噪声 F.Acc. 普遍降至 < 35%
上下采样 影响相对较小,部分方法仍可维持合理性能

最抗扰动的方法是 CLIPDetection 和 FreqNet,其机理各异:

  • CLIPDetection:在大规模预训练 CLIP-ViT 的特征空间中做二分类,采用 nearest-neighbor + linear probing 策略,无需显式训练伪造检测特征,因此对退化类型解耦性强
  • FreqNet:在频域操作,捕获的伪造模式对空间域扰动(压缩、噪声)不敏感,天然具备更好的鲁棒性
  • 整体趋势:Mean 行显示所有检测器在扰动下 R.Acc. ≥ 90% 但 F.Acc. < 35%,表明检测器在扰动下严重偏向判真,实际检测可靠性堪忧

Task 3:数据增强评估

评估三种增强策略:RandomRotation、Color-Jitter、RandomMask,在五个先进检测器上的影响:

  • 常见增强策略对 AIGI 检测收益有限,甚至可能引入性能权衡
  • 增强通常提升 R.Acc.,但可能降低 F.Acc.——例如 CLIPDetection 加 Rotation 后 R.Acc. 从 73.3% → 86.1%,但 F.Acc. 从 71.5% → 54.9%
  • 三种增强组合使用并无明显优势:FreqNet 三合一后 F.Acc. 降至 62.5%(原 66.4%),NPR 降至 32.5%(原 41.9%)
  • 增强效果高度依赖具体检测器:SAFE 对增强策略最不敏感,Acc. 在各组合间波动仅 ~2%;而 FreqNet/DFFreq 等频域模型对语义或频率扰动更脆弱
  • 核心结论:数据增强不是 AIGI 检测的银弹,需要为特定检测器设计增强感知的训练流水线

Task 4:预处理评估

Crop vs. Resize 结论
R.Acc. Crop 显著提升(如 SAFE 从 63.3% → 96.8%)
F.Acc. Crop 基本不变甚至略降
总体 Acc. Crop 通常更优

核心解释:真实图像的模态分布集中且一致,Crop 能保留高频局部特征和纹理细节,有利于识别真实内容。而假图来自多样化生成模型,模态方差大,Crop 可能移除边界伪影等判别性线索,导致对假图检测的改进不稳定。这种模态不对称性解释了 Crop 一致提升 R.Acc. 但对 F.Acc. 帮助有限的现象。

亮点

  1. 首个全流水线评估框架:覆盖泛化、鲁棒性、数据增强、预处理四个维度,系统性远超现有基准
  2. R.Acc./F.Acc. 分解:揭示了被总体准确率掩盖的严重偏置问题——多数检测器 R.Acc. 高但 F.Acc. 极低
  3. 最新生成方法覆盖:25 个子集中 11 个来自 2024 年及之后的方法(FLUX、Imagen-3、SD-3 等)
  4. 真实世界数据引入:SocialRF 和 CommunityAI 填补了社交传播场景的评估空白
  5. 预处理的模态不对称性分析:对 Crop/Resize 的深层机理给出了清晰解释

局限与展望

  • 训练设置有限:仅使用 ProGAN 和 SD-v1.4 训练,未探索多源联合训练或大规模数据集训练
  • 检测方法可扩展:11 个检测器虽已覆盖代表性方法,但可进一步纳入最新的多模态和基础模型方法
  • 视频和多模态扩展:当前仅关注静态图像,视频 Deepfake 和多模态伪造检测未涉及
  • 攻防对抗评估缺失:未评估对抗攻击(如对抗扰动、隐写术)下的检测器表现
  • 文本引导的生成 prompt 多样性:虽用 Gemini 生成多样化描述,但 prompt 分布是否真正反映真实世界仍需验证

与相关工作的对比

基准 生成方法数 2024+ 检测方法数 任务维度 真实世界数据
GenImage (NeurIPS'23) 8 0 7 1
DeepfakeBench (NeurIPS'23) 9 0 34 1
WildFake (AAAI'25) 22 0 6 2
Chameleon (ICLR'25) - - 10 2 AI 社区
DF40 (NeurIPS'24) 40 3 7 1
AIGIBench (本文) 25 11 11 4 社交+AI 社区

AIGIBench 在最新生成方法覆盖、评估任务维度全面性、真实世界数据源多样性三方面显著领先。

My Notes

  1. 频域特征值得深挖:FreqNet 和 DFFreq 在频域特征上展现了更好的泛化和鲁棒性,暗示频域分析是提升检测器稳定性的重要方向。特别是 FreqNet 在 JPEG 压缩下仍保持相对较高的 F.Acc.,说明频域伪影比空域伪影更持久
  2. 大规模预训练是关键:CLIPDetection 和 AIDE 利用 CLIP-ViT 等大模型的特征空间实现了跨分布泛化,未来可探索更大规模视觉基础模型。AIDE 在 Setting-II 取得最高 A.P.(82.7%),表明 self-supervised 特征空间对 AIGI 检测有天然优势
  3. 检测器需要"反偏置"训练:R.Acc./F.Acc. 的严重不平衡说明现有方法过度偏向"判真",需要专门的偏置缓解策略。CNNDetection 是极端案例——R.Acc. 98.2% 但 F.Acc. 仅 11.6%,几乎失去检测功能
  4. 真实世界部署需端到端考量:从数据增强到推理预处理都会影响最终性能,实际部署时需要针对性地设计检测流水线。论文揭示的模态不对称性(真图分布集中、假图分布分散)是理解各环节影响的关键框架
  5. 与 AI 安全的关联:该工作为 AI 生成内容治理提供了关键技术评估基础,可与水印、溯源等安全技术结合
  6. Benchmark 设计的启示:R.Acc./F.Acc. 分解 + 四维度评估的方法论值得其他检测领域借鉴(如 deepfake video、AI 生成文本检测),单一 Acc. 指标在不平衡场景下极具误导性
  7. SocialRF/CommunityAI 是最难子集:几乎所有检测器在这两个真实世界子集上 F.Acc. < 20%,暗示当前检测技术距离实际部署还有很大差距,需要 domain adaptation 或 test-time adaptation 策略

评分

  • 新颖性: ⭐⭐⭐ — 核心贡献在于评估框架设计而非新算法,但四维度评估和 R.Acc./F.Acc. 分解有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ — 11 个检测器 × 25 个测试集 × 4 个任务维度,实验量极大且分析深入
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,表格信息丰富,分析有洞察力
  • 价值: ⭐⭐⭐⭐ — 对该领域的实际现状给出了清醒评估,对未来研究方向有指导意义

相关论文