跳转至

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

会议: CVPR 2026
arXiv: 2603.10583
代码:
领域: AI 生成图像取证 / 图像检索
关键词: AIGC 归因、实例检索、低位平面指纹、少样本学习、Deepfake 检测

一句话总结

将 AI 生成图像归因从分类范式重新定义为实例检索问题,提出 LIDA 框架:利用低位平面提取生成器指纹,通过无监督预训练 + 少样本适配实现开放集归因,在 GenImage 和 WildFake 上全面超越现有方法。

背景与动机

传统 AI 生成图像归因方法将其视为分类问题——已知所有生成器并训练分类器。但生成模型快速迭代,分类范式需要为每个新模型收集数据重新训练,无法适应开放集场景。水印方法则需要访问和修改生成模型本身。需要一个不依赖生成模型、仅需少量示例即可适配新生成器的通用框架。

核心问题

如何设计一个模型无关、无需大量再训练、仅需少量注册图像即可适配新生成器的通用 AIGC 归因框架?

方法详解

整体框架

维护一个注册数据库(每个生成器仅几张图像),训练特征编码器将查询图像映射到统一特征空间,通过余弦相似度检索最近邻来归因。关键:输入不是原始 RGB 图像,而是低位平面指纹。

关键设计

  1. 低位平面指纹生成: 对 RGB 图像每通道取最低 3 个位平面(k=0,1,2),用符号函数二值化。生成器隐性 artifacts 在 RGB 空间被淹没,但在低位平面中清晰可分——PCA 可视化显示不同生成器指纹自然聚类
  2. 无监督预训练: 用 ImageNet 真实图像的低位指纹训练改造 ResNet-50(去除浅层下采样保留空间细节),以 ImageNet 分类为 pretext task,学习通用噪声结构表示
  3. 少样本归因适配: Center loss 聚合同类 + 真实原型对比损失分离真/假。刻意避免交叉熵以保护预训练特征空间结构。最终损失权重 lambda=0.9

损失函数 / 训练策略

  • 预训练: 交叉熵分类(ImageNet 1000 类),输入为低位指纹
  • 适配: Center loss + 真实原型对比损失,batch=32, lr=1e-4, 100 epochs
  • 推理: 检索模式,cosine similarity 排序,Top-1 为归因结果
  • 两阶段: 先检测真/假,再归因到具体生成器

实验关键数据

数据集 设置 Rank-1 之前最佳 提升
GenImage (cross-arch) 10-shot 49.7% 18.0% (ESSP) +31.7%
WildFake (cross-arch) 10-shot 62.3% 31.5% (DIRE) +30.8%
GenImage (cross-gen) 1-shot 77.5% 37.4% (ResNet) +40.1%
GenImage 0-shot检测 ACC 86.3% 77.1% (FSD) +9.2%
GenImage 10-shot检测 ACC 88.3% 84.1% (FSD) +4.2%
  • BigGAN 归因在 1-shot 下达 100% Rank-1
  • 对 JPEG 压缩鲁棒,对 Gaussian blur 有一定退化但仍远优于 RGB 特征
  • 适配仅需几分钟,推理毫秒级

消融实验要点

  • 低位指纹 vs RGB: 低位指纹 mAP 高 10.6%(使用预训练 ResNet-50)
  • 无监督预训练: +1.5% mAP
  • Center loss: +3.7% mAP
  • 对比检测损失: +8.2% mAP
  • 替换 center loss/对比损失为交叉熵均导致退化(-1.8%/-0.8%)
  • 最优 lambda=0.9,过大损害生成器间区分度

亮点

  • 范式转换:检索 vs 分类——新生成器只需往数据库添加几张图,无需重训练
  • 低位平面指纹极简但极有效:仅用二值操作剥离内容保留生成器 artifacts
  • 实验非常全面:两大数据集、10+ 生成器、多设置、消融和鲁棒性分析

局限性 / 可改进方向

  • Gaussian blur 直接破坏低位结构,对强模糊鲁棒性有限
  • 非常相似的生成器(SD v1.4 vs v1.5)区分能力相对较弱
  • 仅测试图像模态,未扩展到视频/音频
  • 低位平面的物理含义理论理解尚浅

与相关工作的对比

  • vs 闭集方法 (Yu et al., RepMix): 仅支持训练时已知生成器,LIDA 天然支持开放集
  • vs 开集方法 (Girish et al., Yang et al.): 仍基于分类+大量无标签数据,LIDA 仅需 1-10 张注册图像
  • vs 水印方法 (Tree-Ring, Gaussian Shading): 需访问和修改生成模型,LIDA 完全模型无关
  • vs FSD (Wu et al.): FSD 专注零样本检测且需合并类别,LIDA 保持细粒度仍更优

启发与关联

  • 检索范式对快速变化的 AIGC 景观非常适合——新模型只需"注册"而非重训练
  • 低位平面指纹是轻量的领域知识驱动特征设计,证明了对抗数据驱动学习的价值

评分

  • 新颖性: ⭐⭐⭐⭐ 分类到检索的范式转换 + 低位指纹组合有新意,各组件单独看不复杂
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖面广、对比全面、消融详尽、含鲁棒性和效率分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机充分,可视化丰富
  • 价值: ⭐⭐⭐⭐ 对 AIGC 治理和数字取证有实际应用价值,方法简洁易部署