Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution¶
会议: CVPR 2026
arXiv: 2603.10583
代码: 有
领域: AI 生成图像取证 / 图像检索
关键词: AIGC 归因、实例检索、低位平面指纹、少样本学习、Deepfake 检测
一句话总结¶
将 AI 生成图像归因从分类范式重新定义为实例检索问题,提出 LIDA 框架:利用低位平面提取生成器指纹,通过无监督预训练 + 少样本适配实现开放集归因,在 GenImage 和 WildFake 上全面超越现有方法。
背景与动机¶
传统 AI 生成图像归因方法将其视为分类问题——已知所有生成器并训练分类器。但生成模型快速迭代,分类范式需要为每个新模型收集数据重新训练,无法适应开放集场景。水印方法则需要访问和修改生成模型本身。需要一个不依赖生成模型、仅需少量示例即可适配新生成器的通用框架。
核心问题¶
如何设计一个模型无关、无需大量再训练、仅需少量注册图像即可适配新生成器的通用 AIGC 归因框架?
方法详解¶
整体框架¶
维护一个注册数据库(每个生成器仅几张图像),训练特征编码器将查询图像映射到统一特征空间,通过余弦相似度检索最近邻来归因。关键:输入不是原始 RGB 图像,而是低位平面指纹。
关键设计¶
- 低位平面指纹生成: 对 RGB 图像每通道取最低 3 个位平面(k=0,1,2),用符号函数二值化。生成器隐性 artifacts 在 RGB 空间被淹没,但在低位平面中清晰可分——PCA 可视化显示不同生成器指纹自然聚类
- 无监督预训练: 用 ImageNet 真实图像的低位指纹训练改造 ResNet-50(去除浅层下采样保留空间细节),以 ImageNet 分类为 pretext task,学习通用噪声结构表示
- 少样本归因适配: Center loss 聚合同类 + 真实原型对比损失分离真/假。刻意避免交叉熵以保护预训练特征空间结构。最终损失权重 lambda=0.9
损失函数 / 训练策略¶
- 预训练: 交叉熵分类(ImageNet 1000 类),输入为低位指纹
- 适配: Center loss + 真实原型对比损失,batch=32, lr=1e-4, 100 epochs
- 推理: 检索模式,cosine similarity 排序,Top-1 为归因结果
- 两阶段: 先检测真/假,再归因到具体生成器
实验关键数据¶
| 数据集 | 设置 | Rank-1 | 之前最佳 | 提升 |
|---|---|---|---|---|
| GenImage (cross-arch) | 10-shot | 49.7% | 18.0% (ESSP) | +31.7% |
| WildFake (cross-arch) | 10-shot | 62.3% | 31.5% (DIRE) | +30.8% |
| GenImage (cross-gen) | 1-shot | 77.5% | 37.4% (ResNet) | +40.1% |
| GenImage | 0-shot检测 | ACC 86.3% | 77.1% (FSD) | +9.2% |
| GenImage | 10-shot检测 | ACC 88.3% | 84.1% (FSD) | +4.2% |
- BigGAN 归因在 1-shot 下达 100% Rank-1
- 对 JPEG 压缩鲁棒,对 Gaussian blur 有一定退化但仍远优于 RGB 特征
- 适配仅需几分钟,推理毫秒级
消融实验要点¶
- 低位指纹 vs RGB: 低位指纹 mAP 高 10.6%(使用预训练 ResNet-50)
- 无监督预训练: +1.5% mAP
- Center loss: +3.7% mAP
- 对比检测损失: +8.2% mAP
- 替换 center loss/对比损失为交叉熵均导致退化(-1.8%/-0.8%)
- 最优 lambda=0.9,过大损害生成器间区分度
亮点¶
- 范式转换:检索 vs 分类——新生成器只需往数据库添加几张图,无需重训练
- 低位平面指纹极简但极有效:仅用二值操作剥离内容保留生成器 artifacts
- 实验非常全面:两大数据集、10+ 生成器、多设置、消融和鲁棒性分析
局限性 / 可改进方向¶
- Gaussian blur 直接破坏低位结构,对强模糊鲁棒性有限
- 非常相似的生成器(SD v1.4 vs v1.5)区分能力相对较弱
- 仅测试图像模态,未扩展到视频/音频
- 低位平面的物理含义理论理解尚浅
与相关工作的对比¶
- vs 闭集方法 (Yu et al., RepMix): 仅支持训练时已知生成器,LIDA 天然支持开放集
- vs 开集方法 (Girish et al., Yang et al.): 仍基于分类+大量无标签数据,LIDA 仅需 1-10 张注册图像
- vs 水印方法 (Tree-Ring, Gaussian Shading): 需访问和修改生成模型,LIDA 完全模型无关
- vs FSD (Wu et al.): FSD 专注零样本检测且需合并类别,LIDA 保持细粒度仍更优
启发与关联¶
- 检索范式对快速变化的 AIGC 景观非常适合——新模型只需"注册"而非重训练
- 低位平面指纹是轻量的领域知识驱动特征设计,证明了对抗数据驱动学习的价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 分类到检索的范式转换 + 低位指纹组合有新意,各组件单独看不复杂
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖面广、对比全面、消融详尽、含鲁棒性和效率分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机充分,可视化丰富
- 价值: ⭐⭐⭐⭐ 对 AIGC 治理和数字取证有实际应用价值,方法简洁易部署