IAPL: Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning¶
会议: CVPR 2026
arXiv: 2508.01603
代码: https://github.com/liyih/IAPL (即将开源)
领域: 图像生成 / AI安全
关键词: AI生成图像检测, 图像自适应提示学习, 测试时自适应, CLIP微调, 伪造检测泛化
一句话总结¶
针对 AI 生成图像检测中现有方法难以泛化到未见生成器的问题,提出图像自适应提示学习(IAPL),在推理时根据每张测试图像动态调整输入到视觉编码器的 prompt——通过条件信息学习器提取伪造特征条件和测试时自适应 token 优化,在 UniversalFakeDetect 和 GenImage 数据集上分别达到 95.61% 和 96.7% 的 SOTA 平均准确率。
背景与动机¶
当前 AI 生成图像检测的前沿方法通常通过部分参数微调来适配预训练基础模型(如 CLIP),但这些方法存在泛化瓶颈:微调后的模型只能捕捉训练数据中有限的伪造模式,面对来自未见生成器(如新的扩散模型、GAN 变体)的伪造图像时性能大幅下降。核心问题在于训练后 prompt 被固定,无法适应不断演化的生成器特征。
核心问题¶
如何让检测模型在推理时自适应地调整其行为,使其能根据每张测试图像的特点动态适配,从而泛化到任意未见生成器?
方法详解¶
整体框架¶
基于 CLIP 视觉编码器,用动态 prompt 替代固定 prompt。动态 prompt 由两部分组成:条件信息(从图像中提取的伪造特征条件)+ 测试时自适应 token(推理时优化的参数)。
关键设计¶
-
条件信息学习器(Conditional Information Learner): 使用 CNN 特征提取器建模两种条件信息——伪造特定条件(捕捉生成器留下的伪造痕迹)和通用条件(描述图像的一般属性)。这些条件信息为 prompt 提供了图像相关的上下文。
-
测试时自适应 token: 在推理阶段,对单张测试图像通过多视图一致性约束优化自适应 token——对同一图像的多个变换视图(增强版本)应强制产生一致的预测。这确保了 prompt 参数与当前图像的特性对齐。
-
轻量级可学习缩放因子: 用可学习的缩放因子将条件信息和自适应 token 融合为最终的动态 prompt,实现灵活的信息加权。
-
最优输入选择: 在最终决策时,选择预测置信度最高的输入(多视图中最确定的那个)作为最终判断。
损失函数 / 训练策略¶
- 训练:在有限的 AI 生成图像数据集上学习条件信息学习器和缩放因子
- 推理:对每张测试图通过多视图一致性优化自适应 token
- 核心创新在于将传统的"训练时学习 prompt"转变为"推理时自适应 prompt"
实验关键数据¶
| 数据集 | 平均准确率 |
|---|---|
| UniversalFakeDetect | 95.61% |
| GenImage | 96.7% |
在两个广泛使用的基准上取得 SOTA,证明了对未见生成器的强泛化能力。
亮点¶
- 测试时自适应的新范式:不再依赖训练时固定的 prompt,而是每张图像推理时动态调整,类似于 TTT (Test-Time Training) 的思想应用于 prompt learning
- 多视图一致性约束:巧妙利用图像变换不变性作为自监督信号,无需额外标注数据即可在测试时优化
- CNN + CLIP 互补:CNN 提取低层伪造纹理特征,CLIP 提供高层语义理解,两者通过 prompt 融合
- 对未见生成器的泛化:核心优势——训练中未见的生成器在测试时也能被检测
局限性 / 可改进方向¶
- 测试时优化增加了推理延迟——每张图像需要多次前向传播
- 多视图增强的设计需要选择合适的变换类型
- 仅基于摘要分析,技术细节需参阅 PDF
与相关工作的对比¶
- vs 固定 prompt 微调: 传统方法训练后 prompt 固定,IAPL 在推理时动态调整
- vs CNNDetection / UnivFD: 这些方法通常微调整个模型或最后几层,泛化能力受限于训练数据覆盖的生成器
- vs Test-Time Training/Adaptation: IAPL 将 TTT 思想引入 AI 生成图像检测领域
启发与关联¶
- 图像自适应 prompt 的思想可以推广到其他需要泛化的检测任务——如 deepfake 视频检测、AI 生成文本检测
- 多视图一致性作为测试时自监督信号的设计可复用到其他 CLIP 基础的检测任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 测试时自适应 prompt learning 是检测领域的新思路
- 实验充分度: ⭐⭐⭐⭐ 两个主流基准SOTA(基于摘要判断)
- 写作质量: ⭐⭐⭐⭐ 摘要清晰(HTML 版需确认)
- 价值: ⭐⭐⭐⭐ 解决了 AI 生成图像检测的泛化痛点,实用性强