Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning¶
会议: CVPR 2026
arXiv: 2508.01603
代码: 有
领域: 模型压缩
关键词: AI生成图像检测, 提示学习, 测试时适应, CLIP, 伪造检测
一句话总结¶
提出 Image-Adaptive Prompt Learning (IAPL),在推理时根据每张测试图像动态调整 CLIP 编码器的 prompt,通过测试时 token 调优和条件信息学习器实现对未见生成器的强泛化,在 UniversalFakeDetect 和 GenImage 上分别达到 95.61% 和 96.7% 平均准确率的 SOTA 性能。
研究背景与动机¶
领域现状: AI 生成图像检测是当前安全领域的热门课题。SOTA 方法普遍微调 CLIP 等视觉基础模型,利用其丰富的预训练知识辅助检测。现有方法如 UniFD、FatFormer、C2P-CLIP 在训练后固定所有可学习参数。
现有痛点: 微调后的固定参数模型对未见生成器的域迁移抵抗力不足。不同生成器产出的图像在纹理、语义和伪造痕迹上差异巨大,固定参数无法捕获这些实例级别的特异性判别线索。
核心矛盾: 训练数据只涵盖有限的生成方法(如仅用 ProGAN 训练),但推理时要面对 19 种不同的生成器。固定学到的 prompt 只编码了训练集的伪造分布,无法适应新分布。
本文目标 (1) 如何让 prompt 在推理时动态适应每张测试图像?(2) 如何提取图像特有的伪造线索作为条件信息?(3) 如何在保持检测骨干稳定性的同时允许实例级自适应?
切入角度: 将测试时适应(Test-Time Adaptation)思想引入 prompt 学习——prompt 不仅在训练时优化,在推理时也根据单张测试图像的多视角一致性约束继续调优。
核心 idea: prompt 由"训练后固定的条件信息"和"推理时动态调整的 test-time token"两部分组成,通过可学习缩放因子融合,实现检测器的实例级自适应。
方法详解¶
整体框架¶
基于 CLIP ViT-L/14 构建检测管道。在原有 CLIP 编码器中插入三类可训练组件:(1) MLP-based adapters(等间隔插入 \(N_a=6\) 个 block);(2) Learnable tokens(第 2 到 \(N_t=9\) 个 block);(3) Image-adaptive prompts(第 1 个 block 输入)。前两者训练后固定,提供稳定骨干;后者在推理时继续动态调整。最终 CLS token 经分类器输出检测结果。
关键设计¶
-
Test-Time Token Tuning:
- 功能:在推理时根据单张测试图像调整 test-time adaptive tokens
- 核心思路:从测试图像生成 \(N_v=32\) 个不同视角(1 个全局 + 31 个局部裁剪+翻转),用置信度选择 \(m=6\) 个高置信视角。以最小化平均熵损失 \(L_{avg} = -(\bar{p} \log \bar{p} + (1-\bar{p})\log(1-\bar{p}))\) 为目标调优 token 参数 \(T=2\) 步,其中 \(\bar{p}\) 是所有选中视角预测的平均。这迫使模型在多视角下做出一致预测
- 设计动机:域迁移导致预测不确定性增大,通过多视角一致性约束可以在无标签条件下让 token 适应当前图像的特性
-
Conditional Information Learner:
- 功能:从输入图像的纹理丰富区域提取伪造特有和通用条件信息
- 核心思路:将图像切成 \(N_p=192\) 个 \(32 \times 32\) 小块,用 DCT 分数选纹理最丰富的块,经高通滤波器提取高频模式。两个结构相同但参数独立的 CNN 分别提取伪造特有条件 \(C_f\)(附加辅助监督)和通用条件 \(C_g\)(无监督)
- 设计动机:CLIP 预训练关注高层语义,易忽略低层伪造痕迹(频率异常、像素模式等)。条件信息从高频纹理入手正好弥补这一短板。两路分离让一路专注伪造判别、一路捕获通用图像状态
-
Learnable Scaling Factor:
- 功能:融合 test-time tokens 和条件信息为最终的 image-adaptive prompt
- 核心思路:\(P = \{\alpha_f \cdot C_f + A[0,:], \alpha_g \cdot C_g + A[1,:]\}\),其中 \(\alpha_f, \alpha_g\) 是可学习的逐通道系数,训练时学到最优融合比例
- 设计动机:条件信息和自适应 token 各捕获不同类型的线索,缩放因子实现细粒度通道级控制
损失函数 / 训练策略¶
训练损失:\(L_{overall} = L_{cls} + L_{aux}\),均为二分类交叉熵。推理阶段用平均熵 \(L_{avg}\) 调优 test-time tokens。训练仅 1 个 epoch,学习率 \(5 \times 10^{-5}\),单卡 3090。推理时 test-time tuning 学习率 \(5 \times 10^{-3}\),调优 2 步。还有 Optimal Input Selection——对同一张图的多个视角取最高置信度的预测作为最终结果。
实验关键数据¶
主实验(UniversalFakeDetect,ProGAN 4-class 训练, Acc%)¶
| 方法 | ProGAN | StyleGAN | BigGAN | LDM(200) | DALLE | GauGAN | mAcc |
|---|---|---|---|---|---|---|---|
| UniFD | 100.0 | 82.0 | 94.5 | 72.0 | 81.38 | 99.5 | 86.78 |
| FatFormer | 99.89 | 97.15 | 99.50 | 69.45 | 98.75 | 99.41 | 90.86 |
| C2P-CLIP | 99.98 | 96.44 | 99.12 | 93.29 | 98.55 | 99.17 | 93.79 |
| IAPL | 100.0 | 98.90 | 99.65 | 95.35 | 98.90 | 99.55 | 95.61 |
消融实验¶
| 配置 | mAcc | 说明 |
|---|---|---|
| Full IAPL | 95.61 | 完整方法 |
| w/o test-time tuning | 93.89 | 去掉推理时调优掉 1.72 |
| w/o conditional info | 94.23 | 去掉条件信息掉 1.38 |
| w/o scaling factor | 94.67 | 去掉缩放因子掉 0.94 |
| w/o MLP adapter | 94.12 | 去掉适配器掉 1.49 |
关键发现¶
- Test-time tuning 贡献最大(+1.72%),证实推理时自适应的有效性
- T-SNE 可视化定性展示 IAPL 对未见伪造图像的特征与已见伪造更接近、与真实图像更分离
- 在 GenImage 数据集上用 SD v1.4 训练达 96.7% mAcc,对 Midjourney、ADM 等未见生成器泛化良好
- 仅需 1 epoch 训练 + 推理时 2 步调优,训练效率极高
亮点与洞察¶
- 推理时 prompt 自适应:将 test-time adaptation 引入 prompt learning 用于伪造检测是一个新颖组合。每张图都有定制化的 prompt,比固定 prompt 更能适应未见域
- 高频纹理条件化:从 DCT 分数最高的小块提取高频条件信息,巧妙弥补了 CLIP 语义偏向的短板,且计算量很小(仅处理一个 32x32 块)
- 极低训练成本:仅 1 epoch + 单卡 3090,比同类方法(如 FatFormer 需多 epoch 和更大卡)经济得多
局限与展望¶
- 推理时 test-time tuning 引入额外延迟:需生成 32 个视角 + 2 步梯度更新,对实时应用可能是瓶颈
- 条件信息仅从单个纹理最丰富的块提取,可能遗漏分布在多处的伪造线索
- 在 SITD、SAN 等低层次伪造方法上准确率仍有波动(68-95%),说明条件信息对某些伪造类型捕获不足
相关工作与启发¶
- vs C2P-CLIP: C2P-CLIP 通过对比学习注入类别概念,prompt 训练后固定。IAPL 额外引入推理时调优,mAcc 从 93.79% 提升到 95.61%
- vs FatFormer: FatFormer 用频率分析增强适配器,但 prompt 固定。IAPL 动态 prompt + 条件信息双管齐下效果更好
- vs TPT/R-TPT: 本文借鉴了 test-time prompt tuning 的思路但加入了伪造检测特有的条件信息分支,比纯 TPT 更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 test-time adaptation 与 prompt learning 结合用于伪造检测是新颖组合
- 实验充分度: ⭐⭐⭐⭐⭐ 两大标准数据集、19+ 生成器、完整消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
- 价值: ⭐⭐⭐⭐ 对 AI 生成内容检测的实际应用有重要参考价值
相关论文¶
- [CVPR 2026] Critical Patch-Aware Sparse Prompting with Decoupled Training for Continual Learning on the Edge
- [CVPR 2026] On the Robustness of Diffusion-Based Image Compression to Bit-Flip Errors
- [CVPR 2026] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
- [CVPR 2026] RDVQ: Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression
- [CVPR 2026] Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression