Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning¶

会议: CVPR 2026
arXiv: 2508.01603
代码: 有
领域: 模型压缩
关键词: AI生成图像检测, 提示学习, 测试时适应, CLIP, 伪造检测

一句话总结¶

提出 Image-Adaptive Prompt Learning (IAPL)，在推理时根据每张测试图像动态调整 CLIP 编码器的 prompt，通过测试时 token 调优和条件信息学习器实现对未见生成器的强泛化，在 UniversalFakeDetect 和 GenImage 上分别达到 95.61% 和 96.7% 平均准确率的 SOTA 性能。

研究背景与动机¶

领域现状: AI 生成图像检测是当前安全领域的热门课题。SOTA 方法普遍微调 CLIP 等视觉基础模型，利用其丰富的预训练知识辅助检测。现有方法如 UniFD、FatFormer、C2P-CLIP 在训练后固定所有可学习参数。

现有痛点: 微调后的固定参数模型对未见生成器的域迁移抵抗力不足。不同生成器产出的图像在纹理、语义和伪造痕迹上差异巨大，固定参数无法捕获这些实例级别的特异性判别线索。

核心矛盾: 训练数据只涵盖有限的生成方法（如仅用 ProGAN 训练），但推理时要面对 19 种不同的生成器。固定学到的 prompt 只编码了训练集的伪造分布，无法适应新分布。

本文目标 (1) 如何让 prompt 在推理时动态适应每张测试图像？(2) 如何提取图像特有的伪造线索作为条件信息？(3) 如何在保持检测骨干稳定性的同时允许实例级自适应？

切入角度: 将测试时适应（Test-Time Adaptation）思想引入 prompt 学习——prompt 不仅在训练时优化，在推理时也根据单张测试图像的多视角一致性约束继续调优。

核心 idea: prompt 由"训练后固定的条件信息"和"推理时动态调整的 test-time token"两部分组成，通过可学习缩放因子融合，实现检测器的实例级自适应。

方法详解¶

整体框架¶

基于 CLIP ViT-L/14 构建检测管道。在原有 CLIP 编码器中插入三类可训练组件：(1) MLP-based adapters（等间隔插入 \(N_a=6\) 个 block）；(2) Learnable tokens（第 2 到 \(N_t=9\) 个 block）；(3) Image-adaptive prompts（第 1 个 block 输入）。前两者训练后固定，提供稳定骨干；后者在推理时继续动态调整。最终 CLS token 经分类器输出检测结果。

关键设计¶

Test-Time Token Tuning:
- 功能：在推理时根据单张测试图像调整 test-time adaptive tokens
- 核心思路：从测试图像生成 \(N_v=32\) 个不同视角（1 个全局 + 31 个局部裁剪+翻转），用置信度选择 \(m=6\) 个高置信视角。以最小化平均熵损失 \(L_{avg} = -(\bar{p} \log \bar{p} + (1-\bar{p})\log(1-\bar{p}))\) 为目标调优 token 参数 \(T=2\) 步，其中 \(\bar{p}\) 是所有选中视角预测的平均。这迫使模型在多视角下做出一致预测
- 设计动机：域迁移导致预测不确定性增大，通过多视角一致性约束可以在无标签条件下让 token 适应当前图像的特性
Conditional Information Learner:
- 功能：从输入图像的纹理丰富区域提取伪造特有和通用条件信息
- 核心思路：将图像切成 \(N_p=192\) 个 \(32 \times 32\) 小块，用 DCT 分数选纹理最丰富的块，经高通滤波器提取高频模式。两个结构相同但参数独立的 CNN 分别提取伪造特有条件 \(C_f\)（附加辅助监督）和通用条件 \(C_g\)（无监督）
- 设计动机：CLIP 预训练关注高层语义，易忽略低层伪造痕迹（频率异常、像素模式等）。条件信息从高频纹理入手正好弥补这一短板。两路分离让一路专注伪造判别、一路捕获通用图像状态
Learnable Scaling Factor:
- 功能：融合 test-time tokens 和条件信息为最终的 image-adaptive prompt
- 核心思路：\(P = \{\alpha_f \cdot C_f + A[0,:], \alpha_g \cdot C_g + A[1,:]\}\)，其中 \(\alpha_f, \alpha_g\) 是可学习的逐通道系数，训练时学到最优融合比例
- 设计动机：条件信息和自适应 token 各捕获不同类型的线索，缩放因子实现细粒度通道级控制

损失函数 / 训练策略¶

训练损失：\(L_{overall} = L_{cls} + L_{aux}\)，均为二分类交叉熵。推理阶段用平均熵 \(L_{avg}\) 调优 test-time tokens。训练仅 1 个 epoch，学习率 \(5 \times 10^{-5}\)，单卡 3090。推理时 test-time tuning 学习率 \(5 \times 10^{-3}\)，调优 2 步。还有 Optimal Input Selection——对同一张图的多个视角取最高置信度的预测作为最终结果。

实验关键数据¶

主实验（UniversalFakeDetect，ProGAN 4-class 训练, Acc%）¶

方法	ProGAN	StyleGAN	BigGAN	LDM(200)	DALLE	GauGAN	mAcc
UniFD	100.0	82.0	94.5	72.0	81.38	99.5	86.78
FatFormer	99.89	97.15	99.50	69.45	98.75	99.41	90.86
C2P-CLIP	99.98	96.44	99.12	93.29	98.55	99.17	93.79
IAPL	100.0	98.90	99.65	95.35	98.90	99.55	95.61

消融实验¶

配置	mAcc	说明
Full IAPL	95.61	完整方法
w/o test-time tuning	93.89	去掉推理时调优掉 1.72
w/o conditional info	94.23	去掉条件信息掉 1.38
w/o scaling factor	94.67	去掉缩放因子掉 0.94
w/o MLP adapter	94.12	去掉适配器掉 1.49

关键发现¶

Test-time tuning 贡献最大（+1.72%），证实推理时自适应的有效性
T-SNE 可视化定性展示 IAPL 对未见伪造图像的特征与已见伪造更接近、与真实图像更分离
在 GenImage 数据集上用 SD v1.4 训练达 96.7% mAcc，对 Midjourney、ADM 等未见生成器泛化良好
仅需 1 epoch 训练 + 推理时 2 步调优，训练效率极高

亮点与洞察¶

推理时 prompt 自适应：将 test-time adaptation 引入 prompt learning 用于伪造检测是一个新颖组合。每张图都有定制化的 prompt，比固定 prompt 更能适应未见域
高频纹理条件化：从 DCT 分数最高的小块提取高频条件信息，巧妙弥补了 CLIP 语义偏向的短板，且计算量很小（仅处理一个 32x32 块）
极低训练成本：仅 1 epoch + 单卡 3090，比同类方法（如 FatFormer 需多 epoch 和更大卡）经济得多

局限与展望¶

推理时 test-time tuning 引入额外延迟：需生成 32 个视角 + 2 步梯度更新，对实时应用可能是瓶颈
条件信息仅从单个纹理最丰富的块提取，可能遗漏分布在多处的伪造线索
在 SITD、SAN 等低层次伪造方法上准确率仍有波动（68-95%），说明条件信息对某些伪造类型捕获不足

评分¶

新颖性: ⭐⭐⭐⭐ 将 test-time adaptation 与 prompt learning 结合用于伪造检测是新颖组合
实验充分度: ⭐⭐⭐⭐⭐ 两大标准数据集、19+ 生成器、完整消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示直观
价值: ⭐⭐⭐⭐ 对 AI 生成内容检测的实际应用有重要参考价值