Aggregating Diverse Cue Experts for AI-Generated Image Detection¶

会议: AAAI 2026
arXiv: 2601.08790v1
代码: 无
领域: 图像取证 / AI生成图像检测
关键词: AI生成图像检测, 多线索融合, 色度不一致性, 混合专家, CLIP微调

一句话总结¶

提出Multi-Cue Aggregation Network (MCAN)，通过混合编码器适配器(MoEA)将原始图像、高频信息和新提出的色度不一致性(CI)三种互补线索统一融合，实现跨生成模型的鲁棒AI生成图像检测。

随着图像生成模型（GAN、扩散模型等）快速发展，检测AI生成图像变得越来越重要，同时也越来越困难
现有方法多依赖单一特征：重建误差（DIRE、LaRE²）依赖特定扩散模型、高频特征丢弃语义信息、CLIP冻结特征缺乏针对性——单一线索容易过拟合到特定生成模型，泛化性差
不同线索在不同场景下表现互补：高频特征检测不出的简单内容图像，图像内容特征可能能检测到；反之亦然
已有的多线索方法（如FatFormer）对各线索分配不均、优化不充分

如何有效整合空间域、频率域和色度域的互补检测线索，构建一个泛化性强的统一检测框架，使其在面对未见过的生成模型时仍保持高性能？

MCAN以冻结的CLIP ViT-B/16为backbone，输入三种线索（原始图像、高频表示、色度不一致性CI），通过Mixture-of-Encoder Adapter (MoEA)在统一框架中动态融合，每种线索有独立分类器，最终取各线索预测的最小值作为最终判定。

色度不一致性(Chromaticity Inconsistency, CI)：基于朗伯反射模型和维恩近似，通过通道比值变换 \(I_{ci} = [e^{-\rho_r/\rho_g}, e^{-\rho_g/\rho_b}, e^{-\rho_b/\rho_r}]\) 消除光照强度影响，暴露噪声差异。真实图像因相机传感器噪声在CI图上呈现不一致纹理，而AI生成图像在CI图上更平滑致。这是一个物理驱动的、不依赖特定生成模型的特征。
位置嵌入打乱(Position Embedding Shuffle)：对CI输入的ViT位置嵌入随机打乱顺序，破坏空间结构以减少CI表示中的图像内容信息，迫使网络聚焦于噪声模式而非语义内容。消融显示该策略带来3.5%的准确率提升。
混合编码器适配器(MoEA)：借鉴Mixture-of-Experts思想，为不同线索设计混合编码器。使用余弦相似度路由器为每个token分配专家权重，通过加权求和将多个expert编码器合并为单一混合编码器（可重参数化），推理时无额外计算开销。不同expert采用不同维度的低秩分解(\(W_d^i = W_{d}^{id} \cdot W_{d}^{iu}\))，增强专家多样性，避免同质化。仅在CLIP最后4层插入MoEA，浅层用单expert adapter。

三个线索各自的二元交叉熵损失：\(\mathcal{L}_{img}\), \(\mathcal{L}_{ci}\), \(\mathcal{L}_{hf}\)
重要性损失 \(\mathcal{L}_{imp}\)：促进专家使用均衡
熵损失 \(\mathcal{L}_{ent}\)：鼓励每个token选择特定专家，增强专业化
总损失：\(\mathcal{L} = \mathcal{L}_{img} + \mathcal{L}_{ci} + \mathcal{L}_{hf} + \mathcal{L}_{imp} + \mathcal{L}_{ent}\)
训练细节：RTX H100, batch=64（实虚各半），lr=1e-4，输入224×224，无数据增强

数据集	指标	本文(MCAN)	之前SOTA	提升
GenImage (8子集平均)	ACC	96.9%	DRCT 89.5%	+7.4%
Chameleon (ProGAN训练)	ACC	60.81%	AIDE 58.37%	+2.44%
Chameleon (SDV1.4训练)	ACC	69.61%	AIDE 62.60%	+7.01%
UniversalFakeDetect	mACC	93.3%	FatFormer 90.9%	+2.4%

GenImage上特别突出的单子集结果： - ADM: 90.2%（FatFormer 82.0%，+8.2%） - BigGAN: 98.8%（FatFormer 49.9%，+48.9%） - GLIDE: 98.6%（FatFormer 95.0%，+3.6%）

vs FatFormer (CVPR'24)：FatFormer也用CLIP+频率adapter，但只融合图像和频率两种线索且adapter结构固定。MCAN增加CI第三线索 + 动态MoEA路由，GenImage上平均ACC高9.5%（96.9% vs 87.4%），UniversalFakeDetect高2.4%
vs NPR (CVPR'24)：NPR聚焦上采样伪影的手工特征，在特定GAN模型上强但泛化有限。MCAN通过学习多线索自适应融合，在GenImage上平均高8.3%
vs AIDE (ICLR'25)：AIDE做了AI生成图像检测的sanity check，是最新的强baseline。MCAN在Chameleon的SDV1.4设定上超出7.01%，说明多线索融合的优势在更具挑战性的跨域场景下更明显

多线索融合范式可推广：这种"把不同信号视作多模态输入+MoE路由"的思路可以迁移到其他检测/取证任务，如视频deepfake检测（加入时序一致性线索）、图像篡改定位（加入边缘不一致性线索）
物理先验的检测线索：CI的设计思路——从图像形成的物理过程出发找真实图像独有的特征——是一个很有价值的研究方向。可以考虑其他物理先验如CFA插值伪影、镜头畸变等
与基础模型结合：MCAN当前用CLIP ViT-B/16作backbone，未来可探索DINOv2、SigLIP等更强backbone，或用更大模型（ViT-L）进一步提升
可研究方向：CI + 社交媒体鲁棒性（JPEG/resize后CI是否仍有区分力）、CI用于视频生成检测（Sora等生成视频是否也缺乏传感器噪声特征）