AEDR: Training-Free AI-Generated Image Attribution via Autoencoder Double-Reconstruction¶

会议: AAAI 2026
arXiv: 2507.18988v2
代码: 有
领域: AI安全 / 图像取证 / 生成图像溯源
关键词: 图像归因, 自编码器重建, 免训练, 潜在扩散模型, 核密度估计

一句话总结¶

提出一种基于自编码器双重重建损失比值的免训练图像归因方法，通过图像均匀度校准消除纹理复杂度偏差，在8个主流扩散模型上平均准确率达95.1%，比最强基线高24.7%，且速度快约100倍。

背景与动机¶

随着Stable Diffusion、FLUX等强大的潜在扩散模型（LDM）普及，任何人都能轻松生成逼真图像，带来了严重的安全隐忧——恶意商家可能冒用他人模型成果，或利用商业模型输出谋取不正当利益。因此，准确追溯生成图像的来源模型（origin attribution）变得至关重要。

现有的被动归因方法（基于重建的方法如RONAN、LatentTracer）依赖梯度引导重建，通过比较重建损失的绝对值来判断归属。但这类方法存在两个严重问题： 1. 在新一代强模型上失效：FLUX等模型的自编码器质量极高，导致belonging和non-belonging图像的重建损失都极低（~10⁻⁵），分布严重重叠，无法区分 2. 计算代价高昂：梯度优化过程需要大量迭代，单张图像归因耗时30-160秒

核心问题¶

如何在不需要额外训练、不修改生成模型的前提下，设计一种既准确又高效的图像归因方法，使其能在包括FLUX在内的最新扩散模型上稳定工作？

方法详解¶

整体框架¶

AEDR包含三个模块： 1. 双重重建：用目标模型的自编码器对测试图像连续做两次编码-解码重建 2. 均匀度校准：利用灰度共生矩阵（GLCM）计算图像均匀度指标，校准归因信号 3. 阈值确定：通过核密度估计（KDE）自适应确定判别阈值

关键设计¶

双重重建的核心观察： - 属于目标模型的图像（belonging image）已处于自编码器的学习分布内，两次重建的损失几乎相同，比值 $t = \mathcal{L}_1 / \mathcal{L}_2 \approx 1$ - 非属于目标模型的图像（non-belonging image）初始偏离分布，第一次重建将其投射入分布，第二次重建损失明显降低，因此 $t \gg 1$

这个设计巧妙之处在于：用损失的比值代替绝对值，天然消除了不同模型间重建精度差异带来的刻度问题。

均匀度校准：基于灰度共生矩阵（GLCM）的均匀度度量： $$\mathcal{H} = \sum_{i=0}^{\ell-1}\sum_{j=0}^{\ell-1} \frac{P(i,j)}{1+|i-j|}$$

纹理简单的图像均匀度高但双重重建比值变化小，复杂纹理的图像反之。用 $t' = t \times \mathcal{H}$ 做校准后，能有效缓解图像本身复杂度对归因信号的干扰。

自适应阈值：使用KDE估计校准信号 $t'$ 的分布，取CDF的 $1-\alpha$ 分位点作为阈值 $\tau$。$\alpha$ 是模型相关的超参数，在验证集上选取。

损失函数 / 训练策略¶

AEDR完全免训练。重建损失采用MSE（消融实验证明优于MAE/SSIM/LPIPS）。阈值确定仅需500张belonging图像的前向传播统计。

实验关键数据¶

8个模型：SD1.5, SD2base, SD2.1, SDXL, SD3.5, FLUX, VQDiffusion, Kandinsky 2.1
归因准确率（Table 1，区分belonging vs 其他模型生成图像）：AEDR平均 95.1% vs LatentTracer 70.4% vs RONAN 50.3%
区分belonging vs 真实图像（Table 2）：AEDR平均 96.9% vs LatentTracer 66.7% vs RONAN 52.2%
运行效率（Table 3）：AEDR平均0.27-1.25秒/张 vs LatentTracer 12-163秒/张，约 100×加速
泛化性（Table 4）：VAE上准确率>96%，VQ-VAE上90.85%，MoVQ上82.93%

消融实验要点¶

重建损失度量：MSE (99.4%) > SSIM (99.1%) > MAE (97.2%) > LPIPS (90.7%)
均匀度校准效果：对大多数模型提升0.18%-9.09%，对FLUX和VQDM有轻微下降
分位数选择：不同模型最优 $\alpha$ 差异较大（0.003-0.085），验证了KDE自适应选择的必要性

亮点¶

简洁而深刻的洞察：双重重建的损失比值作为归因信号，思路优雅且直觉清晰——belonging图像是分布内的不动点，非belonging图像被第一次重建"拉入"分布
真正的免训练：仅需自编码器的前向传播，无需梯度计算，无需训练分类器
在最新模型上有效：解决了FLUX等高性能模型上现有方法完全失效的问题
极高的效率：100倍以上加速，实际部署可行

局限性 / 可改进方向¶

量化自编码器上性能下降：MoVQ仅82.93%，VQ-VAE的离散量化导致重建精度不足，损害了"不动点"假设。如何为离散latent space设计类似的归因信号是开放问题
白盒假设：需要访问目标模型的自编码器。对于完全黑盒的商业API模型（如DALL·E 3）不适用
仅处理LDM族模型：对GAN、自回归模型（如DALL·E系列）等不同架构的生成器缺乏覆盖
鲁棒性未充分验证：论文未讨论图像经过JPEG压缩、缩放、裁剪等后处理后的归因鲁棒性
阈值选择需模型特定调整：每个模型需500张belonging样本做阈值标定，在模型数量不断增长的场景下可能带来开销

与相关工作的对比¶

方法	类型	准确率(avg)	速度	是否免训练	适用FLUX
RONAN	梯度重建	50.3%	极慢	是	✗
LatentTracer	梯度重建	70.4%	慢(12-163s)	是	✗
AEROBLADE	AE重建	-	快	是	仅检测
AEDR	AE双重重建	95.1%	快(0.06-1.25s)	是	✓

RONAN和LatentTracer依赖单次重建损失的绝对值，在高质量自编码器面前损失分布坍缩。AEROBLADE同样使用AE重建但只做检测（real vs fake），未做来源归因。AEDR通过比值+校准的方式完美解决了这一痛点。

启发与关联¶

"不动点"思想的可迁移性：双重重建的核心思想——"分布内样本是自编码器的近似不动点"——可能可以推广到其他检测/归因场景，例如用于检测经过特定图像编辑模型处理的图像
与idea 20260316_semantic_watermark_provenance 的联系：AEDR提供了一种纯被动的归因路径，与该idea中LIDA的检索式归因思路互补。AEDR的免训练特性使其可作为大规模归因系统的快速预筛选模块
均匀度校准的通用性：基于GLCM的图像复杂度校准是一个通用技巧，可借鉴到其他依赖重建误差的任务中（如异常检测、图像质量评估）
量化AE上的失效为VQ-based模型的归因留出了研究空间，可能需要在量化码本层面而非像素层面设计归因信号

评分¶

新颖性: ⭐⭐⭐⭐ (双重重建+比值归因的思路简洁新颖)
技术贡献: ⭐⭐⭐⭐ (完整的归因框架，含校准和自适应阈值)
实验充分度: ⭐⭐⭐⭐ (8个模型、多种AE类型、充分的消融)
写作质量: ⭐⭐⭐⭐ (动机清晰，图表直观易懂)
实际影响力: ⭐⭐⭐⭐ (免训练+100倍加速，实际可部署)
综合推荐: ⭐⭐⭐⭐ (4/5)