Origin Identification for Text-Guided Image-to-Image Diffusion Models¶

会议: ICML 2025
arXiv: 2501.02376
代码: 有（OriPID 数据集）
领域: Image Generation
关键词: 图像溯源, 扩散模型安全, VAE 嵌入, 线性变换, 泛化性

一句话总结¶

本文提出 ID2 任务（文本引导图像到图像扩散模型的原始图像识别），构建了首个数据集 OriPID，并证明了通过对 VAE 嵌入进行线性变换可以泛化地找到生成图像的原始来源，在 mAP 上超越相似度方法 31.6%。

领域现状：文本引导的 image-to-image 扩散模型（如 SD2, SDXL, SD3）能根据文本 prompt 对输入图像进行创意修改，广泛应用于数字艺术和内容创作。

现有痛点：这种强大的编辑能力可能被滥用于传播虚假信息（篡改新闻图片）、侵犯版权（去除水印后修改）、逃避内容追踪。目前缺乏有效方法来识别生成图像的原始来源。

核心矛盾：不同扩散模型生成的图像具有"视觉差异"(visual discrepancy)——各模型有独特的视觉风格。基于相似度的检索方法在一个模型上训练后无法泛化到其他模型的生成图像，限制了实际应用。

本文目标：提出 ID2 任务并解决其核心挑战——跨模型泛化的原始图像识别。

切入角度：利用扩散模型本身的 VAE 编码器和线性变换，从理论上证明其存在性和跨模型泛化性。

核心 idea：存在一个线性变换矩阵 \(\mathbf{W}\)，使得生成图像和原始图像的 VAE 嵌入经过该变换后足够接近，且该变换可跨不同扩散模型泛化。

存在性定理 (Theorem 1):
- 证明：对于训练好的扩散模型 \(\mathcal{F}_1\)，存在线性变换矩阵 \(\mathbf{W}\)，使得 \(\mathcal{E}_1(g_1) \cdot \mathbf{W} = \mathcal{E}_1(o) \cdot \mathbf{W}\)
- 其中 \(g_1\) 是生成图像，\(o\) 是原始图像，\(\mathcal{E}_1\) 是 VAE 编码器
- 证明基于：训练好的扩散模型的噪声估计 \(\epsilon_\theta\) 接近真实噪声 \(\epsilon\)，因此 \(\mathcal{E}_1(g_1) - \mathcal{E}_1(o) \approx 0\)
- 设计动机：为方法提供理论保证
泛化性定理 (Theorem 2):
- 证明：矩阵 \(\mathbf{W}\) 可以泛化到不同的扩散模型 \(\mathcal{F}_2\)，即 \(\mathcal{E}_1(g_2) \cdot \mathbf{W} = \mathcal{E}_1(o) \cdot \mathbf{W}\)
- 关键观察：不同模型的 \(\mathbf{W}\) 虽然不同，但其奇异值向量的余弦相似度非常高（>0.99）
- 设计动机：实际场景中无法预知哪个扩散模型被滥用
实现：度量学习训练线性变换:
- 将理论上的 \(\mathbf{W}\) 通过梯度下降优化 CosFace 损失来学习
- 对于三元组 \((g, o, n)\)（生成图、原图、负样本），优化 \(\mathcal{L} = \mathcal{L}_{mtr}(\mathbf{z} \cdot \mathbf{W}, \mathbf{z}_o \cdot \mathbf{W}, \mathbf{z}_n \cdot \mathbf{W})\)
- 训练需时仅约 1/8.6 相比深度网络方法
- 设计动机：将理论保证转化为可优化的实际方法

配置	mAP (Seen)	mAP (Unseen)	说明
最好的预训练特征 (AnyPattern)	29.1%	-	公开模型直接用
相似度方法 (CosFace 微调)	87.1%	55.0%	泛化差
域泛化方法 (QAConv-GS)	83.4%	75.8%	泛化有提升但慢
Ours (线性变换)	88.8%	86.6%	最强泛化
用 MLP 替代线性	91.4%↑	80.3%↓	过拟合！