Origin Identification for Text-Guided Image-to-Image Diffusion Models¶
会议: ICML 2025
arXiv: 2501.02376
代码: 有(OriPID 数据集)
领域: Image Generation
关键词: 图像溯源, 扩散模型安全, VAE 嵌入, 线性变换, 泛化性
一句话总结¶
本文提出 ID2 任务(文本引导图像到图像扩散模型的原始图像识别),构建了首个数据集 OriPID,并证明了通过对 VAE 嵌入进行线性变换可以泛化地找到生成图像的原始来源,在 mAP 上超越相似度方法 31.6%。
研究背景与动机¶
领域现状:文本引导的 image-to-image 扩散模型(如 SD2, SDXL, SD3)能根据文本 prompt 对输入图像进行创意修改,广泛应用于数字艺术和内容创作。
现有痛点:这种强大的编辑能力可能被滥用于传播虚假信息(篡改新闻图片)、侵犯版权(去除水印后修改)、逃避内容追踪。目前缺乏有效方法来识别生成图像的原始来源。
核心矛盾:不同扩散模型生成的图像具有"视觉差异"(visual discrepancy)——各模型有独特的视觉风格。基于相似度的检索方法在一个模型上训练后无法泛化到其他模型的生成图像,限制了实际应用。
本文目标:提出 ID2 任务并解决其核心挑战——跨模型泛化的原始图像识别。
切入角度:利用扩散模型本身的 VAE 编码器和线性变换,从理论上证明其存在性和跨模型泛化性。
核心 idea:存在一个线性变换矩阵 \(\mathbf{W}\),使得生成图像和原始图像的 VAE 嵌入经过该变换后足够接近,且该变换可跨不同扩散模型泛化。
方法详解¶
整体框架¶
- 输入:查询图像(某扩散模型生成的)+ 大规模参考图像库(100万张)
- 过程:用 VAE 编码器提取嵌入 → 线性变换 → 最近邻检索
- 输出:找到查询图像的原始来源图像
关键设计¶
-
存在性定理 (Theorem 1):
- 证明:对于训练好的扩散模型 \(\mathcal{F}_1\),存在线性变换矩阵 \(\mathbf{W}\),使得 \(\mathcal{E}_1(g_1) \cdot \mathbf{W} = \mathcal{E}_1(o) \cdot \mathbf{W}\)
- 其中 \(g_1\) 是生成图像,\(o\) 是原始图像,\(\mathcal{E}_1\) 是 VAE 编码器
- 证明基于:训练好的扩散模型的噪声估计 \(\epsilon_\theta\) 接近真实噪声 \(\epsilon\),因此 \(\mathcal{E}_1(g_1) - \mathcal{E}_1(o) \approx 0\)
- 设计动机:为方法提供理论保证
-
泛化性定理 (Theorem 2):
- 证明:矩阵 \(\mathbf{W}\) 可以泛化到不同的扩散模型 \(\mathcal{F}_2\),即 \(\mathcal{E}_1(g_2) \cdot \mathbf{W} = \mathcal{E}_1(o) \cdot \mathbf{W}\)
- 关键观察:不同模型的 \(\mathbf{W}\) 虽然不同,但其奇异值向量的余弦相似度非常高(>0.99)
- 设计动机:实际场景中无法预知哪个扩散模型被滥用
-
实现:度量学习训练线性变换:
- 将理论上的 \(\mathbf{W}\) 通过梯度下降优化 CosFace 损失来学习
- 对于三元组 \((g, o, n)\)(生成图、原图、负样本),优化 \(\mathcal{L} = \mathcal{L}_{mtr}(\mathbf{z} \cdot \mathbf{W}, \mathbf{z}_o \cdot \mathbf{W}, \mathbf{z}_n \cdot \mathbf{W})\)
- 训练需时仅约 1/8.6 相比深度网络方法
- 设计动机:将理论保证转化为可优化的实际方法
损失函数 / 训练策略¶
- CosFace 度量损失,拉近正对、推远负对
- 训练数据:SD2 生成的 200 万图像(10 万原图 × 20 prompt/原图)
- 测试:SD2 + 6 个未见模型各 5000 查询图,从 100 万参考集中检索
- 图像统一缩放到 256×256,学习率 3.5e-4,8 × A100
实验关键数据¶
主实验¶
| 扩散模型 | 类型 | mAP↑ | Acc↑ |
|---|---|---|---|
| SD2 | Seen | 88.8% | 86.6% |
| SDXL | Unseen | 81.5% | 78.0% |
| OpenDalle | Unseen | 87.3% | 85.7% |
| ColorfulXL | Unseen | 89.3% | 87.1% |
| Kandinsky-3 | Unseen | 85.7% | 84.5% |
| SD3 | Unseen | 85.7% | 82.0% |
| Kolors | Unseen | 90.3% | 88.5% |
消融实验¶
| 配置 | mAP (Seen) | mAP (Unseen) | 说明 |
|---|---|---|---|
| 最好的预训练特征 (AnyPattern) | 29.1% | - | 公开模型直接用 |
| 相似度方法 (CosFace 微调) | 87.1% | 55.0% | 泛化差 |
| 域泛化方法 (QAConv-GS) | 83.4% | 75.8% | 泛化有提升但慢 |
| Ours (线性变换) | 88.8% | 86.6% | 最强泛化 |
| 用 MLP 替代线性 | 91.4%↑ | 80.3%↓ | 过拟合! |
关键发现¶
- 巨大泛化优势:mAP 超越最好的相似度方法 +31.6%,超越最好的域泛化方法 +10.8%
- 线性变换是关键:用更强的 MLP 反而导致过拟合,验证了理论(只需线性变换)
- 效率优势:训练快 8.6 倍,匹配速度快 875 倍(向量 vs 特征图匹配)
- 不同扩散模型的 VAE 编码器参数和嵌入确实不同,但线性变换仍然泛化
- 对高斯模糊(σ=3)和 JPEG 压缩(30%)仅分别降低 3.7% 和 0.3% mAP
亮点与洞察¶
- 任务定义有价值:ID2 是一个重要且及时的安全任务
- 理论优雅:从扩散模型的去噪原理出发推导线性变换的存在性和泛化性
- 简单即有效:线性变换竟然优于深度网络方法
- 过拟合洞察:MLP 实验完美说明了为什么理论保证的线性方法更好
- 实用性强:高效的训练和检索速度适合大规模部署
局限与展望¶
- 仅适用于"加噪+去噪"范式的 I2I 模型,InstructPix2Pix 等其他范式超出理论保证
- 完全不适用于 CLIP 编码(如 IP-Adapter),需要新的理论框架
- 难负样本问题:视觉上非常相似的无关图像可能导致误匹配
- 当前仅验证 7 个扩散模型,更多模型的泛化性需进一步确认
相关工作与启发¶
- 图像拷贝检测 (ICD) 是最相关的任务,但 I2I 翻译比手工变换复杂得多
- 扩散模型生成检测 (DIRE) 关注"是否 AI 生成",本文关注"来源是哪张图"
- 启发:VAE 嵌入空间的结构性质可能在其他扩散模型安全任务中也有价值
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 任务定义和理论方法都非常新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 7 个扩散模型 + 大量基线 + 鲁棒性测试 + 详细消融
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,理论推导严谨,实验设计合理
- 价值: ⭐⭐⭐⭐⭐ 重要的安全任务 + 优雅的解决方案
相关论文¶
- [NeurIPS 2025] Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models
- [ICML 2025] Nonparametric Identification of Latent Concepts
- [NeurIPS 2025] One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting
- [ICCV 2025] Text Embedding Knows How to Quantize Text-Guided Diffusion Models
- [CVPR 2025] FADE: Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models