Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection¶
会议: CVPR2025
arXiv: 2603.13070
代码: 待确认
领域: 图像生成 / 版权保护
关键词: 扩散模型, 记忆化缓解, Prompt增强, 复制检测, 多模态融合
机构: 西澳大利亚大学, 墨尔本大学, Curtin大学
一句话总结¶
提出 RAPTA(训练时基于目标检测的区域感知 prompt 变体增强)和 ADMCD(推理时三流注意力融合的多模态复制检测),从缓解和检测两个角度端到端地应对文生图扩散模型的训练数据记忆化问题。
研究背景与动机¶
- 记忆化现象:文生图扩散模型(如 Stable Diffusion)在大规模弱标注网页数据上训练,高模型容量+强文图对齐+对单一 caption-image 对的过度依赖,共同导致模型可以记忆并复制训练数据,引发版权和隐私风险。复制行为呈连续谱——从像素级近似复制到风格/语义层面的模仿。
- 现有缓解方案局限:推理时 prompt 扰动方法(随机 token 插入、BLIP 改写 [10]、CLIP embedding 加高斯噪声 [9])虽能降低复制率,但损害 prompt-图像对齐质量,且不解决训练时的记忆化根源。训练时方案(如通用模板多样化或 GLIGEN/ControlNet 式条件化 [11, 24])可能引入语义漂移。
- 检测侧不足:单一指标各有偏差——LPIPS 偏重纹理/颜色、ORB 依赖刚性几何关键点、SSIM 以亮度/对比度为主——且对局部/风格复制敏感度低,阈值因类别而异。SSCD [13] 的单流全局指纹在翻转和遮挡下退化明显,DreamSim [5] 优化的是通用感知相似而非复制检测。
- 核心矛盾:如何在不损害生成质量的前提下减少训练时记忆化?如何无需大规模标注数据进行零样本复制检测?
- 切入角度:训练时用检测器 proposals 生成语义锚定的 prompt 变体(而非随机扰动),检测时用三流特征注意力融合替代单一指标,并引入两级阈值区分 retrieve/exact 与 style 复制。
方法详解¶
整体框架¶
两个互补模块:(a) RAPTA 作用于训练阶段,通过区域感知的 prompt 多样化让模型对同一图像看到多种语义锚定描述,从根源减少对特定 caption-image 对的记忆;(b) ADMCD 作用于推理/评估阶段,融合三种互补视觉特征进行零训练复制检测与分类。
RAPTA(Region-Aware Prompt Augmentation)¶
- 区域检测:对每张训练图像用预训练 Faster R-CNN [16] 提取候选框 \(\{(b_i, c_i, S_i)\}_{i=1}^N\),经 NMS(IoU 阈值 \(\tau_{\text{nms}}\))合并重叠框,丢弃低置信度检测 \(S_i \le \tau_b\),保留 top-\(M\) 个高质量 proposals
- 位置离散化:计算每个保留框的中心点,按图像尺寸归一化后映射到 \(3\times3\) 网格 \(\mathcal{G} = \{\text{top-left}, \ldots, \text{bottom-right}\}\),得到粗粒度位置 token \(\text{pos}_i\)
- 模板实例化:用少量 fill-in 模板 \(\{T_j\}_{j=1}^J\)(如 "p, with a ⟨c⟩ in the ⟨pos⟩" 或 "p, featuring ⟨c⟩ and ⟨c'⟩")将(基础 prompt, 类别, 位置)组合为区域感知变体集合:\(V = \{p\} \cup \{T_j(p, c_i, \text{pos}_i) \mid i=1,\ldots,M;\ j=1,\ldots,J\}\)
- CLIP 加权采样:对每个变体 \(v \in V\) 计算 CLIP 图文一致性 \(S_v = \cos(f_I, f_v)\),用温度参数 \(\gamma > 0\) 转换为非负权重 \(w_v = (S_v)_+^\gamma\),归一化为采样分布 \(\pi(v) = w_v / \sum_{u \in V} w_u\)
- 训练流程:每次迭代从 \(\pi\) 中采样一个 prompt \(\tilde{p}\),编码为 \(e = \text{CLIP}_{\text{text}}(\tilde{p})\) 条件化去噪器,损失函数保持标准扩散目标 \(\mathcal{L}_{\text{diff}} = \mathbb{E}_{I,\epsilon,t,\tilde{p}}[\|\epsilon - \epsilon_\theta(x_t, t, e)\|_2^2]\)
- 关键设计动机:推理时扰动只让模型看到单一文本视图且可能语义漂移;RAPTA 在训练中跨迭代暴露多种语义锚定描述,从根源上减少对单一 caption-image 配对的依赖。\(J\) 保持较小以避免组合爆炸;若无可靠检测框则 \(V = \{p\}\) 退化为原始训练,保证回退安全性
ADMCD(Attention-Driven Multimodal Copy Detection)¶
- 三流特征提取:(1)ViT [4] patch 级局部视觉描述子 \(\mathbf{f}^{\text{vis}} \in \mathbb{R}^d\),捕捉空间布局和几何结构;(2)CLIP [15] 全局语义描述子 \(\mathbf{f}^{\text{clip}} \in \mathbb{R}^d\),提供颜色/光照不变的语义表征;(3)ResNet [6] 纹理描述子 \(\mathbf{f}^{\text{tex}} \in \mathbb{R}^d\),编码低级纹理和噪声韧性
- 注意力融合:三流经线性投影到共享维度空间后堆叠,通过轻量 Transformer 编码器进行注意力融合,L2 归一化得到最终嵌入:\(\hat{\mathbf{f}}_{\text{fus}}(X) = \text{Attn}([\mathbf{f}^{\text{vis}}; \mathbf{f}^{\text{clip}}; \mathbf{f}^{\text{tex}}]) / \|\cdot\|_2\)
- 第一阶段——复制判定:计算融合余弦相似度 \(S_{\text{fus}} = \cos(\hat{\mathbf{f}}_{\text{fus}}(G), \hat{\mathbf{f}}_{\text{fus}}(R))\),若 \(S_{\text{fus}} > \tau_1 = 0.938\) 则标记为复制
- 第二阶段——复制类型分类:对标记为复制的对,计算流级相似度并加权:\(\bar{S} = 0.24 S_{\text{vis}} + 0.38 S_{\text{clip}} + 0.38 S_{\text{tex}}\);\(\bar{S} > \tau_2 = 0.970\) 判定为 Retrieve/Exact 复制,否则为 Style 复制
- 零训练部署:无需任务特定训练数据,阈值 \((\tau_1, \tau_2)\) 和权重 \((\omega_1, \omega_2, \omega_3)\) 由验证集网格搜索一次性确定后固定,测试时保持不变
实验关键数据¶
数据集:LAION-10k;评估集 1,200 对(约25对 retrieve/exact + 约200对 style + 约1,000对 non-copy);5名标注者人工判定复制类型。
Copy Rate 比较(ADMCD 检测,越低越好)¶
| 方法 | Copy Rate | FID | CLIP Score | KID |
|---|---|---|---|---|
| DCR [20] | 3.2 | 7.9 | 30.5 | 2.9 |
| LDM-T2I [2] | 5.3 | 10.4 | 33.2 | 3.1 |
| SD2.1-base [22] | 7.4 | 8.3 | 27.8 | 3.3 |
| RAPTA (本文) | 2.6 | 8.1 | 23.1 | 1.6 |
- RAPTA 相比三个 baseline 分别降低复制率 18.8%、50.9%、64.9%(绝对降低 0.6、2.7、4.8 个百分点)
- FID/KID 保持可比或更优(KID 1.6 vs 2.9–3.3),CLIP Score 略低(23.1 vs 27.8–33.2),反映抑制复制与精确文图对齐之间的 trade-off
噪声鲁棒性(ADMCD vs 单模态指标)¶
| 方法 | 原始 | 高斯噪声 | 高斯模糊 | 泊松 | 椒盐 | 斑点 |
|---|---|---|---|---|---|---|
| LPIPS [25] | 0.233 | 0.444 | 0.335 | 0.375 | 0.612 | 0.569 |
| SSIM [23] | 0.677 | 0.504 | 0.664 | 0.591 | 0.389 | 0.407 |
| SSCD [13] | 0.680 | 0.594 | 0.443 | 0.429 | 0.485 | 0.407 |
| DreamSim [5] | 0.857 | 0.781 | 0.714 | 0.691 | 0.689 | 0.707 |
| ADMCD | 0.974 | 0.923 | 0.940 | 0.929 | 0.871 | 0.894 |
几何鲁棒性¶
| 方法 | 裁剪20% | 水平翻转 | 垂直翻转 | 遮挡10% | 旋转30° |
|---|---|---|---|---|---|
| SSIM [23] | 0.570 | 0.556 | 0.427 | 0.642 | 0.207 |
| SSCD [13] | 0.577 | 0.404 | 0.464 | 0.391 | 0.489 |
| DreamSim [5] | 0.617 | 0.524 | 0.564 | 0.691 | 0.689 |
| ADMCD | 0.970 | 0.886 | 0.857 | 0.748 | 0.939 |
- 互补机制:ViT 提供空间锚点、CLIP 提供颜色/光照不变性、CNN 提供噪声/模糊韧性,注意力融合自动降低失效流的权重,使得没有单一弱点主导最终得分
Top-5 检索分析¶
- ADMCD 融合相似度在 Top-5 候选上排名最清晰稳定(R1 得分 0.959 远高于 R2–R5 的 0.850–0.878),单模态方法得分差距小(如 SSIM 中 R1=0.486 vs R5=0.631 甚至倒序),使阈值决策不可靠
- 唯一能同时检测复制并区分 retrieve/exact vs style 两种复制类型的方法
亮点¶
- 训练时+推理时双管齐下:RAPTA 从源头减少记忆化,ADMCD 在输出端检测复制,形成完整管线,可无缝集成到现有扩散 pipeline
- 语义锚定的 prompt 变体:不同于随机扰动(语义漂移风险),RAPTA 利用检测器 proposals + CLIP 一致性打分,保证每个变体都是图像的合理描述,且 CLIP 加权采样使高质量变体被更频繁选中
- 零训练的多模态复制检测:ADMCD 无需大规模标注,两个固定阈值即可区分 retrieve/style 两种复制类型,部署即用
- 三流注意力融合作为通用相似度度量:本身也是一种更优的图像相似度指标,在 10 种噪声/几何攻击下比 SSIM/LPIPS/DreamSim/SSCD 更贴近人类感知,保持单一阈值对即可跨条件工作
- 可解释的复制分类:通过三流各自的相似度贡献,可以诊断复制类型的来源(纹理相似 vs 语义相似 vs 结构相似),为下游分析提供可操作信号
局限性¶
- 评估集仅 1,200 对(其中 retrieve/exact 仅约 25 对),规模较小,统计稳健性有限;近似复制本身稀有使得收集更多正样本困难
- RAPTA 依赖预训练 Faster R-CNN 的覆盖范围,对检测器无法识别的罕见物体(如抽象艺术作品)可能失效
- CLIP Score 下降(23.1 vs 27.8–33.2)反映 prompt 多样化与精确文图对齐之间的 trade-off 尚未完全解决
- ADMCD 的阈值 \(\tau_1, \tau_2\) 在不同数据域迁移时可能需要重新校准,论文仅在 LAION-10k 上验证
- 缺乏与其他训练时缓解策略(如数据去重、差分隐私训练)的组合实验
相关工作¶
- 扩散模型基础:DDPM [8] 提出通过学习逆向递进腐蚀过程实现高保真生成,Latent Diffusion [17] 在压缩潜在空间中操作以提高效率
- 记忆化研究:[9, 20, 21] 系统记录了扩散模型在小/大规模检索中复制训练数据的行为,[1] 从扩散模型中提取训练数据引发安全关注
- 推理时缓解:随机 token 插入、BLIP 改写 [10]、CLIP embedding 加噪 [9];训练时方案包括 GLIGEN [11]/ControlNet [24] 式显式目标/位置条件化
- 复制检测:经典 copy-move 取证(SIFT/SURF/ORB)[18]、学习型指纹 SSCD [13]、感知距离 LPIPS [25]/DISTS [3]/DreamSim [5],均为单流且难以区分复制类型
- 鲁棒性基准:ImageNet-C [7] 揭示了感知指标在噪声/模糊/天气攻击下的脆弱性
评分¶
- 新颖性: ⭐⭐⭐⭐ 训练时区域感知 prompt 增强 + 推理时多模态融合检测的组合方案新颖,两级阈值复制分类实用
- 实验充分度: ⭐⭐⭐ 三个 backbone 对比+10种攻击鲁棒性测试充分,但评估集规模偏小(尤其 retrieve/exact 仅25对)
- 写作质量: ⭐⭐⭐⭐ 结构清晰,pipeline 图直观,算法伪代码完整
- 价值: ⭐⭐⭐⭐ 对扩散模型版权保护具有实用意义,ADMCD 作为通用相似度度量也有独立价值