EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models¶
会议: ECCV 2024
arXiv: 2410.09802
代码: 无
领域: 图像生成
关键词: 样例引导图像翻译, 布朗桥扩散模型, 纹理迁移, 条件图像生成, 风格控制
一句话总结¶
提出 EBDM 框架,将样例引导的图像翻译建模为随机布朗桥扩散过程,从结构控制直接翻译为真实感图像,通过 Global Encoder、Exemplar Network 和 Exemplar Attention Module 三个组件有效整合样例的全局风格和细节纹理信息。
研究背景与动机¶
样例引导的图像翻译(Exemplar-guided Image Translation)旨在生成同时符合结构控制(语义分割图、边缘图、姿态关键点)和风格样例的真实感图像,在用户可控的风格操作中具有重要应用价值。
现有方法面临三大挑战:
1. 密集对应的局限:主流方法(CoCosNet、RABIT 等)依赖建立跨域输入间的密集对应关系,但这带来二次方的内存和计算开销,且在稀疏对应场景(如语义分割图到真实图像)中匹配质量差,导致局部扭曲和语义不一致。
2. 文本提示的不足:虽然扩散模型在文本到图像生成中表现出色,但很难用文本准确描述图像的每一个细节(特别是纹理、颜色等视觉属性),且 CLIP 嵌入不足以捕获所有视觉细节。
3. 多条件的敏感性:现有基于扩散的方法(如 ControlNet + IP-Adapter 组合)同时使用结构控制和风格条件时,对引导尺度等超参数极其敏感,难以稳定生成。
EBDM 的核心创新在于:利用布朗桥扩散过程将结构控制作为扩散的固定起点,直接翻译为真实感图像,无需额外的结构条件注入机制。这使得网络可以专注于学习样例风格信息的融合,训练和推理更加稳健。
方法详解¶
整体框架¶
EBDM 基于 Stable Diffusion 框架的布朗桥扩散模型(BBDM),包含三个核心组件:
- 去噪 U-Net:基于布朗桥过程直接学习从结构控制到真实图像的翻译
- Global Encoder:使用 DINOv2 提取样例图像的全局风格信息
- Exemplar Network + Exemplar Attention Module:提取并融合样例图像的细节纹理信息
布朗桥扩散 vs 标准扩散的关键区别: - 标准 DDPM:\(x_T \sim \mathcal{N}(0, I)\)(终点是纯高斯噪声) - 布朗桥:\((x_T, x_0) \sim q_{\text{data}}(\mathcal{X}, \mathcal{Y})\)(两个端点都是固定数据点)
具体来说,\(x_T = z_\mathcal{X}\) 是结构控制的潜码,\(x_0 = z_{\mathcal{X} \to \mathcal{Y}}\) 是目标图像的潜码。前向过程为:
其中 \(m_t = t/T\),\(\delta_t = 2(m_t - m_t^2)\)。这意味着去噪 U-Net 直接学习从结构控制到图像的翻译,无需显式的结构条件注入。
关键设计¶
1. Global Encoder(全局风格编码)
选择 DINOv2(而非 CLIP)作为全局风格编码器,因为: - DINOv2 的自监督学习策略使其在捕获语义特征方面优于 CLIP - 本方法不需要文本-图像对齐,CLIP 的文本对齐能力在此场景无优势
处理方式: $\(\tau_\theta(I_\mathcal{Y}) = \text{Linear}(\text{DINO}(I_\mathcal{Y})_{[\text{CLS}]}) \in \mathbb{R}^c\)$
提取 DINO 的 [CLS] token 通过线性层映射,作为全局风格信息通过交叉注意力机制注入去噪过程。
2. Exemplar Network(细节纹理网络)
Global Encoder 受限于输入分辨率(\(224^2\)),无法保留细粒度纹理细节。因此引入 Exemplar Network \(\psi_\theta\):
- 采用与去噪 U-Net 类似的 siamese 结构,移除冗余层以提高效率
- 将样例图像 \(z_\mathcal{Y}\) 编码为多层特征图 \(\{F_1^l\}_{l=0}^N\)
- 在每个块中通过交叉注意力接收全局风格信息
3. Exemplar Attention Module(样例注意力模块)
由于样例图像和目标控制不是空间对齐的,简单的拼接或相加不适用。提出空间注意力融合方案:
- 将样例特征 \(F_1^l\) 和去噪特征 \(F_2^l\) 在空间维度拼接:\(F_{\text{in}}^l = \text{concat}(F_1^l, F_2^l) \in \mathbb{R}^{C \times H \times 2W}\)
- 对拼接特征施加自注意力,使去噪特征能够查询样例中的相关纹理
- 通过 Chunk 操作提取对应去噪特征部分作为输出
这种设计既避免了密集对应匹配的高开销,又允许模型自适应地从样例中选取相关纹理。
损失函数 / 训练策略¶
两阶段训练:
- 第一阶段:训练去噪 U-Net + Global Encoder 的交叉注意力,学习从控制到图像的翻译 + 粗略样例风格融合。使用重建任务(目标图像本身作为样例),冻结 VAE 和 Global Encoder 预训练参数
- 第二阶段:引入 Exemplar Network 和 Exemplar Attention Module,冻结第一阶段的参数,专注训练细节纹理整合。使用预定义的样例-目标对
训练目标:
推理:使用确定性 ODE 采样器,从结构控制起点开始逐步去噪,仅需单一的样例条件。
实验关键数据¶
主实验¶
图像质量对比(FID ↓ / SWD ↓ / LPIPS ↑,三个任务):
| 方法 | DeepFashion FID | CelebA-HQ Edge FID | CelebA-HQ Mask FID |
|---|---|---|---|
| CoCosNet | 14.40 | 14.30 | 21.83 |
| CoCosNetv2 | 12.81 | 12.85 | 20.64 |
| RABIT | 12.58 | 11.67 | 20.44 |
| MIDMs | 10.89 | 15.67 | N/A |
| EBDM (Ours) | 10.62 | 11.84 | 12.21 |
与 SOTA 扩散方法对比(CelebA-HQ Edge):
| 方法 | SSIM ↑ | PSNR ↑ |
|---|---|---|
| ControlNet | 0.882 | 35.30 |
| ControlNet+CLIP | 0.894 | 35.94 |
| EBDM (Ours) | 0.901 | 36.40 |
消融实验¶
Global Encoder 选择对比(CelebA-HQ Edge):
| 配置 | SSIM ↑ | FID ↓ | Sem. ↑ |
|---|---|---|---|
| Baseline (无全局编码) | 0.831 | 16.31 | 0.531 |
| + CLIP | 0.632 | 23.42 | 0.752 |
| + DINO | 0.754 | 21.32 | 0.786 |
| 完整方法 (EBDM) | 0.901 | 11.84 | 0.920 |
CLIP 作全局编码器反而大幅降低 SSIM(从 0.831 降到 0.632),因为其文本对齐特性在此任务中并非优势。DINOv2 配合完整框架效果最优。
关键发现¶
- 布朗桥扩散的根本优势:将结构控制作为扩散端点而非额外条件,使模型天然保持结构一致性,释放条件容量给风格融合
- DINOv2 优于 CLIP 做视觉风格编码:自监督学习特征在细粒度视觉相似性上显著优于对比学习特征
- 在 mask-to-photo 任务上优势最大(FID 12.21 vs 次优 20.44):因为匹配方法在语义分割图上难以建立有效对应,而扩散方法通过迭代去噪自然处理
- 单一条件的鲁棒性:相比 ControlNet + IP-Adapter 的多条件组合,EBDM 仅用样例条件就实现更好效果,且无超参敏感问题
亮点与洞察¶
- 布朗桥扩散的巧妙应用:将图像翻译自然表述为两个固定端点间的随机过程,避免了结构条件注入的复杂性,是比 ControlNet 更优雅的结构保持方案
- 摆脱密集对应匹配范式:证明了扩散框架可以完全替代"先匹配后生成"的传统流水线,计算效率和生成质量同时提升
- Global + Local 的互补设计:DINOv2 [CLS] 抓全局风格,Exemplar Network 抓局部纹理,双路径互补
- Exemplar Attention 的空间自注意力融合:解决了非对齐特征整合的核心挑战
局限与展望¶
- 仅在人脸(CelebA-HQ)和时装(DeepFashion)数据集上验证,未测试更复杂的场景级任务
- 语义一致性分数(Tab. 4)在部分指标上不如 DynaST 等方法,可能因为布朗桥的随机性引入了一些变异
- 两阶段训练增加了实现复杂度
- Exemplar Attention Module 的空间拼接在高分辨率下显存开销可能较大
- 未探索视频序列的时间一致性扩展
相关工作与启发¶
- BBDM:本文首次将布朗桥扩散模型应用于样例引导图像翻译,证明了该扩散范式在跨域翻译中的优势
- ControlNet / IP-Adapter:虽然灵活,但多条件组合的超参敏感性是实际部署的瓶颈,EBDM 的单条件设计更稳健
- CoCosNet 系列:建立了"匹配-生成"范式,但 EBDM 证明了不需要显式匹配也能实现甚至超越其效果
- 启发:布朗桥扩散过程可推广到其他跨域翻译任务(语义 → 真实、草图 → 照片、白天 → 夜晚等)
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 布朗桥在样例引导翻译中的首次应用,框架设计优雅
- 技术深度:⭐⭐⭐⭐ — 三组件各有章法,消融实验清晰验证每个设计选择
- 实验充分度:⭐⭐⭐⭐ — 三个任务 + 多个基线对比 + 消融
- 实用价值:⭐⭐⭐⭐ — 虚拟试衣、人脸编辑等场景有直接应用
- 总体推荐:⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] Diffusion-based Image-to-Image Translation by Noise Correction via Prompt Interpolation
- [NeurIPS 2025] Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge
- [ECCV 2024] LivePhoto: Real Image Animation with Text-guided Motion Control
- [ECCV 2024] Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation
- [ECCV 2024] Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models