EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models¶

会议: ECCV 2024
arXiv: 2410.09802
代码: 无
领域: 图像生成
关键词: 样例引导图像翻译, 布朗桥扩散模型, 纹理迁移, 条件图像生成, 风格控制

一句话总结¶

提出 EBDM 框架，将样例引导的图像翻译建模为随机布朗桥扩散过程，从结构控制直接翻译为真实感图像，通过 Global Encoder、Exemplar Network 和 Exemplar Attention Module 三个组件有效整合样例的全局风格和细节纹理信息。

研究背景与动机¶

样例引导的图像翻译（Exemplar-guided Image Translation）旨在生成同时符合结构控制（语义分割图、边缘图、姿态关键点）和风格样例的真实感图像，在用户可控的风格操作中具有重要应用价值。

现有方法面临三大挑战：

1. 密集对应的局限：主流方法（CoCosNet、RABIT 等）依赖建立跨域输入间的密集对应关系，但这带来二次方的内存和计算开销，且在稀疏对应场景（如语义分割图到真实图像）中匹配质量差，导致局部扭曲和语义不一致。

2. 文本提示的不足：虽然扩散模型在文本到图像生成中表现出色，但很难用文本准确描述图像的每一个细节（特别是纹理、颜色等视觉属性），且 CLIP 嵌入不足以捕获所有视觉细节。

3. 多条件的敏感性：现有基于扩散的方法（如 ControlNet + IP-Adapter 组合）同时使用结构控制和风格条件时，对引导尺度等超参数极其敏感，难以稳定生成。

EBDM 的核心创新在于：利用布朗桥扩散过程将结构控制作为扩散的固定起点，直接翻译为真实感图像，无需额外的结构条件注入机制。这使得网络可以专注于学习样例风格信息的融合，训练和推理更加稳健。

方法详解¶

整体框架¶

EBDM 基于 Stable Diffusion 框架的布朗桥扩散模型（BBDM），包含三个核心组件：

去噪 U-Net：基于布朗桥过程直接学习从结构控制到真实图像的翻译
Global Encoder：使用 DINOv2 提取样例图像的全局风格信息
Exemplar Network + Exemplar Attention Module：提取并融合样例图像的细节纹理信息

布朗桥扩散 vs 标准扩散的关键区别： - 标准 DDPM：$x_T \sim \mathcal{N}(0, I)$（终点是纯高斯噪声） - 布朗桥：$(x_T, x_0) \sim q_{\text{data}}(\mathcal{X}, \mathcal{Y})$（两个端点都是固定数据点）

具体来说，$x_T = z_\mathcal{X}$ 是结构控制的潜码，$x_0 = z_{\mathcal{X} \to \mathcal{Y}}$ 是目标图像的潜码。前向过程为：

\[q(x_t | x_0, y) = \mathcal{N}(x_t; (1-m_t)x_0 + m_t y, \delta_t I)\]

其中 $m_t = t/T$，$\delta_t = 2(m_t - m_t^2)$。这意味着去噪 U-Net 直接学习从结构控制到图像的翻译，无需显式的结构条件注入。

关键设计¶

1. Global Encoder（全局风格编码）

选择 DINOv2（而非 CLIP）作为全局风格编码器，因为： - DINOv2 的自监督学习策略使其在捕获语义特征方面优于 CLIP - 本方法不需要文本-图像对齐，CLIP 的文本对齐能力在此场景无优势

处理方式： $$\tau_\theta(I_\mathcal{Y}) = \text{Linear}(\text{DINO}(I_\mathcal{Y})_{[\text{CLS}]}) \in \mathbb{R}^c$$

提取 DINO 的 [CLS] token 通过线性层映射，作为全局风格信息通过交叉注意力机制注入去噪过程。

2. Exemplar Network（细节纹理网络）

Global Encoder 受限于输入分辨率（$224^2$），无法保留细粒度纹理细节。因此引入 Exemplar Network $\psi_\theta$：

采用与去噪 U-Net 类似的 siamese 结构，移除冗余层以提高效率
将样例图像 $z_\mathcal{Y}$ 编码为多层特征图 $\{F_1^l\}_{l=0}^N$
在每个块中通过交叉注意力接收全局风格信息

3. Exemplar Attention Module（样例注意力模块）

由于样例图像和目标控制不是空间对齐的，简单的拼接或相加不适用。提出空间注意力融合方案：

将样例特征 $F_1^l$ 和去噪特征 $F_2^l$ 在空间维度拼接：$F_{\text{in}}^l = \text{concat}(F_1^l, F_2^l) \in \mathbb{R}^{C \times H \times 2W}$
对拼接特征施加自注意力，使去噪特征能够查询样例中的相关纹理
通过 Chunk 操作提取对应去噪特征部分作为输出

\[Q = \phi_q^l(F_{\text{in}}^l), \quad K = \phi_k^l(F_{\text{in}}^l), \quad V = \phi_v^l(F_{\text{in}}^l)\]

\[F_{\text{EA}}^l = W^l \text{Softmax}(QK^T / \sqrt{V}) V + F_{\text{in}}^l\]

这种设计既避免了密集对应匹配的高开销，又允许模型自适应地从样例中选取相关纹理。

损失函数 / 训练策略¶

两阶段训练：

第一阶段：训练去噪 U-Net + Global Encoder 的交叉注意力，学习从控制到图像的翻译 + 粗略样例风格融合。使用重建任务（目标图像本身作为样例），冻结 VAE 和 Global Encoder 预训练参数
第二阶段：引入 Exemplar Network 和 Exemplar Attention Module，冻结第一阶段的参数，专注训练细节纹理整合。使用预定义的样例-目标对

训练目标：

\[\mathbb{E}_{x_0, y, I_\mathcal{Y}, \epsilon}[c_{\epsilon t} \| m_t(x_T - x_0) + \sqrt{\delta_t}\epsilon - \epsilon_\theta(x_t, t, \tau_\theta(I_\mathcal{Y}), \psi_\theta(z_\mathcal{Y}, \tau_\theta(I_\mathcal{Y}))) \|^2]\]

推理：使用确定性 ODE 采样器，从结构控制起点开始逐步去噪，仅需单一的样例条件。

实验关键数据¶

主实验¶

图像质量对比（FID ↓ / SWD ↓ / LPIPS ↑，三个任务）：

方法	DeepFashion FID	CelebA-HQ Edge FID	CelebA-HQ Mask FID
CoCosNet	14.40	14.30	21.83
CoCosNetv2	12.81	12.85	20.64
RABIT	12.58	11.67	20.44
MIDMs	10.89	15.67	N/A
EBDM (Ours)	10.62	11.84	12.21

与 SOTA 扩散方法对比（CelebA-HQ Edge）：

方法	SSIM ↑	PSNR ↑
ControlNet	0.882	35.30
ControlNet+CLIP	0.894	35.94
EBDM (Ours)	0.901	36.40

消融实验¶

Global Encoder 选择对比（CelebA-HQ Edge）：

配置	SSIM ↑	FID ↓	Sem. ↑
Baseline (无全局编码)	0.831	16.31	0.531
+ CLIP	0.632	23.42	0.752
+ DINO	0.754	21.32	0.786
完整方法 (EBDM)	0.901	11.84	0.920

CLIP 作全局编码器反而大幅降低 SSIM（从 0.831 降到 0.632），因为其文本对齐特性在此任务中并非优势。DINOv2 配合完整框架效果最优。

关键发现¶

布朗桥扩散的根本优势：将结构控制作为扩散端点而非额外条件，使模型天然保持结构一致性，释放条件容量给风格融合
DINOv2 优于 CLIP 做视觉风格编码：自监督学习特征在细粒度视觉相似性上显著优于对比学习特征
在 mask-to-photo 任务上优势最大（FID 12.21 vs 次优 20.44）：因为匹配方法在语义分割图上难以建立有效对应，而扩散方法通过迭代去噪自然处理
单一条件的鲁棒性：相比 ControlNet + IP-Adapter 的多条件组合，EBDM 仅用样例条件就实现更好效果，且无超参敏感问题

亮点与洞察¶

布朗桥扩散的巧妙应用：将图像翻译自然表述为两个固定端点间的随机过程，避免了结构条件注入的复杂性，是比 ControlNet 更优雅的结构保持方案
摆脱密集对应匹配范式：证明了扩散框架可以完全替代"先匹配后生成"的传统流水线，计算效率和生成质量同时提升
Global + Local 的互补设计：DINOv2 [CLS] 抓全局风格，Exemplar Network 抓局部纹理，双路径互补
Exemplar Attention 的空间自注意力融合：解决了非对齐特征整合的核心挑战

局限与展望¶

仅在人脸（CelebA-HQ）和时装（DeepFashion）数据集上验证，未测试更复杂的场景级任务
语义一致性分数（Tab. 4）在部分指标上不如 DynaST 等方法，可能因为布朗桥的随机性引入了一些变异
两阶段训练增加了实现复杂度
Exemplar Attention Module 的空间拼接在高分辨率下显存开销可能较大
未探索视频序列的时间一致性扩展

评分¶

新颖性：⭐⭐⭐⭐⭐ — 布朗桥在样例引导翻译中的首次应用，框架设计优雅
技术深度：⭐⭐⭐⭐ — 三组件各有章法，消融实验清晰验证每个设计选择
实验充分度：⭐⭐⭐⭐ — 三个任务 + 多个基线对比 + 消融
实用价值：⭐⭐⭐⭐ — 虚拟试衣、人脸编辑等场景有直接应用
总体推荐：⭐⭐⭐⭐