跳转至

Universal Multi-Domain Translation via Diffusion Routers

会议: ICLR 2026
arXiv: 2510.03252
代码: 未公开
领域: image translation / diffusion(被分到 segmentation 分区)
关键词: multi-domain translation, diffusion model, routing, Tweedie refinement, cross-domain, variational bound

一句话总结

提出 Diffusion Router (DR),一个统一的扩散模型框架,仅用 \(K-1\) 个与中心域配对的数据集,通过单个噪声预测网络配合源域/目标域标签条件化,实现任意 \(K\) 个域之间的间接和直接翻译,并提出 Tweedie 精炼采样降低计算成本。

背景与动机

  1. 多域翻译(MDT)旨在学习多个域之间的映射,但需要全对齐的元组或仅支持训练时见过的域对
  2. 全对齐元组随域数增长难以收集(如图文音三模态很难同时对齐)
  3. 已有配对数据通常共享一个中心域(如文本),但非中心域之间的翻译未被解决
  4. 为每个域对训练独立模型不可扩展 (\(2(K-1)\) 个模型)
  5. 间接翻译(经中心域中转)计算昂贵且对中间样本质量敏感
  6. 严格要求全对齐数据排除了许多实际可行的跨域映射

方法详解

问题形式化 — Universal MDT (UMDT): - \(K\) 个域,\(K-1\) 个配对数据集(星型拓扑,共享中心域 \(X^c\)) - 目标:任意域对 \((X^i, X^j)\) 之间翻译

Diffusion Router — 间接翻译: - 单个噪声预测网络 \(\epsilon_\theta(x_t^{tgt}, t, x^{src}, tgt, src)\),条件化源域和目标域标签 - 训练目标:对所有 \(k \neq c\) 的配对数据联合训练 - 非中心域翻译:\(X^i \to X^c \to X^j\)(两阶段采样)

直接翻译 — 变分上界: - 最小化 \(D_{KL}(p(x^j|x^c) \| p_\theta(x^j|x^i))\) - 本质:让给定 \(x^i\) 的条件分布对齐给定配对 \(x^c\) 的条件分布 - 损失 \(\mathcal{L}_{final} = \lambda_1 \mathcal{L}_{unpaired} + \lambda_2 \mathcal{L}_{paired}\)

Tweedie Refinement: - 轻量采样:\(x_{t,(n+1)}^j = x_{t,(n)}^j + \sigma_t(\epsilon - \epsilon_\theta(...))\) - 仅需少量步骤即可将无条件样本转化为条件样本 - 替代昂贵的完整去噪采样

实验关键数据

Shoes-UMDT (FID↓): | 方法 | Edge↔Shoe | Gray↔Shoe | Edge↔Gray | |------|-----------|-----------|-----------| | UniDiffuser | 2.98/11.94 | 2.72/4.40 | 4.81/12.26 | | iDR | 1.66/5.15 | 0.53/1.60 | 1.85/5.48 |

Faces-UMDT-Latent (FID↓): | 方法 | Ske↔Face | Seg↔Face | Ske↔Seg | |------|---------|---------|-----------| | UniDiffuser | 13.13/55.46 | 11.02/46.04 | 36.13/12.52 | | iDR | 9.07/23.88 | 6.12/19.12 | 15.37/6.15 |

  • 在三个新基准(Shoes/Faces/COCO-UMDT)上全面超越 GAN/Flow/Diffusion 基线
  • 解锁新任务如 sketch↔segmentation(无直接配对数据)
  • 支持星型和链型等多中心域拓扑

亮点

  • 路由器类比: 网络路由器的源/目标 IP ↔ 源/目标域标签,概念直觉
  • 单网络覆盖所有翻译: 避免 \(2(K-1)\) 个模型的冗余
  • Tweedie 精炼: 训练阶段高效采样条件样本的新方法
  • 可扩展到生成树拓扑: 不限于星型,支持多中心域

局限性

  • 条件独立假设 \(X^i \perp X^j | X^c\) 在实际中可能不成立
  • 变分近似引入偏差,尤其当 \(p(x'^c | x^i)\) 不够尖锐时
  • 实验域数量较少(3-4个域),更多域时的扩展性未充分验证
  • 图像分辨率较低(64×64/128×128),高分辨率效果未知

相关工作

  • StarGAN/StarGAN-v2: 多域图像翻译 GAN 方法
  • UniDiffuser: 统一扩散模型处理多模态
  • Rectified Flow/Diffusion Bridge: 扩散桥和整流流方法
  • Pix2Pix/Edges2Shoes: 经典配对图像翻译

评分

  • 新颖性: ⭐⭐⭐⭐ (UMDT 问题定义 + Tweedie 精炼)
  • 实验充分度: ⭐⭐⭐⭐ (3个新基准 + 消融)
  • 写作质量: ⭐⭐⭐⭐ (数学推导完整)
  • 价值: ⭐⭐⭐⭐ (多域翻译的统一框架)