Dual Diffusion for Unified Image Generation and Understanding¶

会议: CVPR 2025
arXiv: 2501.00289
代码: 无
领域: 多模态VLM / 扩散模型
关键词: 多模态扩散, 图文统一模型, 离散扩散, 流匹配, 视觉问答

一句话总结¶

提出 D-DiT（Dual Diffusion Transformer），首个完全端到端的多模态扩散模型，在图像分支用连续流匹配、文本分支用离散掩码扩散，统一损失函数下同时训练图像生成和文本理解。

领域现状：扩散模型在文生图领域占据主导，自回归模型在视觉语言理解方面表现卓越。两者能否统一成一个双向模型？

现有痛点：现有多模态扩散模型要么文本推理能力有限（UniDiffuser 需要 AR 解码器将扩散文本 latent 转文本），要么本质上仍依赖自回归模型做文本生成（Show-O、Transfusion）。

核心矛盾：之前缺乏经验上可行的离散文本扩散过程，限制了纯扩散模型进行语言建模。

本文目标：构建首个纯扩散的端到端多模态模型，同时支持图像生成、图像描述和视觉问答。

核心 idea：基于 MM-DiT 架构，图像分支用 flow matching 做连续扩散，文本分支用 masked diffusion 做离散扩散，联合训练。

D-DiT 基于 SD3 的 MM-DiT 架构，双分支 Transformer：图像分支输出 velocity field 预测，文本分支输出 denoised token 预测。训练时交替做图像去噪（文本干净）和文本去噪（图像干净），推理时可分别执行 T2I 和 I2T 任务。

图像-文本联合扩散损失:
- 功能：统一训练图像和文本的条件生成
- 核心思路：\(L_{dual} = L_{image} + \lambda_{text} L_{text}\)，其中图像用 flow matching MSE 损失，文本用 masked diffusion 的 NELBO 损失。训练时仅对被条件的一侧加噪——做图像扩散时文本干净，做文本扩散时图像干净
- 设计动机：简单优雅，反向传播通过 DiT 的两个分支联合优化
文本的可控填充推理:
- 功能：实现视觉问答任务
- 核心思路：VQA 任务中，问题 token 保持不变（不加噪），仅对答案位置的 token 进行掩码扩散采样。这利用了掩码扩散天然的文本填充能力
- 设计动机：前代扩散模型无法做 VQA，而掩码扩散允许条件性填充
从预训练 SD3 初始化:
- 功能：快速适配文本生成能力
- 核心思路：从 SD3 预训练权重初始化 DiT，在文本分支上加线性头用于 token 预测。利用 T5 的特殊 token 作为掩码 token，第二阶段解冻其 embedding
- 设计动机：仅需约 25B text tokens 即可展现有意义的文本输出，展示了极快的适配能力

三阶段训练：(1) 在 Datacomp-1b 上预训练 60K 步；(2) 在高质量理解数据上续训 200K 步，可选 512 分辨率微调；(3) 在 LLaVA 指令数据上微调 50K 步。总共约 40M 图文对。