Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion¶

日期: 2026-03-06
arXiv: 2603.06577
代码: https://omni-diffusion.github.io
领域: 图像生成
关键词: discrete diffusion, multimodal, any-to-any, mask-based generation, unified model

一句话总结¶

首个基于 mask-based 离散扩散模型的 any-to-any 多模态语言模型——Omni-Diffusion 通过统一的 mask token 预测直接建模文本/图像/语音的联合分布，配合三阶段渐进训练和专用推理策略，在多模态理解和生成任务上达到可比甚至超越自回归方法的性能。

研究背景与动机¶

领域现状：多模态大模型（MLLMs）几乎全部采用自回归架构作为 backbone。虽然离散扩散模型在 NLP 和图像生成各自领域已展示潜力，但尚未被用于构建统一的多模态系统。
现有痛点：(a) 自回归模型逐 token 解码效率低，无法并行生成；(b) 现有 any-to-any 模型（如 NExT-GPT）用 LLM 生成文本，再用额外模型转换到其他模态——不是真正统一的表示空间；(c) 离散扩散的灵活性优势（控制生成结构、格式、风格）在多模态设置中未被探索。
核心矛盾：要实现真正的 any-to-any 多模态统一模型，需要一个能在同一框架下处理理解和生成、同时支持多种模态的 backbone——自回归架构有天然局限（顺序生成、无法控制生成顺序）。
切入角度：mask-based 离散扩散模型天然适合多模态统一——它通过 mask token 预测工作，对所有模态的离散 token 一视同仁，还支持并行解码和灵活控制生成。
核心 idea：用 mask-based 离散扩散模型（Dream-7B）作为 backbone，直接建模文本+图像+语音离散 token 的联合分布，实现统一的多模态理解和生成。

方法详解¶

整体框架¶

多模态输入（文本/图像/语音）→ 各自分词器转为离散 token（文本词表 + MAGVIT-v2 图像 8192 码本 + GLM-4-Voice 语音 16384 码本）→ 拼接为统一序列 + 特殊起止 token → mask-based 离散扩散模型（Dream-7B）做统一 mask token 预测 → 输出所需模态 token → 各自解码器重建。

关键设计¶

统一 mask token 预测:
- 做什么：在一个框架下对所有模态执行相同的 mask-unmask 训练
- 核心思路：对统一序列 \(x_0\) 按随机比率 \(r\)（从时间步 \(t \sim [0,1]\) 导出）替换为 [MASK]，模型预测原始 token。Loss: \(L = -\mathbb{E}[\sum_i \mathbb{I}[x_t^i = \text{MASK}] \log p_\theta(x_0^i | x_t)]\)
- 设计动机：无模态特定优化，所有模态在同一表示空间中自动对齐
三阶段渐进训练:
- Stage 1（视觉-语言预对齐）：文本↔图像任务（T2I + captioning）
- Stage 2（语音-视觉-语言联合对齐）：加入 ASR + TTS 数据
- Stage 3（语音驱动视觉交互）：用构造的 SDVI 数据集（>30K spoken VQA + 30K speech-to-image）
- 设计动机：不同模态的数据分布差异大，渐进扩展保证训练稳定性
推理优化策略:
- Position Penalty：早期推理阶段降低序列尾部 token 的 logits，防止首尾同时解码导致图像重复模式
- Special Token Pre-infilling：在初始 mask 序列的 0.25L 处填入 [begin-of-speech]，使模型前段生成文本、后段生成语音，实现文本语义引导语音生成
- Adaptive Token Length：根据文本/语音长度相关性自适应分配初始序列长度（TTS: 3.5×文本长, ASR: 0.2×语音长）
- Attenuated Tail-Pad Masking：训练时对 pad token 降低 mask 比率（γ<1），防止模型过拟合到生成 pad

损失函数¶

标准 cross-entropy mask token 预测 loss，无模态特定 loss。

实验关键数据¶

主实验（VQA + 图像生成）¶

方法	类型	POPE↑	MME-P↑	CLIP-T↑	CLIP-I↑
LLaVA	Visual LLM	76.3	809.6	-	-
InstructBLIP	Visual LLM	78.9	1212.8	-	-
AnyGPT	Any-to-Any	67.7	-	-	0.650
NExT-GPT	Any-to-Any	-	-	0.225	0.691
Omni-Diffusion	Any-to-Any	76.6	1216.7	0.235	0.667

语音任务¶

方法	LibriSpeech WER↓	LibriTTS WER↓
GLM-4-Voice	2.82	5.64
AnyGPT	8.50	-
Omni-Diffusion	7.05	3.07

关键发现¶

作为 any-to-any 模型，Omni-Diffusion 在 VQA 上达到专用 Visual LLM（InstructBLIP）水平（POPE 76.6 vs 78.9），远超其他 any-to-any 模型
TTS WER 3.07 接近专用 TTS 模型 CosyVoice（2.89），大幅超越语音 LLM
图像生成只需 10 步就保持不错质量（CLIP-T 0.226 vs 256 步 0.235），体现扩散模型并行解码优势
语音→图像和文本→图像生成质量相近（CLIP-I 0.645 vs 0.667），证明跨模态对齐有效

亮点与洞察¶

离散扩散作为统一多模态 backbone 的首次验证：证明了 mask-based diffusion 可以替代自回归架构做多模态 foundation model，开辟了新的架构范式
Position Penalty 和 Pre-infilling 策略巧妙利用了扩散模型的灵活性：自回归模型无法做到的"控制生成顺序"和"预填充中间 token"，是扩散模型的独特优势
少步推理保持质量：10 步就能生成合理图像，对比自回归模型需要逐 token 生成数百 token，效率优势明显

局限性 / 可改进方向¶

图像生成质量（CLIP-T 0.235）仍低于专用图像生成模型
基于 MAGVIT-v2 的图像 tokenizer 分辨率和质量受限
目前只支持文本/图像/语音三种模态，视频等未涵盖
Dream-7B backbone 的参数量限制了模型能力上限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个基于离散扩散的 any-to-any 多模态模型，架构范式创新
实验充分度: ⭐⭐⭐⭐ 覆盖语音/视觉/跨模态多个 benchmark，有采样效率分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，训练和推理策略讲解到位
价值: ⭐⭐⭐⭐⭐ 为多模态 foundation model 的架构选择提供了重要的新方向