MMaDA: Multimodal Large Diffusion Language Models¶

会议: NeurIPS 2025
arXiv: 2505.15809
代码: GitHub
领域: 扩散模型 / 多模态基础模型
关键词: 扩散语言模型, 多模态统一架构, UniGRPO, 混合长思维链, 离散扩散

一句话总结¶

提出 MMaDA，首个在统一离散扩散架构下同时实现文本推理、多模态理解和文本到图像生成的多模态基础模型，通过混合长 CoT 微调和 UniGRPO 强化学习算法弥合了扩散模型预训练与后训练之间的鸿沟。

研究背景与动机¶

多模态大模型正在经历架构范式的演进：

纯自回归（AR）：如 Emu3、Janus，用 next-token prediction 统一所有模态，架构简单但视觉生成质量受限

AR + 扩散（两个模型）：如 DreamLLM，文本用 AR、视觉用连续扩散，需要两个独立模型

AR + 扩散（一个模型）：如 Show-o、Transfusion，在单模型中混合 AR 和扩散目标，引入复杂的混合机制

然而现有统一多模态模型严重缺乏对后训练的探索——预训练后直接部署，没有经历 CoT 微调或强化学习。这在非自回归架构中尤为突出，因为将 AR 范式的 GRPO 直接搬到扩散模型面临三大技术障碍： 1. Token 级 log-likelihood 仅在掩码区域有效 2. 策略分布依赖于掩码率的采样 3. 序列级似然无法通过自回归链式法则累积

MMaDA 的核心定位：用纯扩散（离散）统一所有模态，并首次系统地为扩散基础模型设计完整的后训练流程。

方法详解¶

整体框架¶

MMaDA 的训练流程包含三个阶段： - Stage 1（预训练）：统一扩散目标，联合训练文本生成、类条件图像生成、图文理解（600K steps） - Stage 2（混合长 CoT 微调）：在跨模态 CoT 数据上微调，建立推理能力（50K steps） - Stage 3（UniGRPO 强化学习）：用多样化奖励进行 RL 训练（50K steps）

关键设计¶

统一离散扩散架构：以 LLaDA-8B 为骨干，将文本和图像都处理为离散 token 的掩码预测任务。图像用 MAGVIT-v2 量化为 \(32 \times 32 = 1024\) 个离散 token（codebook 大小 8192）。统一训练目标： \(\mathcal{L}_{\text{unify}}(\theta) = -\mathbb{E}_{t,x_0,x_t}\left[\frac{1}{t}\sum_{i=1}^L \mathbf{I}[x_t^i=\texttt{[MASK]}] \log p_\theta(x_0^i | x_t)\right]\) 核心优势：语言和视觉共享完全相同的概率公式和架构，无需模态特定组件。
混合长 CoT 微调：设计统一 CoT 格式 |<special_token>|<reasoning_process>|<special_token>|<result>，跨任务对齐推理过程。数据来源包括：
- 文本推理：ReasonFlux、LIMO、OpenThoughts 等
- 多模态推理：LMM-R1 在 GeoQA/CLEVR 上的正确响应
- 知识感知图像生成：GPT-4.1 合成的科学/文化/地标描述对

关键设计是让文本推理能力迁移到视觉生成——模型先进行文本推理（分析物体特征、空间关系），再生成图像。

UniGRPO：专为扩散模型设计的策略梯度 RL 算法，解决三大挑战：
- 结构化噪声策略：对每个响应 \(o_i\) 均匀采样掩码率 \(p_i \in [0,1]\)，跨梯度步变化随机种子。使模型暴露在从几乎全掩码到几乎全清晰的各种去噪阶段
- 高效 log-likelihood 近似： \(\pi'_\theta = \frac{1}{M}\sum_{o_{i,t} \in M} \log p_\theta(o_{i,t} | q)\) 对掩码 token 取平均，避免了 LLaDA 的 128 次 Monte Carlo 采样
- 均匀随机掩码：先随机采样起始步，然后均匀分布剩余去噪步（而非完全随机），近似 Monte Carlo 平均，训练更稳定

损失函数 / 训练策略¶

多样化奖励建模： - 文本推理：正确性奖励 2.0 + 格式奖励 0.5（遵循 <think>...</think> 格式） - 多模态推理：正确性 + 格式 + CLIP 奖励 \(0.1 \cdot \text{CLIP}(\text{image}, \text{text})\) - 图像生成：CLIP 奖励 + Image Reward（人类偏好分），均缩放 0.1

采样策略： - 文本生成：半自回归去噪（分 64 token 块，每步解掩码 2 个最低置信度 token） - 图像生成：并行非自回归，余弦掩码调度，50 步去噪，CFG=3.5

实验关键数据¶

主实验¶

多模态理解基准

模型	POPE	MME	VQAv2	GQA	MMMU	MMB	SEED
LLaVA-v1.5	85.9	1510.7	78.5	62.0	35.4	64.3	58.6
Show-o	80.0	1097.2	69.4	58.0	26.7	-	-
MMaDA	86.1	1410.7	76.7	61.3	30.2	68.5	64.2

文本到图像生成

模型	WISE Cultural↑	ImageReward↑	CLIP Score↑	GenEval Overall↑
SDXL	0.43	1.13	32.12	0.55
Janus	0.16	1.03	29.45	0.61
Show-o	0.28	0.92	28.94	0.53
MMaDA	0.67	1.15	32.46	0.63

文本推理

模型	架构	MMLU	GSM8K	MATH	ARC-C
LLaMA-3-8B	AR	64.5	53.1	15.1	53.1
Qwen2-7B	AR	70.3	80.2	43.5	60.6
LLaDA-8B	Diffusion	65.9	70.7	27.3	47.9
MMaDA-8B	Diffusion	68.4	73.4	36.0	57.4

消融实验¶

阶段	GSM8K	MATH500	GeoQA	CLEVR	CLIP Score	ImageReward
Stage 1 (预训练)	17.4	4.2	8.3	10.3	23.1	0.69
+ Mixed Long-CoT	65.2	26.5	15.9	27.5	29.4	0.84
+ UniGRPO	73.4	36.0	21.0	34.5	32.5	1.15

掩码策略对比	效果	说明
d1 (问题掩码+答案全掩码)	收敛慢、奖励低	忽略了扩散模型多步特性
完全随机掩码率	训练不稳定	奖励震荡大
UniGRPO (均匀随机)	收敛快、奖励高	近似 Monte Carlo 平均

关键发现¶

跨模态协同效应：三个任务（文本/理解/生成）在 Stage 2 训练期间所有指标同步提升，文本推理能力直接提升图像生成的语义准确性
采样效率：图像生成仅用 15 步去噪即可保持强劲性能（CLIP 31.7 vs 完整 1024 步的 32.8），文本生成 256 步即可
天然支持修复任务：扩散模型可直接用于文本 span 预测、VQA 答案补全和图像修复，无需额外微调

亮点与洞察¶

首个全扩散多模态基础模型进行系统后训练，证明扩散模型不仅能做生成，也能做理解和推理
UniGRPO 的均匀随机掩码策略既高效又稳定，解决了将 GRPO 迁移到扩散模型的关键技术障碍
WISE Cultural 基准上大幅领先（0.67 vs SDXL 的 0.43），表明推理增强确实帮助了知识密集型图像生成
扩散模型天然的并行解码 + 修复能力是相对 AR 模型的结构性优势

局限与展望¶

与 Qwen2-7B 等顶尖 AR 模型在纯文本任务上仍有差距（MMLU 68.4 vs 70.3，GSM8K 73.4 vs 80.2）
图像分辨率限于 512×512，未探索高分辨率生成
多模态理解在部分基准上不及 LLaVA-v1.5（如 MME 1410.7 vs 1510.7）
训练成本高（64 A100 GPU），可扩展性受限
未探索视频生成或更多模态的统一

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在纯扩散架构下实现三合一（文本+理解+生成）+系统后训练，开创性工作
实验充分度: ⭐⭐⭐⭐ 覆盖三类任务多个基准，消融充分，但缺乏与更大模型（如 13B/70B）的对比
写作质量: ⭐⭐⭐⭐ 方法阐述清晰系统，但论文结构较冗长
价值: ⭐⭐⭐⭐⭐ 为扩散模型作为通用基础模型开辟了新方向，UniGRPO 具有广泛适用性