Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens¶
会议: CVPR 2025
arXiv: 2504.14666
代码: https://DDT-LLaMA.github.io/ (项目页)
领域: 多模态VLM / 图像生成
关键词: 多模态大语言模型, 扩散时间步token, 视觉tokenizer, 递归结构, 统一理解生成
一句话总结¶
DDT-LLaMA 提出用扩散时间步编码学习具有递归结构的离散视觉 token(DDT),使视觉 token 序列像自然语言一样具有层级依赖关系,从而在统一的 next-token-prediction 框架下同时实现多模态理解和生成的 SOTA 性能。
研究背景与动机¶
- 领域现状:多模态大语言模型(MLLM)追求在统一的 next-token-prediction 范式中同时完成视觉理解和生成。现有方法主要分为级联架构(如 EMU2 分别训练理解和生成模块再拼接)和 tokenization 方法(如 Emu3 将视觉量化为离散 token 再统一训练)。
- 现有痛点:所有现有方法都基于空间视觉 token(按光栅扫描顺序排列 image patch),但空间 token 序列缺乏人类语言的递归结构特性。实验表明打乱空间 token 的顺序对 LLM 训练收敛几乎无影响——这与语言 token 的行为截然不同,说明 LLM 无法有效建模空间 token。
- 核心矛盾:理解和生成存在冲突目标——理解是多对一映射(多种柯基犬照片→"柯基"),生成是一对一映射(保留所有视觉细节)。要在统一框架中同时做好两者,需要让视觉 token 具备语言般的可建模性。
- 本文目标:设计一种视觉 tokenizer 使视觉 token 具有递归结构,让 LLM 可以像处理语言一样自然地处理视觉信息。
- 切入角度:扩散模型前向过程中,随着时间步增加,高斯噪声逐渐破坏图像的视觉属性。作者利用这个"渐进属性丢失"过程来学习具有递归补偿结构的 token 序列——每个新 token 补偿当前时间步新丢失的视觉属性。
- 核心 idea:将扩散时间步对应的"渐进式信息丢失"编码为递归视觉 token 序列,使其具有类似自然语言的层级依赖。
方法详解¶
整体框架¶
系统包含两部分:(1) DDT Tokenizer 将图像编码为递归离散 token 序列;(2) DDT-LLaMA 基于 LLaMA3-8B 的 MLLM,用统一的 next-token-prediction 训练。推理时 LLM 预测视觉 token,再用扩散模型作为解码器还原图像。
关键设计¶
-
DDT 编码器 (Diffusion Timestep Encoder):
- 功能:将无噪图像编码为 T 个递归离散 token 序列
- 核心思路:使用 Transformer 编码器处理图像 patch tokens 和 T 个可学习 query tokens。采用双独立 Transformer + 共享注意力的 MMDiT 风格架构(类似 SD3),最终只保留 query tokens 的输出 \((\hat{V}_1, ..., \hat{V}_T)\)。关键在于递归性:\(f_{t+1}(x_0) = (f_t(x_0), V_{t+1})\),即第 \(t+1\) 个 token 序列在第 \(t\) 个基础上追加一个新 token,补偿从 \(x_t\) 到 \(x_{t+1}\) 新丢失的视觉属性。
- 设计动机:与空间 token 不同,DDT token 的顺序有明确语义——从粗粒度(全局布局、主色调)到细粒度(纹理、边缘),具有类似语言的递归嵌套结构。
-
向量量化 (Vector Quantization):
- 功能:将连续编码器输出离散化为固定词汇表中的 token
- 核心思路:使用标准 VQ 模块,codebook 大小 65536,维度 m=16。采用 EMA 更新策略提升训练稳定性。使用两个trick提高codebook利用率:(a) 小维度 m=16(参考文献验证有效);(b) 监控死 entry 并用训练 batch 中的随机编码器输出替换。
- 设计动机:离散 token 可以直接复用 LLM 的词汇表扩展机制,实现真正的统一训练。
-
扩散模型解码器 (Diffusion Decoder):
- 功能:根据 DDT token 引导去噪过程还原图像
- 核心思路:基于 MMDiT 架构。在时间步 \(t\) 时,只使用前 \(t\) 个 token \((V_1, ..., V_t)\) 作为引导条件(剩余 mask 为 0),解码器学习 \(\hat{x}_0 = d(x_t, t, (V_1, ..., V_t))\) 的重建。训练损失为 Rectified Flow 下的重建损失加上标准 commitment loss。推理时通过 T 步 DDPM 过程从纯噪声生成图像。
- 设计动机:扩展式 token 输入天然契合扩散模型的时间步去噪过程——噪声越大需要越多 token 来补偿信息丢失。
损失函数 / 训练策略¶
Tokenizer 训练:重建损失 \(\mathcal{L} = \mathbb{E}[\|d(t\epsilon + (1-t)x_0, t, (V_1,...,V_t)) - x_0\|^2]\) + commitment loss。仅在 ImageNet 上训练。MLLM 两阶段训练:(1) 预训练阶段用 200M 图文对(Laion+Coyo)对齐 DDT token 和文本 token,512 Ascend 910B NPUs 训练约两周;(2) 指令微调阶段在公开数据上做多模态任务训练。词汇表扩展 65536 个视觉 code。
实验关键数据¶
主实验¶
文本到图像生成 (MLLM-based Generalist)
| Benchmark | 指标 | DDT-LLaMA | 之前SOTA (Emu3) | 提升 |
|---|---|---|---|---|
| GenEval | Overall↑ | 0.66 | 0.54 | +0.12 |
| GenEval | Counting↑ | 0.56 | 0.34 | +0.22 |
| GenEval | Position↑ | 0.39 | 0.17 | +0.22 |
| GenEval | ColorAttri↑ | 0.48 | 0.21 | +0.27 |
| T2I-CompBench | Color↑ | 0.728 | 0.611 | +0.117 |
零样本图像编辑
| Benchmark | 指标 | DDT-LLaMA | UltraEdit (Specialist) |
|---|---|---|---|
| MagicBrush | L1↓ | 5.4 | 6.6 |
| MagicBrush | CVS↑ | 92.9 | 88.4 |
消融实验¶
| 配置 | 说明 |
|---|---|
| 空间 token (打乱序列) | 训练曲线几乎不变 → 不是好的"视觉语言" |
| DDT token (打乱序列) | 训练曲线显著退化 → 具有类似语言的序列依赖 |
| 仅 ImageNet 训练 tokenizer | 已足够,证明递归结构比数据规模更重要 |
关键发现¶
- DDT token 的语言验证实验最有说服力:打乱 DDT token 顺序后 LLM 训练曲线显著退化(与语言行为一致),而空间 token 不受影响
- Tokenizer 仅在 ImageNet 上训练即可超越使用大规模数据(Laion/Coyo)的 tokenizer,证明递归结构本身是关键
- GenEval 上 Overall 0.66 已接近专门的 T2I 模型 DALL-E 3 的 0.67,且远超所有 MLLM 方法
- 在图像编辑任务上甚至超越了专门的编辑模型(UltraEdit),证明统一框架的优势
亮点与洞察¶
- 利用扩散时间步构建递归 token 是一个极具洞察力的创新:巧妙地将扩散模型的渐进去噪过程和语言的递归结构联系起来,是一种全新的视觉量化范式。从"空间 token 不是好的视觉语言"这个观察出发,分析原因并提出解决方案,整个研究逻辑非常完整
- 语言性验证实验:用序列扰动实验验证 token 的"语言性"是一个可复用的评估方法论,可用于评估任何试图将非文本模态统一到 LLM 的 tokenization 方案
- 仅用 ImageNet 训练的 tokenizer 就够用:说明 token 的结构比训练数据规模更重要,这对 tokenizer 设计有重要指导意义
局限与展望¶
- Token 序列长度与扩散时间步数 T 绑定,T 的选择需要在序列长度和重建质量间权衡
- Tokenizer 基于 MMDiT 架构较重,编码效率可能不如简单的 VQ-VAE
- 当前仅处理图像模态,视频和3D等更高维模态的扩展有待探索
- MLLM 训练需要大量计算资源(512 NPUs 训练两周),实用性受限
- 视觉理解虽然有所提升,但与专门的理解模型(如 LLaVA-1.6)仍有差距
相关工作与启发¶
- vs Emu3: Emu3 使用标准空间 VQ token 统一训练,DDT-LLaMA 用递归时间步 token 替代,在生成和理解上都显著更优
- vs Transfusion: Transfusion 在单一 Transformer 中混合自回归和扩散目标,但仍用空间 token。DDT 的优势在于 token 本身具有递归结构
- vs VILA-U: VILA-U 尝试统一理解和生成的 token,但也受限于空间 token 的非递归性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 扩散时间步→递归视觉语言的洞察极为新颖
- 实验充分度: ⭐⭐⭐⭐ 覆盖生成、编辑、理解多个任务
- 写作质量: ⭐⭐⭐⭐⭐ 动机分析深入,语言验证实验精彩
- 价值: ⭐⭐⭐⭐⭐ 为统一多模态模型提供了新的 tokenization 范式
相关论文¶
- [ICML 2025] Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
- [CVPR 2025] DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
- [ICCV 2025] Timestep-Aware Diffusion Model for Extreme Image Rescaling
- [CVPR 2025] VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
- [NeurIPS 2025] Constrained Discrete Diffusion