Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens¶
会议: CVPR 2026
arXiv: 2603.19232
代码: GitHub
领域: 多模态VLM
关键词: 离散扩散模型, 高维表征token, 视觉生成, 维度级量化, 统一多模态
一句话总结¶
提出 CubiD,首个在高维表征 token(768维)上做离散扩散生成的模型,通过在 \(h \times w \times d\) 三维张量上进行细粒度 mask 预测实现高质量图像生成,同时保留理解能力。
研究背景与动机¶
- 统一多模态建模的需求:语言模型天然使用语义 token 进行理解和生成,但视觉模型存在割裂——理解用高维语义特征、生成用低维压缩 token(8-32维),阻碍统一架构。
- 高维表征的重建优势:近期研究(如 RAE)表明 768-1024 维的预训练表征特征可实现高质量重建,但其离散生成面临根本挑战。
- 向量量化在高维空间失效:传统 VQ 在高维空间遭遇维度灾难,数据稀疏导致聚类无效,码本规模需指数增长,量化特征偏移严重损害语义信息。
- 维度级量化的可行性:逐维度独立量化规避了联合量化的困难,且作为无训练方法可直接应用于冻结的预训练特征,但生成建模仍是瓶颈。
- 现有生成方法的局限:自回归需 \(O(hwd)\) 步不可行,标准离散扩散无法建模位置内的维度依赖关系。
- 核心洞察:\(h \times w \times d\) 张量具有天然的多维结构,可以打破空间位置的原子性约束,在整个三维空间中灵活操作。
方法详解¶
整体框架¶
CubiD 包含两个阶段:(1) 高维 token 离散化——使用冻结的预训练编码器(DINOv2/SigLIP2)提取特征后进行维度级量化;(2) Cubic Discrete Diffusion——在 \(h \times w \times d\) 离散张量上进行细粒度 mask 建模和迭代生成。
关键设计¶
维度级量化(Dimension-wise Quantization)¶
对每个连续值独立量化为 \(L\) 个离散级别:\(q_{x,y,i} = \text{Quantize}(z_{x,y,i}; L)\)。DINOv2 用 \(L=8\),SigLIP2 用 \(L=16\) 即可达到连续特征同等重建质量。在 LLaVA 理解任务上,维度级量化(DQ)几乎无损(GQA: 63.1 vs 63.2),而向量量化(VQ)严重退化(54.9)。
细粒度 Cubic Masking¶
不同于 MaskGIT 对整个空间位置进行 mask,CubiD 在 \(h \times w \times d\) 张量中任意元素级别独立 mask。训练时从截断高斯分布 \(r \sim \text{TruncNorm}(\mu=1.0, \sigma=0.10, [0,1])\) 采样 mask 比例,选中的元素替换为可学习的 [MASK] token,模型通过交叉熵损失预测被遮蔽的 token:\(\mathcal{L} = -\mathbb{E}[\sum_{i \in \mathbf{M}} \log p(q_i | \mathbf{q}_{\bar{\mathbf{M}}})]\)。
模型架构¶
采用标准双向注意力 Transformer。每个空间位置的 \(d\) 个 token 反量化拼接为 \(d\) 维向量作为一个 token,序列长度固定为 \(h \times w\),与特征维度无关。输出经 MLP 预测头产生 \(d \times L\) 个 logits。
损失函数¶
交叉熵损失(Eq.3),在所有被 mask 的位置上计算。推理采用余弦调度的迭代 unmask,固定 \(T\) 步完成生成。
实验关键数据¶
主实验:ImageNet 256×256 生成¶
| 方法 | 维度 | 参数量 | gFID↓ (w/o cfg) | IS↑ | gFID↓ (w/ cfg) |
|---|---|---|---|---|---|
| MaskGIT | 16 | 227M | 6.18 | 182.1 | 4.02 |
| CubiD-L (Ours) | 768 | 946M | 5.25 | - | - |
| CubiD-XXL (Ours) | 768 | 3.7B | 4.68 | - | 1.88 |
消融实验¶
| 消融项 | 设置 | gFID↓ |
|---|---|---|
| Masking 策略 | Per-dim / Per-spatial / Per-element | 120.03 / 22.22 / 5.33 |
| Mask token | Fixed / Random / Learned | 5.56 / 56.38 / 5.33 |
| 模型规模 | 946M / 1.4B / 3.7B | 5.25 / 4.91 / 4.68 |
| 推理步数 | 64 / 256 / 512 | 9.14 / 5.33 / 5.25 |
关键发现¶
- 元素级 masking 是关键:Per-dim 完全失败(gFID=120),Per-spatial 模糊(gFID=22),证明高维 token 内外位置依赖不可分离
- 维度级量化保留理解能力:DQ 在 LLaVA 四个 benchmark 上与连续特征几乎一致
- 模型从 900M 到 3.7B 展现良好的缩放行为
- 跨编码器泛化:DINOv2(gFID=5.25)和 SigLIP2(gFID=5.87)均有效
亮点与洞察¶
- 首次实现高维表征 token 的离散生成,打通理解与生成的统一表征
- 细粒度 cubic masking 设计优雅,将不可行的 \(O(hwd)\) 问题转化为固定步数 \(T\) 的并行迭代
- 实验验证了离散化高维 token 可同时服务理解和生成两个任务
- 消融实验充分展示了设计选择的必要性
局限性¶
- 当前仅在 ImageNet 条件生成上验证,未验证文本引导生成
- 依赖外部解码器(来自 RAE)将表征还原为图像
- 推理步数仍需数百步,效率有提升空间
- 未与最新连续扩散模型(如 DiT)深入比较 FID
相关工作与启发¶
- 与 MaskGIT 的关键区别在于 masking 粒度:CubiD 在维度级操作,而非空间位置级
- 与 RAE 互补:RAE 用连续扩散生成高维表征,CubiD 用离散扩散
- 与 TiTok 等低维离散生成方法的本质区别:CubiD 直接在预训练特征的原始维度上操作,保留语义完整性
- 为统一多模态架构(同一离散 token 用于理解 + 生成)奠定基础
- 维度级量化的成功验证对 VQ-VAE 领域有重要启示——高维空间不必做联合量化
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐