跳转至

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

会议: CVPR 2026
arXiv: 2603.19232
代码: GitHub
领域: 多模态VLM
关键词: 离散扩散模型, 高维表征token, 视觉生成, 维度级量化, 统一多模态

一句话总结

提出 CubiD,首个在高维表征 token(768维)上做离散扩散生成的模型,通过在 \(h \times w \times d\) 三维张量上进行细粒度 mask 预测实现高质量图像生成,同时保留理解能力。

研究背景与动机

  1. 统一多模态建模的需求:语言模型天然使用语义 token 进行理解和生成,但视觉模型存在割裂——理解用高维语义特征、生成用低维压缩 token(8-32维),阻碍统一架构。
  2. 高维表征的重建优势:近期研究(如 RAE)表明 768-1024 维的预训练表征特征可实现高质量重建,但其离散生成面临根本挑战。
  3. 向量量化在高维空间失效:传统 VQ 在高维空间遭遇维度灾难,数据稀疏导致聚类无效,码本规模需指数增长,量化特征偏移严重损害语义信息。
  4. 维度级量化的可行性:逐维度独立量化规避了联合量化的困难,且作为无训练方法可直接应用于冻结的预训练特征,但生成建模仍是瓶颈。
  5. 现有生成方法的局限:自回归需 \(O(hwd)\) 步不可行,标准离散扩散无法建模位置内的维度依赖关系。
  6. 核心洞察\(h \times w \times d\) 张量具有天然的多维结构,可以打破空间位置的原子性约束,在整个三维空间中灵活操作。

方法详解

整体框架

CubiD 包含两个阶段:(1) 高维 token 离散化——使用冻结的预训练编码器(DINOv2/SigLIP2)提取特征后进行维度级量化;(2) Cubic Discrete Diffusion——在 \(h \times w \times d\) 离散张量上进行细粒度 mask 建模和迭代生成。

关键设计

维度级量化(Dimension-wise Quantization)

对每个连续值独立量化为 \(L\) 个离散级别:\(q_{x,y,i} = \text{Quantize}(z_{x,y,i}; L)\)。DINOv2 用 \(L=8\),SigLIP2 用 \(L=16\) 即可达到连续特征同等重建质量。在 LLaVA 理解任务上,维度级量化(DQ)几乎无损(GQA: 63.1 vs 63.2),而向量量化(VQ)严重退化(54.9)。

细粒度 Cubic Masking

不同于 MaskGIT 对整个空间位置进行 mask,CubiD 在 \(h \times w \times d\) 张量中任意元素级别独立 mask。训练时从截断高斯分布 \(r \sim \text{TruncNorm}(\mu=1.0, \sigma=0.10, [0,1])\) 采样 mask 比例,选中的元素替换为可学习的 [MASK] token,模型通过交叉熵损失预测被遮蔽的 token:\(\mathcal{L} = -\mathbb{E}[\sum_{i \in \mathbf{M}} \log p(q_i | \mathbf{q}_{\bar{\mathbf{M}}})]\)

模型架构

采用标准双向注意力 Transformer。每个空间位置的 \(d\) 个 token 反量化拼接为 \(d\) 维向量作为一个 token,序列长度固定为 \(h \times w\),与特征维度无关。输出经 MLP 预测头产生 \(d \times L\) 个 logits。

损失函数

交叉熵损失(Eq.3),在所有被 mask 的位置上计算。推理采用余弦调度的迭代 unmask,固定 \(T\) 步完成生成。

实验关键数据

主实验:ImageNet 256×256 生成

方法 维度 参数量 gFID↓ (w/o cfg) IS↑ gFID↓ (w/ cfg)
MaskGIT 16 227M 6.18 182.1 4.02
CubiD-L (Ours) 768 946M 5.25 - -
CubiD-XXL (Ours) 768 3.7B 4.68 - 1.88

消融实验

消融项 设置 gFID↓
Masking 策略 Per-dim / Per-spatial / Per-element 120.03 / 22.22 / 5.33
Mask token Fixed / Random / Learned 5.56 / 56.38 / 5.33
模型规模 946M / 1.4B / 3.7B 5.25 / 4.91 / 4.68
推理步数 64 / 256 / 512 9.14 / 5.33 / 5.25

关键发现

  • 元素级 masking 是关键:Per-dim 完全失败(gFID=120),Per-spatial 模糊(gFID=22),证明高维 token 内外位置依赖不可分离
  • 维度级量化保留理解能力:DQ 在 LLaVA 四个 benchmark 上与连续特征几乎一致
  • 模型从 900M 到 3.7B 展现良好的缩放行为
  • 跨编码器泛化:DINOv2(gFID=5.25)和 SigLIP2(gFID=5.87)均有效

亮点与洞察

  • 首次实现高维表征 token 的离散生成,打通理解与生成的统一表征
  • 细粒度 cubic masking 设计优雅,将不可行的 \(O(hwd)\) 问题转化为固定步数 \(T\) 的并行迭代
  • 实验验证了离散化高维 token 可同时服务理解和生成两个任务
  • 消融实验充分展示了设计选择的必要性

局限性

  • 当前仅在 ImageNet 条件生成上验证,未验证文本引导生成
  • 依赖外部解码器(来自 RAE)将表征还原为图像
  • 推理步数仍需数百步,效率有提升空间
  • 未与最新连续扩散模型(如 DiT)深入比较 FID

相关工作与启发

  • 与 MaskGIT 的关键区别在于 masking 粒度:CubiD 在维度级操作,而非空间位置级
  • 与 RAE 互补:RAE 用连续扩散生成高维表征,CubiD 用离散扩散
  • 与 TiTok 等低维离散生成方法的本质区别:CubiD 直接在预训练特征的原始维度上操作,保留语义完整性
  • 为统一多模态架构(同一离散 token 用于理解 + 生成)奠定基础
  • 维度级量化的成功验证对 VQ-VAE 领域有重要启示——高维空间不必做联合量化

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐