Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens¶

会议: CVPR 2026
arXiv: 2603.19232
代码: GitHub
领域: 多模态VLM
关键词: 离散扩散模型, 高维表征token, 视觉生成, 维度级量化, 统一多模态

一句话总结¶

提出 CubiD，首个在高维表征 token（768维）上做离散扩散生成的模型，通过在 \(h \times w \times d\) 三维张量上进行细粒度 mask 预测实现高质量图像生成，同时保留理解能力。

研究背景与动机¶

统一多模态建模的需求：语言模型天然使用语义 token 进行理解和生成，但视觉模型存在割裂——理解用高维语义特征、生成用低维压缩 token（8-32维），阻碍统一架构。
高维表征的重建优势：近期研究（如 RAE）表明 768-1024 维的预训练表征特征可实现高质量重建，但其离散生成面临根本挑战。
向量量化在高维空间失效：传统 VQ 在高维空间遭遇维度灾难，数据稀疏导致聚类无效，码本规模需指数增长，量化特征偏移严重损害语义信息。
维度级量化的可行性：逐维度独立量化规避了联合量化的困难，且作为无训练方法可直接应用于冻结的预训练特征，但生成建模仍是瓶颈。
现有生成方法的局限：自回归需 \(O(hwd)\) 步不可行，标准离散扩散无法建模位置内的维度依赖关系。
核心洞察：\(h \times w \times d\) 张量具有天然的多维结构，可以打破空间位置的原子性约束，在整个三维空间中灵活操作。

方法详解¶

整体框架¶

CubiD 包含两个阶段：(1) 高维 token 离散化——使用冻结的预训练编码器（DINOv2/SigLIP2）提取特征后进行维度级量化；(2) Cubic Discrete Diffusion——在 \(h \times w \times d\) 离散张量上进行细粒度 mask 建模和迭代生成。

关键设计¶

维度级量化（Dimension-wise Quantization）¶

对每个连续值独立量化为 \(L\) 个离散级别：\(q_{x,y,i} = \text{Quantize}(z_{x,y,i}; L)\)。DINOv2 用 \(L=8\)，SigLIP2 用 \(L=16\) 即可达到连续特征同等重建质量。在 LLaVA 理解任务上，维度级量化（DQ）几乎无损（GQA: 63.1 vs 63.2），而向量量化（VQ）严重退化（54.9）。

细粒度 Cubic Masking¶

不同于 MaskGIT 对整个空间位置进行 mask，CubiD 在 \(h \times w \times d\) 张量中任意元素级别独立 mask。训练时从截断高斯分布 \(r \sim \text{TruncNorm}(\mu=1.0, \sigma=0.10, [0,1])\) 采样 mask 比例，选中的元素替换为可学习的 [MASK] token，模型通过交叉熵损失预测被遮蔽的 token：\(\mathcal{L} = -\mathbb{E}[\sum_{i \in \mathbf{M}} \log p(q_i | \mathbf{q}_{\bar{\mathbf{M}}})]\)。

模型架构¶

采用标准双向注意力 Transformer。每个空间位置的 \(d\) 个 token 反量化拼接为 \(d\) 维向量作为一个 token，序列长度固定为 \(h \times w\)，与特征维度无关。输出经 MLP 预测头产生 \(d \times L\) 个 logits。

损失函数¶

交叉熵损失（Eq.3），在所有被 mask 的位置上计算。推理采用余弦调度的迭代 unmask，固定 \(T\) 步完成生成。

实验关键数据¶

主实验：ImageNet 256×256 生成¶

方法	维度	参数量	gFID↓ (w/o cfg)	IS↑	gFID↓ (w/ cfg)
MaskGIT	16	227M	6.18	182.1	4.02
CubiD-L (Ours)	768	946M	5.25	-	-
CubiD-XXL (Ours)	768	3.7B	4.68	-	1.88

消融实验¶

消融项	设置	gFID↓
Masking 策略	Per-dim / Per-spatial / Per-element	120.03 / 22.22 / 5.33
Mask token	Fixed / Random / Learned	5.56 / 56.38 / 5.33
模型规模	946M / 1.4B / 3.7B	5.25 / 4.91 / 4.68
推理步数	64 / 256 / 512	9.14 / 5.33 / 5.25

关键发现¶

元素级 masking 是关键：Per-dim 完全失败（gFID=120），Per-spatial 模糊（gFID=22），证明高维 token 内外位置依赖不可分离
维度级量化保留理解能力：DQ 在 LLaVA 四个 benchmark 上与连续特征几乎一致
模型从 900M 到 3.7B 展现良好的缩放行为
跨编码器泛化：DINOv2（gFID=5.25）和 SigLIP2（gFID=5.87）均有效

亮点与洞察¶

首次实现高维表征 token 的离散生成，打通理解与生成的统一表征
细粒度 cubic masking 设计优雅，将不可行的 \(O(hwd)\) 问题转化为固定步数 \(T\) 的并行迭代
实验验证了离散化高维 token 可同时服务理解和生成两个任务
消融实验充分展示了设计选择的必要性

局限性¶

当前仅在 ImageNet 条件生成上验证，未验证文本引导生成
依赖外部解码器（来自 RAE）将表征还原为图像
推理步数仍需数百步，效率有提升空间
未与最新连续扩散模型（如 DiT）深入比较 FID

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐