CubiD: Cubic Discrete Diffusion — Discrete Visual Generation on High-Dimensional Representation Tokens¶

日期: 2026-03-19
arXiv: 2603.19232
代码: GitHub
领域: 图像生成
关键词: 离散扩散, 高维表示, 维度级掩码, 视觉生成, 统一多模态

一句话总结¶

提出 Cubic Discrete Diffusion (CubiD)，首个在高维表示 token（768维）上进行离散生成的方法，通过在 h×w×d 三维张量上做细粒度逐元素掩码预测，在 ImageNet-256 上达到 1.88 FID，同时验证了离散化后的 token 同时保持理解和生成能力。

研究背景与动机¶

领域现状: 离散视觉生成（自回归/离散扩散）共享语言模型的 token 预测范式，是统一多模态架构的有前途方向。但当前方法只能处理低维 latent token（8-32维），丢失了语义丰富性。
现有痛点: 高维预训练表示（如 DINOv2 的 768 维特征）对理解任务很重要，但将其离散化后进行生成面临两重困难：(a) 传统 Vector Quantization 在高维空间因维度灾难失效——需要指数级 codebook 大小；(b) 离散化后的 h×w×d = 16×16×768 = 196,608 个 token，自回归生成步数 O(hwd) 完全不可行。
核心矛盾: 理解需要高维语义特征，生成需要低维压缩 token——两者使用不同的表示空间，阻碍了统一多模态架构。
切入角度: 逐维量化（dimension-wise quantization）可以无损地将高维连续特征离散化；关键问题变成如何高效建模 h×w×d 的离散分布。
核心 idea: 把 h×w×d 张量视为统一的"立方体"空间，任意维度任意位置的 token 都可以独立掩码和预测——兼顾空间内和空间间的依赖关系，且生成步数固定为 T（远小于 hwd）。

方法详解¶

整体框架¶

编码: 冻结的预训练编码器（DINOv2/SigLIP2）提取 h×w×d 连续特征
离散化: 逐维量化将每个标量独立映射到 L 个离散级别 → h×w×d 离散 token
生成: Cubic Discrete Diffusion 在训练时随机掩码张量中的任意元素，学习从部分观测预测被掩码的 token；推理时从全掩码迭代解掩码

关键设计¶

逐维量化（Dimension-wise Quantization）:
- 做什么：将高维连续特征离散化而不损失语义质量
- 核心思路：对每个维度独立量化 \(q_{x,y,i} = \text{Quantize}(z_{x,y,i}; L)\)，无需训练，直接应用于冻结编码器特征
- 设计动机：VQ 在高维空间因维度灾难失效（codebook 覆盖不足）。逐维量化绕过了联合量化的困难，DINOv2 用 L=8 就能达到连续特征的重建质量（rFID 0.57）。在 LLaVA 理解基准上，DQ 保持 63.1 GQA（vs 连续 63.2），而 VQ 暴跌至 54.9
立方体掩码扩散（Cubic Masking）:
- 做什么：在 h×w×d 张量上做细粒度元素级掩码预测
- 核心思路：训练时从截断高斯分布 \(r \sim \text{TruncNorm}(\mu=1.0, \sigma=0.1, [0,1])\) 采样掩码比例，随机选择 ⌊r × h×w×d⌋ 个元素掩码，用可学习 [MASK] token 替换，训练 Transformer 预测被掩码元素的交叉熵损失
- 设计动机：对比实验清晰证明了为什么必须逐元素掩码：
- Per-spatial（整个位置掩码/解掩码）：gFID = 22.22，模糊且局部不一致——768 个维度联合编码语义信息，整体掩码切断了维度间依赖
- Per-dim（整个维度掩码）：gFID = 120.03，完全失败——破坏了空间连贯性
- Per-element（逐元素）：gFID = 5.33，清晰连贯
推理时从全掩码开始，cosine schedule 逐步解掩码，T=256~512 步即可收敛
高效架构设计:
- 做什么：解耦计算复杂度与特征维度
- 核心思路：每个空间位置的 d 个 token 反量化后拼接成 d 维向量作为 Transformer 的一个 token。序列长度固定为 h×w=256，不随 d 变化。每个输出 token 通过 MLP head 产生 d×L 个 logits，同时预测该位置所有维度
- 设计动机：如果每个维度-位置都是独立 token，序列长度达 196,608，注意力计算不可行。将 d 维压缩进单个 token 保持了 O(h²w²) 的注意力复杂度

训练策略¶

AdamW，lr=5e-5，cosine schedule，weight decay 0.05
消融用 150 epochs，最终结果 800 epochs
可学习 [MASK] token 优于固定值和随机值

实验关键数据¶

ImageNet-256 主实验¶

方法	类型	Latent Dim	参数量	gFID↓ (无 cfg)	gFID↓ (有 cfg)
CubiD-XXL	离散扩散	768	3.7B	4.68	1.88
CubiD-L	离散扩散	768	946M	5.25	2.29
MaskGIT	离散扩散	16	227M	6.18	4.02
VAR	自回归	32	2.0B	2.16	1.97
LlamaGen-XXL	自回归	8	1.4B	14.6	2.34

CubiD-XXL 的 1.88 FID 是离散生成模型的新 SOTA，接近连续扩散模型的最佳水平。

离散化质量验证¶

量化方法	GQA	TextVQA	POPE	MME
SigLIP2 (连续)	63.2	59.6	85.4	1484
SigLIP2-DQ (逐维)	63.1	59.8	85.0	1480
SigLIP2-VQ (向量)	54.9	45.6	81.2	1189

逐维量化几乎无损，VQ 严重退化——证明了 DQ 作为统一表示的可行性。

消融实验¶

配置	gFID	说明
Per-element (默认)	5.33	逐元素掩码最优
Per-spatial	22.22	整位置掩码，模糊
Per-dim	120.03	整维度掩码，完全失败
σ=0.10 (默认)	5.33	偏向激进掩码
σ=0.05	7.65	过于激进，过拟合
Learned mask	5.33	优于 fixed (5.56) 和 random (56.38)

Scaling 行为¶

参数量	gFID
946M	5.25
1.4B	4.91
3.7B	4.68

清晰的 scaling law，模型越大效果越好。

亮点与洞察¶

统一表示的关键突破：证明了高维离散 token 可以同时服务理解和生成——这是通向统一多模态架构的重要一步。逐维量化几乎无损，是一个被低估的简单方法。
掩码粒度的深刻分析：per-element vs per-spatial vs per-dim 的消融实验非常清晰地展示了高维 token 中空间维度和特征维度之间的复杂依赖关系，不能简单解耦。
架构巧思：将 d 维 token 压缩进 Transformer 的单个 token 输入，用 MLP head 输出 d×L 个 logits——优雅地解耦了序列长度和特征维度，使计算可行。
生成步数与维度无关：T=256 步即可生成 196,608 个离散 token，比自回归快 768 倍。

局限性 / 可改进方向¶

分辨率限制：当前只在 256×256 上验证，更高分辨率时空间网格增大，计算成本仍然显著
依赖预训练编码器：生成质量的上限受限于 DINOv2/SigLIP2 编码器的重建能力（rFID=0.57 的重建瓶颈会传递到生成质量）
推理步数仍较多：T=256~512 步比自回归模型（256个token序列）并无明显优势，且 diffusion 每步都是全序列前向传播
尚未在真正的统一模型中验证：虽然证明了理解+生成的 token 兼容性，但未建造一个端到端的统一多模态模型

评分¶

新颖性: ⭐⭐⭐⭐ 高维离散生成是新问题，逐元素掩码解法简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 消融全面（掩码策略、量化级别、模型规模、编码器），理解+生成双重验证
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 为统一多模态架构铺路的重要工作