Efficient Generative Modeling with Residual Vector Quantization-Based Tokens¶

会议: ICML2025
arXiv: 2412.10208
代码: 无
领域: image_generation
关键词: ResGen, 残差向量量化, 掩码预测, 离散扩散, 高效生成

一句话总结¶

ResGen 通过直接预测累积RVQ嵌入而非单个令牌，解耦了生成迭代次数与序列长度和量化深度的关系，实现了高保真、快速采样的高效生成模型。

研究背景与动机¶

核心矛盾¶

核心矛盾：残差向量量化(RVQ)通过迭代量化残差提高重建保真度，但在自回归生成中： - 采样步数 = 序列长度L × 量化深度D - L和D增大时推理成本线性增长 - 现有非自回归方法只能在L或D一个维度上改进，无法同时解耦

现有痛点¶

现有痛点：需要一种方法： - 保留RVQ带来的高保真重建优势 - 推理步数不随D增大而增长 - 统一的概率框架处理RVQ层次结构

方法详解¶

整体框架：粗到细的迭代填充¶

ResGen采用"从最高量化层开始逐步填充"的策略：

关键设计1：分层掩码策略¶

从最高深度D（细节层）开始逐步掩码
掩码调度函数：\(n = \lceil \gamma(r) \cdot L \cdot D \rceil\)
多项分布采样将掩码令牌均匀分布到L个位置
从深度D向低深度依次掩码

关键设计2：多令牌预测（核心创新）¶

训练时不预测单个令牌 \(x\)，而是预测掩码嵌入的累积和：

\[z_i = \sum_j e(x_{i,j}; j) \odot (1 - m_{i,j})\]

通过预测聚合向量，模型捕捉跨深度的令牌关联，采样步数与RVQ深度D解耦。

关键设计3：概率框架¶

使用离散扩散过程和变分推断形式化
基于模型置信度的增强采样策略
高斯混合模型估计潜在嵌入

采样步数对比¶

方法	采样步数
自回归	\(O(L \times D)\)
非自回归(现有)	\(O(L)\) 或 \(O(D)\)
ResGen	\(O(\text{fixed})\)（与L和D均无关）

实验关键数据¶

ImageNet 256×256 条件图像生成¶

主实验¶

方法	参数量	采样步数	FID	相对性能
AR Baseline	1.5B	256	4.2	基准
ResGen (D=4)	1.5B	8	3.8	FID↓ + 3.2×加速
ResGen (D=8)	1.5B	8	3.2	FID↓↓ + 5.1×加速

零样本文本转语音合成¶

消融实验¶

方法	MOS评分	采样步数	实时因子
AR基线	3.8	512	1.2×
ResGen	4.1	16	4.5×
ResGen+深度扩展	4.2	16	4.3×

关键发现¶

少8倍采样步数实现更优FID。
随RVQ深度增加(D:4→8)保真度显著提升。
跨模态(图像+音频)通用有效。
MOS提升7.9%且推理速度提升3.75倍。

亮点与洞察¶

"预测累积嵌入而非单个令牌" — 简单但突破性的设计选择，一举解耦深度与推理成本。
分层掩码（高层优先）契合信息论直觉：粗糙信息优先。
完整的离散扩散+变分推断概率框架，理论严谨。
两个模态(图像+语音)验证了方法普适性。

局限与展望¶

代码开源状态未确认，复现可能有门槛。
不同RVQ深度(D=4 vs D=8)的最优选择标准不清晰。
聚合嵌入预测的计算成本对比单令牌预测的详细分析不足。
仅在图像和音频验证，文本和视频场景未涉及。
掩码调度函数 \(\gamma(\cdot)\) 对任务敏感。

评分¶

新颖性: ⭐⭐⭐⭐⭐（4.5/5）— 累积嵌入预测解耦深度与推理是核心创新
实验充分度: ⭐⭐⭐⭐☆（4.0/5）— 两个模态验证但消融可更深入
写作质量: ⭐⭐⭐⭐☆（4.0/5）
价值: ⭐⭐⭐⭐⭐（4.5/5）— 对高效生成模型有实质贡献