Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation¶

领域现状: 图像 AR 模型（如 VAR、LlamaGen）达到 SOTA 质量，但逐 token 生成导致推理慢。
现有痛点: DD1 通过流匹配构造噪声到数据的确定性映射实现单步生成，但该映射难以学习，单步性能下降明显。
核心矛盾: DD1 依赖预定义映射限制灵活性；需要一种不依赖固定映射的分布匹配方法。
本文目标: 训练单步生成器使其输出分布匹配 AR 教师模型，无需预定义映射。
切入角度: 将 AR 模型视为每个 token 位置的条件分数模型。
核心 idea: 联合训练单步生成器和条件引导网络，用 CSD 损失对齐每个 token 位置的条件分数。

会议: NeurIPS 2025
arXiv: 2510.21003
代码: GitHub
领域: 图像生成
关键词: 自回归模型, 单步生成, 分数蒸馏, 图像生成加速, 流匹配

一句话总结¶

本文提出 DD2，将自回归图像模型重新解释为条件分数模型，通过条件分数蒸馏（CSD）损失训练单步生成器匹配原始 AR 模型的输出分布，在 ImageNet-256 上实现 FID 仅增加约 2-3.5 的单步生成，获得 8-238 倍加速，相比 DD1 将单步性能差距缩小 67%。

教师 AR 模型提供真实条件分数，引导网络学习生成器分布的条件分数，CSD 损失驱动两者对齐。生成器 \(G_\theta\) 接受噪声 \(\varepsilon\) 直接输出完整 token 序列。

教师 AR 模型作为条件分数模型: 将 AR 模型输出的概率向量 \(p = (p_1, ..., p_V)\) 重新解释为 RectFlow 噪声调度下的条件分数函数 \(s(x_t, t, p)\)，闭式表达为加权高斯混合的梯度。每个 token 位置的生成视为以前序 token 为条件的连续流匹配过程。
条件分数蒸馏（CSD）损失: 在每个 token 位置 \(i\)，对齐引导网络（学习生成器分布的分数）与教师模型（提供真实分数）的条件分数，条件为前 \(i-1\) 个 token。理论证明 CSD 损失最优时生成器分布精确匹配 AR 模型分布。
引导网络: 独立网络学习生成器分布的条件分数 \(s(q_i^t, t | q_{<i})\)，用标准 AR-diffusion 损失训练。与生成器交替优化。
DD1 初始化: 用 DD1 预训练结果初始化生成器，显著加速 DD2 收敛（12.3 倍训练加速）。

教师模型	原始步数	原始FID	DD2 FID	加速比
VAR-d16	10	4.19	6.48	8.0×
VAR-d30	10	3.40	5.43	8.0×
LlamaGen-XL	256	5.62	8.92	238×
LlamaGen-XXL	256	4.11	7.58	238×