Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation¶

基本信息¶

arXiv: 2510.21003
会议: NeurIPS 2025
作者: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
机构: Tsinghua University, Microsoft Research
代码: https://github.com/imagination-research/Distilled-Decoding-2

一句话总结¶

提出 Distilled Decoding 2 (DD2)，通过条件分数蒸馏损失将图像自回归模型压缩为单步生成器，在 ImageNet-256 上 FID 仅从 3.40 增至 5.43，比 DD1 的 one-step 差距缩小 67%，训练加速 12.3×。

背景与动机¶

图像 AR 模型（如 LlamaGen, MAR, VAR）在质量上接近扩散模型，但需要大量采样步骤（数百到数千个 token 逐个生成）。Distilled Decoding 1 (DD1) 首次尝试将 AR 模型压缩为少步生成，但存在两个问题： 1. One-step 设置下性能退化严重 2. 依赖预定义的高斯映射，限制了灵活性

核心问题¶

如何将图像 AR 模型蒸馏为真正的单步生成器，同时保持高质量？

方法详解¶

1. 核心思想：条件分数蒸馏¶

将原始 AR 模型视为教师模型，其在每个 token 位置提供条件分数（conditional score）： - 在 latent embedding 空间中，AR 模型在位置 \(t\) 给出条件分布 \(p_\text{teacher}(z_t | z_{<t})\) - 该条件分布的梯度就是条件分数

2. Conditional Score Distillation Loss¶

训练一个独立的 one-step generator 网络： - 学生一次性并行预测所有 token - 对每个 token 位置，利用教师 AR 模型的条件分数做蒸馏 - 在每个 token 位置 \(t\)，以前面已生成的 token \(z_{<t}\) 为条件，计算学生输出与教师条件分布的对齐损失 - 不需要预定义映射（vs. DD1 的高斯映射约束）

3. 分数预测网络¶

训练独立网络预测生成分布的条件分数
条件分数引导学生沿正确方向更新
本质上是在 token 空间中做"score matching + distillation"

4. vs. DD1 的关键改进¶

对比	DD1	DD2
映射方式	预定义高斯映射	无需预定义映射
蒸馏方式	确定性映射蒸馏	条件分数蒸馏
One-step 质量	退化严重	FID 仅增 2.03
训练效率	baseline	12.3× 加速

实验关键数据¶

ImageNet-256 生成质量¶

方法	Steps	FID↓
原始 AR 模型	256	3.40
DD1 (one-step)	1	~9.5 (估计)
DD2 (one-step)	1	5.43

比 DD1 的 one-step 差距缩小 67%
训练速度提升 12.3×

关键优势¶

单步生成速度比原 AR 模型快 ~256×
FID 仅增加 2.03（3.40 → 5.43），保持高质量

亮点¶

单步 AR 生成的突破：首次让图像 AR 模型真正实现高质量单步生成
条件分数蒸馏：优雅地将 AR 教师的逐 token 知识提炼到并行学生
无需预定义映射：比 DD1 更灵活通用
12.3× 训练加速：兼顾效率和质量
与 InfinityStar 互补：InfinityStar 用 next-scale 加速 AR，DD2 用蒸馏进一步压缩到单步

局限性¶

仍需要原始 AR 模型作为教师（训练时开销）
单步生成的 FID (5.43) 仍不及多步 AR (3.40)
主要在 ImageNet-256 上验证，T2I 场景未涉及
条件分数预测网络的设计可能影响泛化

与相关工作的对比¶

vs. DD1：DD2 去掉了预定义映射限制，one-step 质量差距缩小 67%
vs. Consistency Models：后者针对扩散模型的 one-step 蒸馏，DD2 针对 AR 模型
vs. InfinityStar：InfinityStar 用 next-scale prediction 减少 AR 步数到 K，DD2 进一步压缩到 1
vs. SANA-Sprint：SANA-Sprint 是 T2I 扩散的步数压缩，DD2 是 AR 的步数压缩

启发与关联¶

AR 模型加速的终极形态：从数百步 → next-scale (~20步) → one-step，DD2 代表了 AR 加速的极限探索
Score distillation 的通用性：将 SDS (Score Distillation Sampling) 从 3D 生成移植到 AR 蒸馏，展示了跨领域迁移
与 Does Thinking More Help? 的联系：推理模型也可能受益于类似的"多路蒸馏"——与其延长单条推理链，不如蒸馏多步的知识到更短的过程

评分¶

新颖性：★★★★☆ — 条件分数蒸馏应用于 AR 模型是新贡献
技术深度：★★★★☆ — 分数蒸馏+条件化设计严谨
实验完整度：★★★★☆ — ImageNet-256 验证充分但场景单一
写作质量：★★★★☆ — 与 DD1 的对比清晰