CVPR 2025 图像生成自回归图像生成 Next-Scale Prediction Masked Prediction Markov 过程高效注意力损失重加权

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation¶

会议: CVPR 2025
arXiv: 2506.04421
代码: 无
领域: 图像生成 / 自回归生成
关键词: 自回归图像生成, Next-Scale Prediction, Masked Prediction, Markov 过程, 高效注意力, 损失重加权

一句话总结¶

HMAR 将 VAR 的 next-scale 预测重构为 Markov 过程（仅依赖前一尺度的累积重建而非所有前序尺度），并在每个尺度内引入多步掩码生成来消除条件独立假设，配合自定义 IO-aware 块稀疏注意力核，在 ImageNet 上匹配或超越 VAR/DiT 质量的同时实现训练 2.5× 加速和推理 3× 内存缩减。

研究背景与动机¶

领域现状：Visual Auto-Regressive modeling (VAR) 通过 next-scale prediction 范式弥合了自回归模型与扩散模型在速度和质量上的差距。VAR 将图像分解为 K 个分辨率尺度，每步生成一个更高分辨率的尺度，条件是所有前序尺度的 token。

现有痛点：(1) 质量瓶颈：VAR 在每个尺度内一步并行采样所有 token，隐式假设同一尺度内 token 条件独立，导致"过平滑"和跨尺度误差累积；(2) 效率问题：条件依赖所有前序尺度使序列长度超线性增长（256×256 时比 next-token 长 5.84×），且 FlashAttention 不支持 VAR 的 block-causal 注意力模式；(3) 灵活性不足：推理步数在训练时固定，增加步数需重新训练。

核心矛盾：VAR 的质量-效率-灵活性三方面都有明显改进空间——条件独立假设损害质量，长序列拖累效率，固定步数限制灵活性。

本文切入角度：注意到 VAR 编码中的累积重建 \(\tilde{x}_{1:k}\) 已包含所有前 \(k\) 个尺度的信息（类似拉普拉斯金字塔），因此可将 next-scale 预测重构为 Markov 过程 \(p(r_k | \tilde{x}_{1:k-1})\)。由此得到 block-diagonal 注意力模式（比 block-causal 稀疏 5×），并在尺度内引入类 MaskGIT 的多步掩码生成来建模 token 间依赖。

方法详解¶

整体框架¶

HMAR 由两个子模块组成：(1) Markovian Next-Scale Prediction 模块：将 VAR 的全历史条件改为仅依赖前一尺度的累积重建，使用 IO-aware 块对角注意力核加速训练；(2) Intra-Scale Masked Refinement 模块：在每个尺度内用多步掩码生成消除条件独立假设，可控平衡质量与速度。两模块分步训练。

关键设计¶

Markovian Next-Scale Prediction:
- 功能：将 next-scale 预测的序列长度从超线性降为线性，实现块对角稀疏注意力
- 核心思路：利用 VQ-VAE 残差编码的性质——累积重建 \(\tilde{x}_{1:k} = \sum_{j=1}^{k} \tilde{x}_j\) 包含前 \(k\) 个尺度的全部信息。因此 \(p(r_k | r_1,...,r_{k-1}) = p(r_k | \tilde{x}_{1:k-1})\)，将生成重构为 Markov 过程。实践中用插值函数将 \(\tilde{x}_{1:k-1}\) 缩放到 \(H_{k-1} \times W_{k-1}\) 作为条件，注意力模式从 block-causal 变为 block-diagonal（稀疏度提升 5×）
- 设计动机：通过注意力分析（Fig. 9），VAR 中大部分注意力确实集中在前一尺度上，验证了 Markov 假设的合理性。推理时无需 KV cache，直接降低 3× 内存
层次化多步掩码生成 (Hierarchical Multi-Step Masked Generation):
- 功能：在每个尺度内建模 token 间依赖，消除 VAR 的条件独立假设
- 核心思路：在每个尺度 \(k\)，初始 next-scale 预测得到 \(r_k^0\)（VAR 的单步结果），然后用 \(M_k\) 步掩码生成迭代精炼——每步随机遮蔽一部分 token 并基于未遮蔽 token + 前一尺度的累积重建重新预测。\(M_k=0\) 退化为 VAR，\(M_k=H_k \times W_k\) 退化为 next-token prediction。训练时对微调阶段均匀采样掩码率 \(\gamma \sim \mathcal{U}(0,1)\)，推理时在粗尺度多步提升 FID、细尺度多步提升感知质量
- 设计动机：VAR 的并行生成假设同一尺度 token 条件独立，这在实践中导致过平滑和错误累积（Fig. 17）。掩码生成是质量和速度之间的可控权衡
多尺度损失重加权 (Multi-Scale Loss Reweighting):
- 功能：平衡不同分辨率尺度的训练贡献
- 核心思路：VAR 的均匀平均损失导致最细尺度贡献 256 倍于最粗尺度。HMAR 引入尺度权重 \(w(k)\)，\(\sum w(k) = 1\)。实验发现每尺度的学习难度近似服从对数正态分布（Fig. 12），因此采用对数正态加权函数作为 \(w(k)\)，使模型容量分配与学习难度分布匹配
- 设计动机：早期粗尺度错误会累积传播到所有后续尺度（Fig. 17），且不同尺度贡献的 token 数差异极大，均匀权重不合理

损失函数 / 训练策略¶

阶段 1（Next-Scale）：带 IO-aware 窗口注意力的 cross-entropy 损失 + 对数正态损失重加权
阶段 2（Masked Refinement）：添加掩码预测头，用 \(\mathcal{L}_{mask} = \sum_k \mathcal{L}(\gamma r_k | \bar{\gamma} r_k)\) 微调
使用 VAR 预训练的多尺度 VQ-VAE tokenizer
K=10 尺度（1×1 到 16×16），与 VAR 一致
推理用 top-k top-p 采样，默认 14 步（10 步 next-scale + 每尺度少量 mask 步）

实验关键数据¶

主实验¶

ImageNet 256×256（cfg=无明确说明）：

方法	类型	FID↓	IS↑	Params	Steps
DiT-XL/2	Diffusion	2.27	278.2	675M	250
VAR-d16	AR	3.36	277.8	310M	10
VAR-d24	AR	2.15	312.4	1.0B	10
VAR-d30	AR	1.95	303.6	2.0B	10
HMAR-d16	Hybrid	3.01	288.6	465M	14
HMAR-d24	Hybrid	2.10	324.3	1.3B	14
HMAR-d30	Hybrid	1.95	334.5	2.4B	14

ImageNet 512×512：

方法	FID↓	IS↑	Params
DiT-XL/2	3.04	240.8	675M
VAR-d36	2.63	303.2	-
HMAR-d24	匹配或超越	更高 IS	-

效率对比¶

指标	HMAR vs VAR
训练速度	2.5× 更快
推理速度	1.75× 更快
推理内存	3× 更低
注意力计算	10× 更快（IO-aware kernel）

消融实验¶

损失重加权策略（d16, 256×256）：

加权策略	FID↓	IS↑
均匀 (VAR)	3.36	277.8
线性	~3.2	~280
对数正态	3.01	288.6

关键发现¶

HMAR-d30 在 ImageNet 256×256 上 FID 1.95 匹配 VAR-d30，但 IS 从 303.6 提升至 334.5（+31 点），图像质量有显著感知提升
Markov 重构使训练序列稀疏度提升 5×（256×256 时），IO-aware 核使注意力计算加速 10×
推理无需 KV cache → 3× 内存缩减，使大规模模型和高分辨率推理可行
掩码步数可在推理时灵活调整：粗尺度多步改善全局结构（FID↓），细尺度多步改善细节（IS↑）
对数正态损失加权比均匀加权 FID 降低约 0.35，IS 提升约 11
HMAR 可零样本应用于 inpainting、outpainting 和类别条件编辑，VAR 无此能力

亮点与洞察¶

Markov 等价的精彩推导：利用残差量化的数学性质证明 \(p(r_k|r_{<k}) = p(r_k|\tilde{x}_{1:k-1})\)，类比拉普拉斯/高斯金字塔，理论简洁且实践高效
质量-效率-灵活性三方面同时改进：通常三者互为 trade-off，HMAR 通过 Markov 改写和掩码生成同时在三方面胜出，是罕见的 Pareto 改进
可定制的采样调度：掩码步数在不同尺度可独立调整且无需重训练，为质量 vs 速度的权衡提供极大灵活性
自定义 IO-aware GPU 核：工程贡献同样重要——Triton 实现的块稀疏注意力核使论文的理论稀疏优势在实践中兑现

局限与展望¶

参数量比对应 VAR 模型大约 30-50%（HMAR-d16 465M vs VAR-d16 310M），因为增加了掩码预测头
目前仅在 ImageNet 类别条件生成上验证，缺少文本条件生成（text-to-image）实验
Markov 假设虽然在注意力分析中得到验证，但在极端情况下（如前序尺度包含关键全局结构）可能丢失信息
两阶段训练（next-scale + mask finetune）增加了训练管线复杂度

评分¶

⭐⭐⭐⭐⭐ (5/5)

创新性 ⭐⭐⭐⭐⭐：Markov 等价推导 + 掩码精炼 + IO-aware 核，三个贡献环环相扣
实验充分性 ⭐⭐⭐⭐⭐：质量/效率/灵活性三维度评估，消融充分，与 VAR/DiT/MaskGIT 多类基线对比
清晰度 ⭐⭐⭐⭐⭐：理论推导简洁，实验展示清晰，整体结构优秀
实用价值 ⭐⭐⭐⭐⭐：比 VAR 更快更省内存更灵活且质量不降，是直接可替换的升级方案