跳转至

ToProVAR: Efficient Visual Autoregressive Modeling via Tri-Dimensional Entropy-Aware Semantic Analysis and Sparsity Optimization

元信息

  • 会议: ICLR 2026
  • arXiv: 2602.22948
  • 代码: 即将公开
  • 领域: 图像生成 / 视觉自回归模型加速
  • 关键词: VAR, attention entropy, token 剪枝, 模型加速, 三维稀疏性优化

一句话总结

提出 ToProVAR 框架,利用注意力熵统一分析 VAR 模型的 token/层/尺度三个维度的稀疏性,实现最高 3.4× 加速且图像质量几乎无损,显著优于 FastVAR 和 SkipVAR。

研究背景与动机

视觉自回归 (VAR) 模型将图像生成从"逐 token 预测"改为"逐分辨率预测"(从粗到细),首次让 GPT 风格的 AR 模型在图像质量上超越扩散模型。然而核心问题是:token 数量随分辨率指数增长,后期阶段计算效率极低

现有加速方法的局限: - FastVAR:在 token 维度保留固定比例的高频 token → 低频但语义关键的 token 被剪掉 → 语义丧失 - SkipVAR:在尺度维度跳过某些 scale 或替换无条件分支 → 细节坍塌 - 两者都基于单维度稀疏分析,无法捕捉 token 间复杂的相对关系

核心挑战:(1) 需要细粒度的稀疏分析防止信息丢失;(2) 需要多维度表征评估 token 重要性;(3) 分析本身需高效,不能引入过多开销。

方法详解

整体框架

ToProVAR 利用注意力熵作为统一度量,在三个维度进行语义和稀疏性分析:

\[\mathcal{H}(q_i) = -\sum_{j=1}^{N} \alpha_{i,j} \log \alpha_{i,j}\]

低熵 = 注意力集中在少数目标 → 强语义选择性;高熵 = 注意力均匀分布 → 弱语义聚焦。

1. 尺度级优化 — 语义精细度分析

不同图像需要不同的生成深度:复杂对象(如"赛博狐狸")需要更深尺度渲染细节,简单对象(如字母"W")在浅尺度即可稳定。

定义低熵比例:

\[\rho_s = \frac{|\{i \mid H_i^s < \bar{H}^s\}|}{N_s}\]

剪枝起始尺度:\(D = \min\{s \mid \rho_s \geq \tau\}\)

通过预采样实验标定阈值 \(\tau\),当生成收敛时 \(\rho_s\) 趋于稳定。

2. 层级优化 — 语义范围分析

将注意力熵范围扩展到整个层的 token 分布。两类层: - Global Layer:均匀网格状注意力分布,主成分突出,捕捉全局空间关系 - Detail Layer:语义驱动的局部注意力,主成分不突出,精炼局部纹理

区分方法:对熵图做 SVD,计算主成分比:

\[\varrho^{(l,s)} = \sigma_1^{(l,s)} / \sigma_2^{(l,s)}\]

层表征得分:\(\mathcal{R}^{(l,s)} = \exp(-\beta(\varrho^{(l,s)}-1))\)

  • \(\mathcal{R} \to 1\):Detail Layer(可剪枝)
  • \(\mathcal{R} \to 0\):Global Layer(不可剪枝)

关键发现:压缩 Global Layer 超过 50% 会严重降质,而 Detail Layer 即使压缩 90% 仍保持高保真。

3. Token 级优化 — 细粒度语义显著性分析

归一化 token 熵后,整合三维信息定义统一剪枝倾向:

\[q_i^{(s,l)} = \phi(s) \cdot \mathcal{R}^{(l,s)} \cdot \hat{H}_i^{(s,l)}\]

其中 \(\phi(s) = s / S_{\max}\) 为单调尺度因子。保留概率:

\[P_{\text{keep}}(i|s,l) = \begin{cases} 1, & s < D \\ 1 - \text{clip}(\alpha_{\min} + (\alpha_{\max}-\alpha_{\min})q_i^{(s,l)}, 0, 1), & \text{otherwise} \end{cases}\]

Flash Attention Entropy

直接计算注意力熵需要显式构造 \(N \times N\) 注意力矩阵,不兼容 FlashAttention。利用代数恒等式 \(kx\log(kx) = kx\log x + (\log k) \cdot xk\),将熵计算分解为可累积的统计量,在 FlashAttention 内核中在线计算,仅增加约 0.17ms 开销。

实验

主要结果(GenEval + DPG)

方法 GenEval Overall ↑ DPG Overall ↑ 延迟(s) ↓ 加速比
Infinity-2B 0.69 83.41 2.10 1.0×
+FastVAR 0.68 83.39 0.80 2.6×
+SkipVAR 0.67 82.94 1.10 2.0×
+ToProVAR 0.69 83.07 0.61 3.4×
Infinity-8B 0.83 86.68 4.86 1.0×
+FastVAR 0.81 86.50 2.01 2.4×
+SkipVAR 0.82 86.44 2.11 2.3×
+ToProVAR 0.83 86.70 1.78 2.7×

人类偏好基准(HPSv2 + ImageReward)

Infinity-8B 上 ToProVAR 延迟降低 67%,ImageReward 保持一致(1.04 vs 1.04),HPSv2 仅降 0.41。

MJHQ30K 感知质量

People 类别 FID 甚至从 58.91 降至 58.84(边加速边提升),Landscape 和 Food 类别 FID 几乎无变化。

消融实验

配置 延迟(s) 加速比 GenEval ↑
仅 Scale Depth 0.47 4.5× 0.477
+ Layer Repr. 0.57 3.7× 0.679
+ Token Pruning(完整) 0.61 3.4× 0.690
  • 单用尺度深度定位加速最激进但质量严重下降
  • 逐步加入层级和 token 级优化逐渐恢复质量
  • Flash Attention Entropy 是效率关键:无 FAE 版本延迟 1.10s vs 有 FAE 0.61s

计算开销分析

  • FAE 在 scale=10 仅增加 0.17ms(vs 朴素计算的 12.06ms,降低 ~90%)
  • 层级 SVD 分析总计 49.84ms,占端到端延迟 < 3%

亮点

  • 注意力熵作为统一度量,优雅地连接三个维度的稀疏性分析
  • Flash Attention Entropy 工程贡献突出,使在线熵计算实际可行
  • 在 Infinity-2B 上 3.4× 加速且质量无损(GenEval 不变),在 8B 上 2.7× 加速且 DPG 略有提升
  • 可视化对比清晰展示了语义丧失/结构扭曲/细节坍塌问题的解决

局限性

  • 仅在 Infinity-2B/8B(VAR 架构)上验证,未测试其他 VAR 变体
  • 阈值 \(\tau\) 和超参数 \(\alpha_{\min}, \alpha_{\max}\) 需要预采样标定
  • 三维分析虽然高效但仍引入了约 3% 额外开销
  • 未探索训练时与推理时联合优化的方案
  • 仅关注图像生成,未扩展到视频或多模态生成

相关工作

  • VAR 模型:Tian et al. (VAR), Infinity (Han et al.) — 逐尺度预测范式
  • VAR 加速:FastVAR(频率剪枝)、SkipVAR(尺度跳过)、SparseVAR(token 稀疏)、CoDe(协同解码)
  • 扩散模型加速:蒸馏、量化、剪枝、特征缓存 — 不直接适用于 VAR
  • KV Cache 优化:HACK、ScaleKV — 互补方向

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 三维注意力熵分析框架是全新的
  • 技术深度: ⭐⭐⭐⭐⭐ — 理论分析 + 工程实现(FAE)均扎实
  • 实验充分度: ⭐⭐⭐⭐ — 多基准多指标,消融详尽
  • 实用价值: ⭐⭐⭐⭐⭐ — 3.4× 加速无损质量,直接可用

相关论文