ToProVAR: Efficient Visual Autoregressive Modeling via Tri-Dimensional Entropy-Aware Semantic Analysis and Sparsity Optimization¶

元信息¶

会议: ICLR 2026
arXiv: 2602.22948
代码: 即将公开
领域: 图像生成 / 视觉自回归模型加速
关键词: VAR, attention entropy, token 剪枝, 模型加速, 三维稀疏性优化

一句话总结¶

提出 ToProVAR 框架，利用注意力熵统一分析 VAR 模型的 token/层/尺度三个维度的稀疏性，实现最高 3.4× 加速且图像质量几乎无损，显著优于 FastVAR 和 SkipVAR。

研究背景与动机¶

视觉自回归 (VAR) 模型将图像生成从"逐 token 预测"改为"逐分辨率预测"（从粗到细），首次让 GPT 风格的 AR 模型在图像质量上超越扩散模型。然而核心问题是：token 数量随分辨率指数增长，后期阶段计算效率极低。

现有加速方法的局限： - FastVAR：在 token 维度保留固定比例的高频 token → 低频但语义关键的 token 被剪掉 → 语义丧失 - SkipVAR：在尺度维度跳过某些 scale 或替换无条件分支 → 细节坍塌 - 两者都基于单维度稀疏分析，无法捕捉 token 间复杂的相对关系

核心挑战：(1) 需要细粒度的稀疏分析防止信息丢失；(2) 需要多维度表征评估 token 重要性；(3) 分析本身需高效，不能引入过多开销。

方法详解¶

整体框架¶

ToProVAR 利用注意力熵作为统一度量，在三个维度进行语义和稀疏性分析：

\[\mathcal{H}(q_i) = -\sum_{j=1}^{N} \alpha_{i,j} \log \alpha_{i,j}\]

低熵 = 注意力集中在少数目标 → 强语义选择性；高熵 = 注意力均匀分布 → 弱语义聚焦。

1. 尺度级优化 — 语义精细度分析¶

不同图像需要不同的生成深度：复杂对象（如"赛博狐狸"）需要更深尺度渲染细节，简单对象（如字母"W"）在浅尺度即可稳定。

定义低熵比例：

\[\rho_s = \frac{|\{i \mid H_i^s < \bar{H}^s\}|}{N_s}\]

剪枝起始尺度：\(D = \min\{s \mid \rho_s \geq \tau\}\)

通过预采样实验标定阈值 \(\tau\)，当生成收敛时 \(\rho_s\) 趋于稳定。

2. 层级优化 — 语义范围分析¶

将注意力熵范围扩展到整个层的 token 分布。两类层： - Global Layer：均匀网格状注意力分布，主成分突出，捕捉全局空间关系 - Detail Layer：语义驱动的局部注意力，主成分不突出，精炼局部纹理

区分方法：对熵图做 SVD，计算主成分比：

\[\varrho^{(l,s)} = \sigma_1^{(l,s)} / \sigma_2^{(l,s)}\]

层表征得分：\(\mathcal{R}^{(l,s)} = \exp(-\beta(\varrho^{(l,s)}-1))\)

\(\mathcal{R} \to 1\)：Detail Layer（可剪枝）
\(\mathcal{R} \to 0\)：Global Layer（不可剪枝）

关键发现：压缩 Global Layer 超过 50% 会严重降质，而 Detail Layer 即使压缩 90% 仍保持高保真。

3. Token 级优化 — 细粒度语义显著性分析¶

归一化 token 熵后，整合三维信息定义统一剪枝倾向：

\[q_i^{(s,l)} = \phi(s) \cdot \mathcal{R}^{(l,s)} \cdot \hat{H}_i^{(s,l)}\]

其中 \(\phi(s) = s / S_{\max}\) 为单调尺度因子。保留概率：

\[P_{\text{keep}}(i|s,l) = \begin{cases} 1, & s < D \\ 1 - \text{clip}(\alpha_{\min} + (\alpha_{\max}-\alpha_{\min})q_i^{(s,l)}, 0, 1), & \text{otherwise} \end{cases}\]

Flash Attention Entropy¶

直接计算注意力熵需要显式构造 \(N \times N\) 注意力矩阵，不兼容 FlashAttention。利用代数恒等式 \(kx\log(kx) = kx\log x + (\log k) \cdot xk\)，将熵计算分解为可累积的统计量，在 FlashAttention 内核中在线计算，仅增加约 0.17ms 开销。

实验¶

主要结果（GenEval + DPG）¶

方法	GenEval Overall ↑	DPG Overall ↑	延迟(s) ↓	加速比
Infinity-2B	0.69	83.41	2.10	1.0×
+FastVAR	0.68	83.39	0.80	2.6×
+SkipVAR	0.67	82.94	1.10	2.0×
+ToProVAR	0.69	83.07	0.61	3.4×
Infinity-8B	0.83	86.68	4.86	1.0×
+FastVAR	0.81	86.50	2.01	2.4×
+SkipVAR	0.82	86.44	2.11	2.3×
+ToProVAR	0.83	86.70	1.78	2.7×

人类偏好基准（HPSv2 + ImageReward）¶

Infinity-8B 上 ToProVAR 延迟降低 67%，ImageReward 保持一致（1.04 vs 1.04），HPSv2 仅降 0.41。

MJHQ30K 感知质量¶

People 类别 FID 甚至从 58.91 降至 58.84（边加速边提升），Landscape 和 Food 类别 FID 几乎无变化。

消融实验¶

配置	延迟(s)	加速比	GenEval ↑
仅 Scale Depth	0.47	4.5×	0.477
+ Layer Repr.	0.57	3.7×	0.679
+ Token Pruning（完整）	0.61	3.4×	0.690

单用尺度深度定位加速最激进但质量严重下降
逐步加入层级和 token 级优化逐渐恢复质量
Flash Attention Entropy 是效率关键：无 FAE 版本延迟 1.10s vs 有 FAE 0.61s

计算开销分析¶

FAE 在 scale=10 仅增加 0.17ms（vs 朴素计算的 12.06ms，降低 ~90%）
层级 SVD 分析总计 49.84ms，占端到端延迟 < 3%

亮点¶

注意力熵作为统一度量，优雅地连接三个维度的稀疏性分析
Flash Attention Entropy 工程贡献突出，使在线熵计算实际可行
在 Infinity-2B 上 3.4× 加速且质量无损（GenEval 不变），在 8B 上 2.7× 加速且 DPG 略有提升
可视化对比清晰展示了语义丧失/结构扭曲/细节坍塌问题的解决

局限性¶

仅在 Infinity-2B/8B（VAR 架构）上验证，未测试其他 VAR 变体
阈值 \(\tau\) 和超参数 \(\alpha_{\min}, \alpha_{\max}\) 需要预采样标定
三维分析虽然高效但仍引入了约 3% 额外开销
未探索训练时与推理时联合优化的方案
仅关注图像生成，未扩展到视频或多模态生成

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 三维注意力熵分析框架是全新的
技术深度: ⭐⭐⭐⭐⭐ — 理论分析 + 工程实现（FAE）均扎实
实验充分度: ⭐⭐⭐⭐ — 多基准多指标，消融详尽
实用价值: ⭐⭐⭐⭐⭐ — 3.4× 加速无损质量，直接可用