PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models¶

会议: ICLR 2026
arXiv: 2601.21238
代码: GitHub
领域: 模型压缩
关键词: 视觉生成, 自回归模型, 后训练量化, 激活量化, 离群值抑制

一句话总结¶

提出 PTQ4ARVG，首个针对自回归视觉生成（ARVG）模型的系统化 PTQ 框架，通过增益投影缩放（GPS）、静态 Token 级量化（STWQ）和分布引导校准（DGC）解决 ARVG 特有的三大量化挑战。

现有痛点：领域现状：自回归视觉生成模型（VAR、RAR、PAR、MAR）在图像生成上已超越扩散模型，但模型体积大（2-3B 参数）、推理慢（PAR-3B 生成一张图 >3 秒）。量化是加速推理的有效手段，但将现有量化方法应用于 ARVG 面临三大特有挑战：

通道级严重离群值：经 AdaLN 模块调整后的激活在通道间范围差异极大

Token 级高度动态激活：位置编码导致 token 维度分布剧烈变化，且条件 token 形成 sink token

样本级分布信息不匹配：网络激活在不同样本间高度相似（尤其无条件样本），导致校准集冗余

PTQ4ARVG 包含三个针对性设计的组件，分别解决通道级、Token 级和样本级量化挑战，且全部无需训练。

增益投影缩放 (GPS - Gain-Projected Scaling)：
- 对量化损失进行 Taylor 展开，分别量化激活和权重损失
- 定义缩放增益：\(g(s_2) = g_{\bm{x}} - g_{\bm{W}_{:,1}}\)（激活损失减少 - 权重损失增加）
- 通过求导得到闭式最优缩放因子：\(s_2 = s_1 \frac{\sqrt{\sum|{\Delta W_{2,i} x_2}|}}{\sqrt{\sum|{W_{2,i} \Delta x_2}|}}\)
- 首个基于数学优化的量化缩放策略，优于经验设计方法
静态 Token 级量化 (STWQ)：
- 利用 ARVG 的两个独特性质：固定 token 序列长度 + 位置不变的跨样本分布
- 为 AdaLN 模块沿 token 序列分配静态量化参数
- 为线性层分别处理 sink token 和普通 token
- 量化参数离线设置，无在线校准开销，兼容标准 CUDA 内核
分布引导校准 (DGC)：
- 用 Mahalanobis 距离衡量样本的分布熵：\(\rho(x) = \sqrt{(x-u)^T S^{-1} (x-u)}\)
- 选取分布熵最高的 top-50% 样本作为校准集
- 消除冗余样本，确保校准分布与真实分布匹配

方法	VAR-d16 FID ↓	VAR-d16 IS ↑	VAR-d24 FID ↓	VAR-d24 IS ↑
FP	3.60	283.21	2.33	317.16
SmoothQuant	4.29	229.87	4.42	246.68
OS+	4.11	230.41	4.14	250.61
OmniQuant	4.19	226.92	-	-
PTQ4ARVG	3.82	268.19	2.69	304.82

方法	FID ↓	IS ↑	Precision ↑
SmoothQuant W6A6	>10	<200	严重退化
PTQ4ARVG W6A6	~4.5	~280	竞争力强