Revisiting Autoregressive Models for Generative Image Classification¶

日期: 2026-03-19
arXiv: 2603.19122
代码: GitHub
领域: 图像生成
关键词: 自回归分类, 序边际化, 生成式分类器, RandAR, DINOv2

一句话总结¶

揭示固定 token 顺序是 AR 生成式分类器的关键瓶颈，利用 any-order AR 模型（RandAR）通过对多种排列取序边际化（order-marginalized）估计类条件 log-likelihood，在 ImageNet 及 OOD 基准上全面超越扩散分类器，效率提升 25×，并首次与 DINOv2 等 SOTA 自监督方法竞争。

研究背景与动机¶

领域现状: 生成式分类器（GC）通过估计类条件 likelihood \(p(\mathbf{x}|c)\) + 贝叶斯公式得到后验。扩散分类器已展示相较判别式模型的独特优势：避免捷径学习、形状偏向（更接近人类感知）。
现有痛点: (a) 扩散分类器需 100-250 次前向传播来估计 ELBO，推理极慢；(b) AR 模型此前在视觉分类中表现不如扩散模型——被认为不适合做分类器；(c) 固定 raster scan 顺序给 AR 模型引入了强归纳偏置——某些顺序可能导致模型仅依赖局部判别线索。
核心矛盾: AR 模型单次前向即可估计 log-likelihood（高效），但固定顺序的归纳偏置限制了分类准确率。
切入角度: 利用支持任意 token 顺序的 RandAR 模型，通过蒙特卡洛采样多种排列来边际化顺序——平均后的似然估计覆盖更全面的图像语义，而每增加一个顺序只是一次额外前向传播。

方法详解¶

整体框架¶

输入图像 → VQ-VAE 编码为 256 个离散 token
对每个类别 \(c_i\)，采样 K 个随机排列 \(\pi_k\)
计算序边际化 log-likelihood 下界：\(\log p(\mathbf{x}|c) \geq \frac{1}{K}\sum_{k=1}^K \log p(\mathbf{x}|\pi_k, c)\)
选 \(\arg\max_{c_i} \log p(\mathbf{x}|c_i)\) 为预测类别

关键设计¶

Any-order AR 模型（RandAR）:
- 做什么：允许任意 token 顺序的自回归生成
- 核心思路：在 token 序列中交织位置指令 token \([\mathbf{p}_1,\mathbf{x}_1,...,\mathbf{p}_N,\mathbf{x}_N]\)，训练时随机排列，使模型学会在任意条件前缀下预测
- 为什么重要：固定顺序 AR 仅看到特定前缀方向的上下文，任意顺序则允许从不同视角"观察"图像
序边际化 log-likelihood（核心）:
- 做什么：通过 K 个排列的平均 log-likelihood 估计序无关的类条件密度
- 用 Jensen 不等式取下界比直接估计 \(\mathbb{E}_\pi[p(\mathbf{x}|\pi,c)]\) 效果好得多——因为 RandAR 训练目标本身就是优化该下界
- K=20 时准确率在 ImageNet 上从 0.670（K=1）提升到 0.769
- 关键发现：K=1 时随机顺序不如 raster 顺序（0.670 vs 0.701），但 K≥2 即超越
Per-token 分析:
- 发现 K=1 时模型依赖局部判别线索，K=20 时目标形状更加完整清晰
- 约 50-80 token 前缀长度时 per-token 准确率最高——此时前缀只捕获高层信息，迫使模型生成类定义细节

实验关键数据¶

主实验（L/16 模型, Top-1 Accuracy）¶

方法	类型	IN-Val	IN-R	IN-S	IN-A
ViT-L	判别式	0.803	0.409	0.291	0.166
DINOv2-L	SSL	0.819	0.476	0.358	0.363
DiT-L	扩散	0.771	0.393	0.361	0.133
LlamaGen	AR固定序	0.640	0.298	0.232	0.143
VAR	AR多尺度	0.656	0.255	0.177	0.083
RandAR (Ours)	AR序边际化	0.780	0.463	0.406	0.145

RandAR 内部消融¶

Token order	K	IN-Val	IN-R	IN-S
Raster	1	0.701	0.351	0.301
Random	1	0.670	0.351	0.289
Random	5	0.759	0.444	0.383
Random	20	0.769	0.469	0.409

关键发现¶

AR 序边际化分类器在 IN-Val 上超越所有扩散分类器（0.780 vs DiT 0.771），IN-S/R 上也全面领先
与 DINOv2 比较：IN-Val 差 4%（0.780 vs 0.819），但 IN-S 上超越（0.406 vs 0.358）
效率：AR K=20 需 20 次前向传播，扩散需 100-250 次——最多 25× 更快
对扩散模型做类似的噪声边际化不提升性能——因为时间步平均已隐含了噪声平均

亮点与洞察¶

Token 顺序是被忽视的关键变量：生成式分类的准确率很大程度由"以什么顺序观察图像"决定——这对理解 AR 视觉模型有深刻启示
下界比直接估计更好：RandAR 训练目标与下界对齐，直接估计反而不好——类比扩散模型用训练 loss 而非真实 ELBO 做分类效果更好
生成式分类器首次接近 SOTA SSL：之前 GC 只与监督分类器比，本文首次对标 DINOv2 并在 OOD 上竞争

局限性 / 可改进方向¶

仅在 256×256 ImageNet 上验证，未测试更高分辨率和更复杂场景
1000 类分类计算量大（K×M 次前向），实际部署需考虑类别数
未研究最优采样策略——K 个排列是随机的，可能存在更好的排列选择方法
VQ-VAE tokenizer 的重建质量可能是分类精度的上限

评分¶

新颖性: ⭐⭐⭐⭐ 序边际化是简洁有力的洞察，将 AR 分类器从不行变成最强
实验充分度: ⭐⭐⭐⭐⭐ per-token 分析、K 消融、多 OOD 基准、与 DINOv2 首次对标
写作质量: ⭐⭐⭐⭐ 分析深入，图示清晰
价值: ⭐⭐⭐⭐⭐ 改变了 AR 模型在视觉分类领域的地位