跳转至

Revisiting Autoregressive Models for Generative Image Classification

日期: 2026-03-19
arXiv: 2603.19122
代码: GitHub
领域: 图像生成
关键词: 自回归分类, 序边际化, 生成式分类器, RandAR, DINOv2

一句话总结

揭示固定 token 顺序是 AR 生成式分类器的关键瓶颈,利用 any-order AR 模型(RandAR)通过对多种排列取序边际化(order-marginalized)估计类条件 log-likelihood,在 ImageNet 及 OOD 基准上全面超越扩散分类器,效率提升 25×,并首次与 DINOv2 等 SOTA 自监督方法竞争。

研究背景与动机

  1. 领域现状: 生成式分类器(GC)通过估计类条件 likelihood \(p(\mathbf{x}|c)\) + 贝叶斯公式得到后验。扩散分类器已展示相较判别式模型的独特优势:避免捷径学习、形状偏向(更接近人类感知)。

  2. 现有痛点: (a) 扩散分类器需 100-250 次前向传播来估计 ELBO,推理极慢;(b) AR 模型此前在视觉分类中表现不如扩散模型——被认为不适合做分类器;(c) 固定 raster scan 顺序给 AR 模型引入了强归纳偏置——某些顺序可能导致模型仅依赖局部判别线索。

  3. 核心矛盾: AR 模型单次前向即可估计 log-likelihood(高效),但固定顺序的归纳偏置限制了分类准确率。

  4. 切入角度: 利用支持任意 token 顺序的 RandAR 模型,通过蒙特卡洛采样多种排列来边际化顺序——平均后的似然估计覆盖更全面的图像语义,而每增加一个顺序只是一次额外前向传播。

方法详解

整体框架

  1. 输入图像 → VQ-VAE 编码为 256 个离散 token
  2. 对每个类别 \(c_i\),采样 K 个随机排列 \(\pi_k\)
  3. 计算序边际化 log-likelihood 下界:\(\log p(\mathbf{x}|c) \geq \frac{1}{K}\sum_{k=1}^K \log p(\mathbf{x}|\pi_k, c)\)
  4. \(\arg\max_{c_i} \log p(\mathbf{x}|c_i)\) 为预测类别

关键设计

  1. Any-order AR 模型(RandAR):

    • 做什么:允许任意 token 顺序的自回归生成
    • 核心思路:在 token 序列中交织位置指令 token \([\mathbf{p}_1,\mathbf{x}_1,...,\mathbf{p}_N,\mathbf{x}_N]\),训练时随机排列,使模型学会在任意条件前缀下预测
    • 为什么重要:固定顺序 AR 仅看到特定前缀方向的上下文,任意顺序则允许从不同视角"观察"图像
  2. 序边际化 log-likelihood(核心):

    • 做什么:通过 K 个排列的平均 log-likelihood 估计序无关的类条件密度
    • 用 Jensen 不等式取下界比直接估计 \(\mathbb{E}_\pi[p(\mathbf{x}|\pi,c)]\) 效果好得多——因为 RandAR 训练目标本身就是优化该下界
    • K=20 时准确率在 ImageNet 上从 0.670(K=1)提升到 0.769
    • 关键发现:K=1 时随机顺序不如 raster 顺序(0.670 vs 0.701),但 K≥2 即超越
  3. Per-token 分析:

    • 发现 K=1 时模型依赖局部判别线索,K=20 时目标形状更加完整清晰
    • 约 50-80 token 前缀长度时 per-token 准确率最高——此时前缀只捕获高层信息,迫使模型生成类定义细节

实验关键数据

主实验(L/16 模型, Top-1 Accuracy)

方法 类型 IN-Val IN-R IN-S IN-A
ViT-L 判别式 0.803 0.409 0.291 0.166
DINOv2-L SSL 0.819 0.476 0.358 0.363
DiT-L 扩散 0.771 0.393 0.361 0.133
LlamaGen AR固定序 0.640 0.298 0.232 0.143
VAR AR多尺度 0.656 0.255 0.177 0.083
RandAR (Ours) AR序边际化 0.780 0.463 0.406 0.145

RandAR 内部消融

Token order K IN-Val IN-R IN-S
Raster 1 0.701 0.351 0.301
Random 1 0.670 0.351 0.289
Random 5 0.759 0.444 0.383
Random 20 0.769 0.469 0.409

关键发现

  • AR 序边际化分类器在 IN-Val 上超越所有扩散分类器(0.780 vs DiT 0.771),IN-S/R 上也全面领先
  • 与 DINOv2 比较:IN-Val 差 4%(0.780 vs 0.819),但 IN-S 上超越(0.406 vs 0.358)
  • 效率:AR K=20 需 20 次前向传播,扩散需 100-250 次——最多 25× 更快
  • 对扩散模型做类似的噪声边际化不提升性能——因为时间步平均已隐含了噪声平均

亮点与洞察

  • Token 顺序是被忽视的关键变量:生成式分类的准确率很大程度由"以什么顺序观察图像"决定——这对理解 AR 视觉模型有深刻启示
  • 下界比直接估计更好:RandAR 训练目标与下界对齐,直接估计反而不好——类比扩散模型用训练 loss 而非真实 ELBO 做分类效果更好
  • 生成式分类器首次接近 SOTA SSL:之前 GC 只与监督分类器比,本文首次对标 DINOv2 并在 OOD 上竞争

局限性 / 可改进方向

  • 仅在 256×256 ImageNet 上验证,未测试更高分辨率和更复杂场景
  • 1000 类分类计算量大(K×M 次前向),实际部署需考虑类别数
  • 未研究最优采样策略——K 个排列是随机的,可能存在更好的排列选择方法
  • VQ-VAE tokenizer 的重建质量可能是分类精度的上限

相关工作与启发

  • vs 扩散分类器: 效率提升 25× 且准确率更高——序边际化 AR 可能取代扩散做生成式分类
  • vs A-VARC (VAR+对比对齐): A-VARC 需额外微调,本文纯生成无需训练
  • vs DINOv2: 虽然 IN-Val 上还差 4%,但在某些 OOD 基准上超越——生成式分类器的 OOD 鲁棒性优势

评分

  • 新颖性: ⭐⭐⭐⭐ 序边际化是简洁有力的洞察,将 AR 分类器从不行变成最强
  • 实验充分度: ⭐⭐⭐⭐⭐ per-token 分析、K 消融、多 OOD 基准、与 DINOv2 首次对标
  • 写作质量: ⭐⭐⭐⭐ 分析深入,图示清晰
  • 价值: ⭐⭐⭐⭐⭐ 改变了 AR 模型在视觉分类领域的地位