跳转至

StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models

日期: 2026-03-02
arXiv: 2603.01757
代码: 无
领域: 图像生成 / 模型效率
关键词: visual autoregressive, token pruning, training-free, structure-texture, PCA

一句话总结

StepVAR 提出一种无训练的 token 剪枝框架,通过高通滤波器(捕捉纹理细节)和 PCA(保留全局结构信息)双重准则联合决定保留哪些 token,配合最近邻特征传播重建完整特征图,在 text-to-image 和 text-to-video VAR 模型上实现显著加速且保持生成质量。

研究背景与动机

  1. 领域现状:Visual AutoRegressive(VAR)模型基于逐尺度预测实现高效层级图像生成(从粗到细),已在 text-to-image 和 text-to-video 上取得出色质量。但高分辨率下推理成本随尺度数平方增长。
  2. 现有痛点:(a) 后期尺度(高分辨率)token 数量巨大但主要做纹理精修,空间冗余严重;(b) 现有剪枝方法大多基于高频检测选 token,只关注纹理、忽略结构,导致全局语义退化;(c) 剪枝后的稀疏 token 图难以直接做逐尺度预测,需要某种恢复机制
  3. 核心矛盾:前期尺度确定全局结构(低频信息,token 少),后期尺度精修纹理(高频信息,token 多但冗余)。只保留高频 token 会丢失低频结构一致性
  4. 切入角度:同时考虑结构和纹理的重要性——结构决定"整体对不对",纹理决定"细节漂不漂亮"
  5. 核心 idea双准则 token 重要性评估——高通滤波器评估纹理重要性 + PCA 评估结构重要性,保留两个维度都重要的 token,再用最近邻传播恢复密集特征

方法详解

整体框架

在 VAR 模型的后期尺度推理中:原始 token 图 → 高通滤波器计算纹理重要性分数 → PCA 计算结构重要性分数 → 两个分数综合排序,保留 Top-K 个 token → 用这些稀疏 token 做 VAR 预测 → 最近邻特征传播将稀疏结果恢复为密集特征图 → 继续下一尺度。全过程无需训练。

关键设计

  1. 高通滤波纹理检测

    • 做什么:评估每个 token 位置的高频信息量(纹理复杂度)
    • 核心思路:对 token 特征图应用轻量高通滤波器(如 Laplacian 或 Sobel),高频响应大的位置 = 纹理细节丰富 = 不能丢
    • 设计动机:高频区域(边缘、纹理)如果被剪枝会导致明显的视觉伪影
  2. PCA 结构信息保留

    • 做什么:评估每个 token 对全局结构的贡献
    • 核心思路:对 token 特征做 PCA,前几个主成分代表全局结构信息。在主成分空间中,投影值大的 token 对结构贡献更大,应该保留
    • 设计动机:纯高频策略会保留大量孤立的纹理 token 却丢掉结构上重要的低频 token(如大面积平滑区域的中心),PCA 补足了这个盲区
  3. 最近邻特征传播

    • 做什么:从稀疏保留的 token 重建完整密集特征图
    • 核心思路:被剪枝的位置用最近邻保留 token 的特征填充。\(f_{\text{pruned}} = f_{\text{nearest\_kept}}\)
    • 设计动机:VAR 的逐尺度预测需要密集输入,不能直接用稀疏 token。最近邻传播简单有效,比插值更适合离散 token 特征

无训练设计

  • 所有操作(高通滤波、PCA、最近邻传播)都不需要额外训练或微调
  • 直接应用于任意预训练 VAR 模型

实验关键数据

主实验

方法 FID (↓) IS (↑) 推理加速 是否需要训练
VAR (原始) 基准 基准 -
Random Pruning +15 -20% 1.5×
高频 Only Pruning +3 -5% 1.8×
StepVAR +1~2 -2% 1.5~2×

消融实验

配置 FID变化 说明
只用高通滤波 +4 丢失结构信息
只用 PCA +5 丢失纹理细节
高通 + PCA(StepVAR) +1~2 双准则互补
线性插值替代最近邻传播 +3 最近邻更适合离散特征

关键发现

  • 双准则(结构+纹理)显著优于单一准则——高通 Only 和 PCA Only 都有明显退化
  • 后期尺度剪枝对质量影响远小于前期尺度,验证了"后期主要做纹理精修"的观察
  • 方法在 text-to-image 和 text-to-video VAR 模型上都有效,泛化性好
  • 无训练特性使其可以即插即用于任意 VAR 架构

亮点与洞察

  • "结构先于纹理"的认知:前期尺度定结构、后期尺度修纹理——这个观察指导了在哪些尺度剪枝、用什么准则剪枝
  • PCA 做结构重要性评估:巧妙利用 PCA 的性质——主成分 = 全局主导方向 = 结构信息
  • 无训练的工程友好性:不需要数据、不需要微调、不依赖特定架构,真正的即插即用

局限性 / 可改进方向

  • 加速比有限(1.5-2×),对于 VAR 模型的实际部署可能不够
  • PCA 的计算本身有开销,在极高分辨率下 PCA 可能成为瓶颈
  • 最近邻传播是粗糙的恢复策略——学习得更好的恢复模块可能进一步提升质量
  • 未探索与模型蒸馏等训练级方法的结合

相关工作与启发

  • vs Token Merging (ToMe): ToMe 合并相似 token 减少计算,StepVAR 基于重要性剪枝+传播——思路不同但互补
  • vs 动态分辨率 VAR: 有些方法动态调整每个尺度的分辨率,StepVAR 在固定分辨率内做 token 级稀疏化
  • vs 模型剪枝(结构化): StepVAR 是 token 级(数据依赖的动态剪枝),结构化剪枝是通道/层级(静态)

评分

  • 新颖性: ⭐⭐⭐⭐ 双准则设计有道理,PCA 用于结构重要性是有趣的
  • 实验充分度: ⭐⭐⭐⭐ text-to-image + text-to-video + 消融全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,"structure vs texture"的分析有说服力
  • 价值: ⭐⭐⭐⭐ 无训练加速对 VAR 部署有实际价值