Frequency-Aware Token Reduction for Efficient Vision Transformer¶

会议: NeurIPS 2025 arXiv: 2511.21477 代码: GitHub 领域: 模型压缩 / Vision Transformer 关键词: token reduction, rank collapse, over-smoothing, frequency analysis, vision transformer

一句话总结¶

从频域视角提出 frequency-aware token reduction，将 token 分为高频（HF）和低频（LF）两组，选择性保留 HF token 并将 LF token 聚合为 DC token，在缓解 rank collapse 的同时减少 ViT 的计算量，在 30% token 减少率下多个模型上超越现有 SOTA。

研究背景与动机¶

领域现状：Vision Transformer 的二次复杂度推动了 token reduction 研究——主要分为 merging（融合相似 token）和 pruning（丢弃不重要 token）两大类，已有 ToME、EViT、DynamicViT 等方法。
现有痛点：现有方法忽略了 self-attention 的频域特性——SA 本质上是低通滤波器，堆叠 SA 层会导致 rank collapse（所有 token 表示趋同）。Token reduction 会加剧这一问题：merging 直接平均掉高频信号，pruning 如果移除含高频信息的 token 也加速 collapse。
核心矛盾：减少 token 数量以提高效率 vs 保留高频信息以维持 ViT 表达能力，二者看似矛盾。
本文要解决什么？ 设计一种在 token reduction 中显式保护高频信息的方法，在提高效率的同时缓解 rank collapse。
切入角度：将 attention 矩阵分解为低频分量 \(A^{LP} = \frac{1}{n}\mathbf{11}^T\) 和高频分量 \(A^{HP} = A - A^{LP}\)，根据 \(A^{HP}\) 中每个 token 对高频贡献的大小选择保留/聚合。
核心idea一句话：保留对输出高频分量贡献最大的 token，将低频 token 聚合为 DC token 保留零频信息。

方法详解¶

整体框架¶

在每个 reduction 层：(1) 从 attention 矩阵中分解出高频分量 \(A^{HP}\)；(2) 按列求和识别 HF token 和 LF token；(3) 保留 top-r 个 HF token，将 LF token 按空间局部组聚合为 DC token；(4) 用可学习参数 \(\omega_1, \omega_2\) 调整后续 attention 权重以缓解 collapse。

关键设计¶

频域 Token 分选:
做什么：将 token 分为高频（HF）和低频（LF）两组
核心思路：对多头注意力矩阵求高频分量 \(A^{HP} = A - \frac{1}{n}\mathbf{11}^T\)，按列求和得到每个 token 的高频贡献分数 \(\tilde{A}_k\)。分数最高的 r 个为 HF token，最低的 r 个为 LF token
设计动机：只需简单的列平均运算（比 FFT 或余弦相似度计算高效得多），直接利用已有的 attention 矩阵，零额外计算开销
Local DC Token 聚合:
做什么：将 LF token 按 \(w^2\) 个空间局部组聚合为 DC token，保留零频信息
核心思路：\(x_{DC}^j = \frac{1}{|N_{LF}^j|} \sum_{i \in N_{LF}^j} x_i\)，多层 reduction 时递归更新 DC token
设计动机：直接丢弃 LF token 会损失 DC 信号（图 2b 验证 LF token 确实主导 DC 分量）；局部 DC token（\(w>1\)）在早期层保留 LF token 中残余的高频空间局部信息
注意力权重调整:
做什么：修改 attention 矩阵以强调 HF token 并补偿 DC token 的低 attention 权重
核心思路：\(\hat{A} = A^{LP} + (\omega_1+1)A^{HP} + (\omega_2+1)A^{N_{DC}}\)，\(\omega_1\) 增强高频信号，\(\omega_2\) 补偿 DC token 因 Jensen 不等式导致的偏低 attention score
设计动机：仅减少 token 不够，还需主动抑制后续层对剩余 token 的 rank collapse 趋势

理论支撑¶

Proposition 3.1 证明：无论 pruning 还是 merging 都使 \(\|H_f[SA(MX)]\|_F \leq \|H_f[SA(X)]\|_F\)，即 token reduction 加速 rank collapse。本方法通过选择性保留 HF token 减缓这一趋势。

实验关键数据¶

DeiT 系列主实验（ImageNet-1K, 30% token reduction per layer）¶

模型	方法	MACs	Accuracy
DeiT-S	Baseline	4.6G	79.8%
DeiT-S	ToME	2.9G	79.5%
DeiT-S	EViT	3.0G	79.5%
DeiT-S	DiffRate	2.9G	79.6%
DeiT-S	本文	2.9G	80.0%
DeiT-B	Baseline	17.6G	81.8%
DeiT-B	ToME	11.2G	81.7%
DeiT-B	本文	11.5G	82.1%

自监督模型¶

模型	基线 Acc	本文 Acc	MACs 减少
MAE ViT-B	83.6%	83.5%	~35%
DINO ViT-S	81.5%	81.5%	~35%

消融实验¶

配置	Accuracy
仅 HF token 保留	79.6%
+ DC token	79.8%
+ Local DC	79.9%
+ Attention 调整（\(\omega_1, \omega_2\)）	80.0%

关键发现¶

HF token 确实包含更多高频信号（图 2a 频率分析验证），LF token 主导 DC 分量（图 2b 相似度验证）
对 HF token 加噪声对精度影响远大于对 LF token 加噪声（图 2c），证实 HF token 对模型更关键
现有 pruning 方法（如 EViT）仅在最后几层才倾向保留 HF token，在中间层行为不一致；本方法在所有层显式保留 HF token
方法在减少 30%+ token 的情况下，多数模型精度反而提升（超过未减少 token 的基线），说明缓解 rank collapse 的正向效应大于信息损失

亮点与洞察¶

频域理解 token reduction：首次将 token reduction 与 ViT 的 rank collapse/over-smoothing 理论联系起来，提供了新的设计视角
简洁高效的 HF/LF 分选：仅用 attention 矩阵的列平均，零额外计算，就能有效区分高/低频 token
精度提升的反直觉结果：减少 token 反而提升精度，说明 rank collapse 是 ViT 的真实瓶颈，而非参数或容量不足

局限性 / 可改进方向¶

仅验证分类任务：检测、分割等密集预测任务可能对低频信息更敏感
reduction 层位置固定（第4/7/10层）：目前硬编码，可能不是所有模型的最优选择
\(\omega_1, \omega_2\) 需要微调：需要 30 epoch 微调，非完全 training-free

评分¶

新颖性: ⭐⭐⭐⭐ 频域视角的 token reduction 是新贡献，与 rank collapse 理论的结合优雅
实验充分度: ⭐⭐⭐⭐⭐ 多种模型（DeiT/ViT/MAE/DINO）+ 多种训练策略 + 详细消融 + 频域分析可视化
写作质量: ⭐⭐⭐⭐ 理论动机清晰，实验与理论对应紧密
价值: ⭐⭐⭐⭐ 实用的 ViT 加速方法，rank collapse 视角对 ViT 效率研究有启发