History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient VLN¶

日期: 2026-03-06
arXiv: 2603.06480
代码: 无
领域: 机器人
关键词: vision-language navigation, token pruning, VLA efficiency, spatio-temporal compression, training-free

一句话总结¶

提出面向视觉语言导航（VLN）的无训练时空 token 剪枝框架——通过 Adaptive MMR 对当前帧做空间 token 选择、Query-Guided Re-weighting 对历史帧做时空压缩，在 90% 剪枝率下仍保持优于所有基线的导航性能，并在真实四足机器人上部署验证。

研究背景与动机¶

领域现状：VLA 模型（如 StreamVLN、NaVILA）在视觉语言导航中表现优异，但 transformer-based 架构计算量大，视觉 token 主导输入长度和计算成本，导致实时部署困难。
现有痛点：(a) 现有 token 剪枝方法（SparseVLM、DivPrune、VisPruner）基于单帧设计，未考虑 VLN 特有的时空结构；(b) VLN 需要历史观测来做长 horizon 决策，但历史帧中存在大量与当前无关的冗余信息；(c) 高压缩比下性能急剧下降。
核心矛盾：VLN 需要利用历史记忆做长程推理，但历史帧的 token 量随时间线性增长带来计算瓶颈。简单剪枝丢弃了对导航有价值的信息。
切入角度：当前帧和历史帧应该区别对待——当前帧保持空间覆盖，历史帧只保留与当前相关的信息。
核心 idea：对当前帧用 Adaptive MMR 平衡 saliency 和 diversity 选 token，对历史帧用当前帧 query 做 relevance reweighting 后再做 A-MMR 压缩。

方法详解¶

整体框架¶

所有帧（历史+当前）→ Vision encoder 提取 token 特征 → [CLS] token 与 patch token 的余弦相似度作为 \(I_{base}\) → 当前帧 A-MMR 选择 → 选中 token 作为 Query → 历史帧 Query-Guided Re-weighting + A-MMR → 合并 token → Projector + LLM → 导航动作预测。

关键设计¶

Adaptive Maximal Marginal Relevance (A-MMR):
- 做什么：迭代选择兼顾重要性和多样性的 token 子集
- 核心思路：\(i^* = \arg\max_{i \in \mathcal{U}} \big(I_{base}^{(i)} \cdot (1 - \max_{j \in \mathcal{S}} \text{sim}(\mathbf{f}_i, \mathbf{f}_j))\big)\)
- 设计动机：纯 importance-based 选择会保留很多相似 token（冗余）；纯 diversity-based 选择可能保留不重要的 token。A-MMR 通过乘法组合自动平衡——先选高 attention 目标物体，再逐步扩展到语义不同的背景区域
Query-Guided Re-weighting:
- 做什么：用当前帧选中的 token 作为 query，重新评估历史 token 的重要性
- 核心思路：时空相关性 \(R^{(i)} = \max_{k \in \mathcal{Q}} \text{sim}(\mathbf{f}_{hist}^{(i)}, \mathbf{f}_{curr}^{(k)})\)，最终重要性 \(I_{final}^{(i)} = I_{base}^{(i)} \cdot (\alpha + (1-\alpha) \cdot R^{(i)})\)，α=0.5
- 设计动机：历史帧中与当前视野相关的信息更重要（如导航目标在历史帧中出现过）。不相关的历史信息可以安全丢弃

训练策略¶

完全无训练——即插即用应用于预训练 VLA 模型，不修改参数避免分布偏移。

实验关键数据¶

主实验（VLN benchmark，90% 剪枝）¶

方法	R2R SR↑	R2R SPL↑	RxR SR↑	RxR SPL↑
无剪枝	55.74	49.66	56.53	47.26
SparseVLM	34.91	31.08	23.17	20.87
DivPrune	27.57	18.55	23.22	14.56
VisPruner	41.16	29.27	37.34	25.34
Ours	47.63	36.36	45.71	32.91

消融实验¶

配置	R2R SPL (90%)
纯 importance (无 diversity)	较低
纯 diversity (无 importance)	较低
A-MMR (当前帧)	提升
+ Query-Guided (历史帧)	36.36

关键发现¶

90% 剪枝率下，本方法 R2R SPL 36.36 vs VisPruner 29.27（+7.09），RxR SPL 32.91 vs VisPruner 25.34（+7.57）
即使在 70% 剪枝率下，本方法也是唯一接近无剪枝性能的方法（SPL 47.28 vs 49.66）
延迟从 231.34ms 降至 213.40ms（90% 剪枝），比其他方法更快
真实世界 Unitree Go2 四足机器人部署验证了实际可行性

亮点与洞察¶

当前帧与历史帧的差异化处理思路值得推广：VLN 不是唯一需要历史记忆的任务——视频理解、对话式 VQA 等都面临类似的时空冗余问题
A-MMR 的 importance × distinctness 乘法公式简洁有效：比硬编码分割（VisPruner）和纯多样性优化（DivPrune）都更灵活
无训练即插即用：保持了预训练模型的泛化能力，对实际机器人部署非常友好

局限性 / 可改进方向¶

仅在 StreamVLN 一个 VLA 模型上验证，泛化到其他 VLA 未知
延迟减少不大（231→213ms），90% 的 token 剪枝只带来 ~8% 的延迟减少——瓶颈可能不只在 token 数量
α=0.5 固定不变，可能需要根据环境复杂度自适应调整
RxR 多语言场景下只报告了英语结果

评分¶

新颖性: ⭐⭐⭐⭐ 首次将时空压缩概念引入 VLN token 剪枝，A-MMR 设计合理
实验充分度: ⭐⭐⭐⭐ 两个 benchmark + 三种剪枝率 + 真实机器人部署
写作质量: ⭐⭐⭐⭐ 框架清晰，公式推导简洁
价值: ⭐⭐⭐⭐ 对 VLA 实时部署有直接工程价值