History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient VLN¶
日期: 2026-03-06
arXiv: 2603.06480
代码: 无
领域: 机器人
关键词: vision-language navigation, token pruning, VLA efficiency, spatio-temporal compression, training-free
一句话总结¶
提出面向视觉语言导航(VLN)的无训练时空 token 剪枝框架——通过 Adaptive MMR 对当前帧做空间 token 选择、Query-Guided Re-weighting 对历史帧做时空压缩,在 90% 剪枝率下仍保持优于所有基线的导航性能,并在真实四足机器人上部署验证。
研究背景与动机¶
-
领域现状:VLA 模型(如 StreamVLN、NaVILA)在视觉语言导航中表现优异,但 transformer-based 架构计算量大,视觉 token 主导输入长度和计算成本,导致实时部署困难。
-
现有痛点:(a) 现有 token 剪枝方法(SparseVLM、DivPrune、VisPruner)基于单帧设计,未考虑 VLN 特有的时空结构;(b) VLN 需要历史观测来做长 horizon 决策,但历史帧中存在大量与当前无关的冗余信息;(c) 高压缩比下性能急剧下降。
-
核心矛盾:VLN 需要利用历史记忆做长程推理,但历史帧的 token 量随时间线性增长带来计算瓶颈。简单剪枝丢弃了对导航有价值的信息。
-
切入角度:当前帧和历史帧应该区别对待——当前帧保持空间覆盖,历史帧只保留与当前相关的信息。
-
核心 idea:对当前帧用 Adaptive MMR 平衡 saliency 和 diversity 选 token,对历史帧用当前帧 query 做 relevance reweighting 后再做 A-MMR 压缩。
方法详解¶
整体框架¶
所有帧(历史+当前)→ Vision encoder 提取 token 特征 → [CLS] token 与 patch token 的余弦相似度作为 \(I_{base}\) → 当前帧 A-MMR 选择 → 选中 token 作为 Query → 历史帧 Query-Guided Re-weighting + A-MMR → 合并 token → Projector + LLM → 导航动作预测。
关键设计¶
-
Adaptive Maximal Marginal Relevance (A-MMR):
- 做什么:迭代选择兼顾重要性和多样性的 token 子集
- 核心思路:\(i^* = \arg\max_{i \in \mathcal{U}} \big(I_{base}^{(i)} \cdot (1 - \max_{j \in \mathcal{S}} \text{sim}(\mathbf{f}_i, \mathbf{f}_j))\big)\)
- 设计动机:纯 importance-based 选择会保留很多相似 token(冗余);纯 diversity-based 选择可能保留不重要的 token。A-MMR 通过乘法组合自动平衡——先选高 attention 目标物体,再逐步扩展到语义不同的背景区域
-
Query-Guided Re-weighting:
- 做什么:用当前帧选中的 token 作为 query,重新评估历史 token 的重要性
- 核心思路:时空相关性 \(R^{(i)} = \max_{k \in \mathcal{Q}} \text{sim}(\mathbf{f}_{hist}^{(i)}, \mathbf{f}_{curr}^{(k)})\),最终重要性 \(I_{final}^{(i)} = I_{base}^{(i)} \cdot (\alpha + (1-\alpha) \cdot R^{(i)})\),α=0.5
- 设计动机:历史帧中与当前视野相关的信息更重要(如导航目标在历史帧中出现过)。不相关的历史信息可以安全丢弃
训练策略¶
完全无训练——即插即用应用于预训练 VLA 模型,不修改参数避免分布偏移。
实验关键数据¶
主实验(VLN benchmark,90% 剪枝)¶
| 方法 | R2R SR↑ | R2R SPL↑ | RxR SR↑ | RxR SPL↑ |
|---|---|---|---|---|
| 无剪枝 | 55.74 | 49.66 | 56.53 | 47.26 |
| SparseVLM | 34.91 | 31.08 | 23.17 | 20.87 |
| DivPrune | 27.57 | 18.55 | 23.22 | 14.56 |
| VisPruner | 41.16 | 29.27 | 37.34 | 25.34 |
| Ours | 47.63 | 36.36 | 45.71 | 32.91 |
消融实验¶
| 配置 | R2R SPL (90%) |
|---|---|
| 纯 importance (无 diversity) | 较低 |
| 纯 diversity (无 importance) | 较低 |
| A-MMR (当前帧) | 提升 |
| + Query-Guided (历史帧) | 36.36 |
关键发现¶
- 90% 剪枝率下,本方法 R2R SPL 36.36 vs VisPruner 29.27(+7.09),RxR SPL 32.91 vs VisPruner 25.34(+7.57)
- 即使在 70% 剪枝率下,本方法也是唯一接近无剪枝性能的方法(SPL 47.28 vs 49.66)
- 延迟从 231.34ms 降至 213.40ms(90% 剪枝),比其他方法更快
- 真实世界 Unitree Go2 四足机器人部署验证了实际可行性
亮点与洞察¶
- 当前帧与历史帧的差异化处理思路值得推广:VLN 不是唯一需要历史记忆的任务——视频理解、对话式 VQA 等都面临类似的时空冗余问题
- A-MMR 的 importance × distinctness 乘法公式简洁有效:比硬编码分割(VisPruner)和纯多样性优化(DivPrune)都更灵活
- 无训练即插即用:保持了预训练模型的泛化能力,对实际机器人部署非常友好
局限性 / 可改进方向¶
- 仅在 StreamVLN 一个 VLA 模型上验证,泛化到其他 VLA 未知
- 延迟减少不大(231→213ms),90% 的 token 剪枝只带来 ~8% 的延迟减少——瓶颈可能不只在 token 数量
- α=0.5 固定不变,可能需要根据环境复杂度自适应调整
- RxR 多语言场景下只报告了英语结果
相关工作与启发¶
- vs SparseVLM: 纯 text-guided 重要性,高压缩率下冗余严重(同类 token 过多)
- vs VisPruner: 硬编码分割策略缺乏灵活性,A-MMR 的统一公式更优雅
- vs DivPrune: 纯多样性优化忽略了重要性,导致保留不重要但多样的 token
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将时空压缩概念引入 VLN token 剪枝,A-MMR 设计合理
- 实验充分度: ⭐⭐⭐⭐ 两个 benchmark + 三种剪枝率 + 真实机器人部署
- 写作质量: ⭐⭐⭐⭐ 框架清晰,公式推导简洁
- 价值: ⭐⭐⭐⭐ 对 VLA 实时部署有直接工程价值