跳转至

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

会议: NeurIPS 2025 arXiv: 2508.21046 代码: 无(论文中未提及) 领域: 机器人 / 多模态VLM 关键词: VLA, token routing, sparsification, instruction-driven, robot manipulation

一句话总结

提出 CogVLA——模仿人类多模态认知的三阶段 VLA 架构:(1) EFA-Routing 将视觉 token 压缩至 25%;(2) LFP-Routing 裁剪 50% 的 LLM 无关 token;(3) V-L-A 耦合注意力保持语义一致性——在 LIBERO 上达 97.4% 成功率,训练成本降 2.5×,推理延迟降 2.8×。

研究背景与动机

  1. 领域现状:VLA 模型(OpenVLA、π₀)将视觉+语言+动作统一在单一模型中进行机器人控制。但大量视觉 token 和 dense LLM 计算导致训练和推理成本高昂。
  2. 现有痛点:(a) OpenVLA 等方法所有视觉 token 同等处理,但大多数与任务指令无关;(b) LLM 的所有 token 都参与计算,但许多与动作生成无关;(c) 视觉-语言-动作三模态的注意力模式应不同但被统一处理。
  3. 切入角度:模仿人类认知——先选择性注意(视觉过滤)→ 重点处理(LLM 稀疏化)→ 协调执行(耦合注意力),三阶段渐进式信息压缩。

方法详解

三阶段架构

  1. Stage 1 - EFA-Routing(Early Feature Aggregation):
  2. 做什么:基于指令引导聚合视觉 token,压缩至 25%
  3. 机制:指令 embedding 作为 query,视觉 token 作为 key/value,聚合出最相关的 1/4

  4. Stage 2 - LFP-Routing(LLM Feature Pruning):

  5. 做什么:在 LLM 中用指令感知的稀疏模式裁剪 50% 不相关 token
  6. 保留与动作生成最相关的 token 进入深层

  7. Stage 3 - V-L-A Coupled Attention:

  8. 视觉-语言部分:因果注意力(保持序列一致性)
  9. 动作部分:双向注意力(保持时间连贯性)
  10. 分层注意力确保不同模态用不同模式处理

实验关键数据

指标 CogVLA OpenVLA 说明
LIBERO 成功率 97.4% 90.2% +7.2%
真实机器人成功率 70.0% - -
训练成本 2.5× 降低 基线 -
推理延迟 2.8× 降低 基线 -

关键发现

  • 75% 视觉 token 可以裁剪:大多数视觉信息与任务无关
  • 50% LLM token 可以稀疏化:指令引导的裁剪比随机裁剪好得多
  • 三个组件协同效应:消融显示每个阶段都有贡献,组合效果 > 各自之和

亮点与洞察

  • 认知启发的架构设计:从人类注意力机制出发——选择性注意→重点处理→协调执行——不是暴力压缩而是有理论依据的稀疏化
  • 指令驱动路由:不是盲目压缩视觉/文本 token,而是根据任务指令选择保留什么——做到了"task-aware compression"
  • 效率提升巨大:2.5× 训练 + 2.8× 推理加速——使 VLA 的实际部署更加可行

局限性 / 可改进方向

  • 仅在 LIBERO 和少量真实任务上验证
  • 路由策略是预定义规则,非端到端学习
  • 改进方向:(1) 自适应压缩率(不同任务不同压缩);(2) 扩展到更复杂的操作任务

评分

  • 新颖性: ⭐⭐⭐⭐ 认知启发的三阶段压缩设计有创意
  • 实验充分度: ⭐⭐⭐⭐ LIBERO+真实机器人+消融
  • 写作质量: ⭐⭐⭐⭐ 架构描述清晰
  • 价值: ⭐⭐⭐⭐ 对 VLA 的高效部署有直接实用价值