跳转至

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

会议: NeurIPS 2025
arXiv: 2510.18546
代码: GitHub
领域: 机器人 / 导航 / 端侧部署
关键词: object-goal navigation, on-device LLM, KV cache优化, zero-shot导航, 边缘部署

一句话总结

通过离散内存缓存(KV cache分组独立计算+选择性加载)、注意力驱动聚类(LLM浅层attention指导分组)和语义感知检索(CLIP+背包问题适配不同内存预算),首次在Jetson Orin上用LLaMA-3.2-11b实现零样本ObjNav,比GPT-4基线提升11.1% SR且实时延迟降低6.7×。

研究背景与动机

  1. 领域现状: LLM驱动的零样本目标导航(ObjNav)已成主流——LLM作规划器,利用图导航地图的语义/空间信息决定子目标。但严重依赖GPT-4等云端大模型
  2. 云端部署问题: 通信延迟破坏实时性、隐私风险、计算成本极高——需要从云端迁移到端侧
  3. 端侧内存瓶颈: Jetson Orin仅32GB DRAM,模型权重+导航地图KV cache→随探索步数增长KV cache溢出。重算KV cache引入巨大prefilling延迟
  4. 小模型能力瓶颈: 直接用LLaMA-11b替代GPT-4,成功率显著下降。实验发现:随导航步数增加,小模型对正确子目标的注意力分数持续下降——无法从复杂冗余地图中聚焦关键信息
  5. 关键观察: 导航地图存在大量冗余;不同目标只需关注地图的不同子集;语义相关物体(oven和pot)应该聚在一起
  6. 核心idea: 三层优化——(1)分组计算KV cache实现选择性加载(解耦cache与顺序);(2)用LLM注意力指导分组确保语义一致性;(3)CLIP驱动的语义检索+背包问题适配内存预算

方法详解

整体框架

RGB-D → Grounding DINO检测 → 图导航地图 → {离散缓存+注意力聚类+语义检索} → LLM规划器选择子目标 → 低层控制器导航

关键设计

  1. 离散内存缓存 (Discrete Memory Caching):
  2. 做什么: 将地图中的对象分组,每组独立计算KV cache,规划时仅选择部分组加载
  3. 核心思路: 分组独立计算→KV cache与组顺序解耦→选择不同组子集时可直接复用已缓存的KV cache。新检测对象追加到组尾部(因果注意力保证正确性),不改变已有cache。一次性加载选中组的cache到设备内存,避免解码过程中的频繁cache搬运
  4. 设计动机: 整体KV cache无法存入设备内存;重算太慢;频繁搬运延迟高——分组+选择性加载三管齐下

  5. 注意力驱动聚类 (Attention-based Memory Clustering):

  6. 做什么: 用LLM自身的浅层注意力权重指导物体分组
  7. 核心思路: 新检测物体送入LLM前1/10层,计算与已有组的平均注意力。超过阈值→归入已有组;否则→创建新组。语义相关物体(oven/pot)聚到一起,组内交叉注意力保留了语义关系
  8. 设计动机: 均匀分块忽略物体间语义关系;分组粒度太粗→KV cache大→可选组少→可能丢失关键信息。注意力驱动的自适应分组兼顾精度和粒度

  9. 语义感知检索 (Semantics-aware Memory Retrieval):

  10. 做什么: 根据当前目标动态选择相关组,裁剪冗余信息帮助小模型聚焦
  11. 核心思路: 用CLIP(仅100M参数)编码每组物体信息和目标,计算相似度作为组包含子目标的概率。建模为背包问题: \(\max \sum_i (P_i - threshold) \cdot x_i\) subject to \(\sum_i M_i \cdot x_i \leq M\), 适配不同设备内存预算
  12. 设计动机: 小模型无法从复杂地图中自行聚焦——主动裁剪冗余是"授人以渔"。CLIP轻量且延迟可忽略;背包问题公式化使方案适配任意设备

系统协作

小大模型协作模式: CLIP负责简单的组选择(100M、低延迟),LLM负责困难的子目标规划——任务分工匹配模型能力。

实验关键数据

主实验(HM3D benchmark)

方法 Zero-shot LLM On-device SR↑ SPL↑
InstructNav GPT-4V ~38 ~18
MapGPT GPT-4 ~40 ~20
EfficientNav LLaMA-11b +11.1% +提升

延迟对比

指标 GPT-4基线 EfficientNav 加速比
实时延迟 6.7×
端到端延迟 4.7×

关键发现

  • 小模型+信息裁剪 > 大模型: LLaMA-11b + 语义检索的SR超过GPT-4基线11.1%——证明"少即是多",精选信息比堆砌上下文更有效
  • 三个模块互补且缺一不可: 去掉任一模块都导致SR下降或延迟增加
  • 注意力聚类粒度自适应: 与固定分组相比,attention-based聚类能更好地保持组内语义一致性
  • 背包问题适配不同设备: 通过调整内存预算M,方案可无缝迁移到不同硬件平台
  • 相邻步骤cache复用率高: 两次规划间地图变化小,选中组大概率重合→cache命中率高→加载延迟进一步降低

亮点与洞察

  • 系统层面的完整端侧解决方案 — 不仅优化模型还优化KV cache管理、内存分配、信息检索,是端侧LLM系统的范例
  • "裁剪冗余"比"增加能力"更有效 — 与直觉相反,帮助小模型聚焦比换大模型更管用。这对所有长上下文LLM应用都有启示
  • 背包问题建模优雅 — 将信息选择与内存约束统一为经典组合优化问题,既有理论美感又实用

局限性 / 可改进方向

  • CLIP检索质量上限: CLIP的语义理解不如LLM,可能在复杂场景下错选组
  • 分组后组间注意力丢失: 虽然聚类缓解,但仍存在信息损失
  • 仅验证室内场景: 未测试室外大规模导航场景
  • 固定阈值: 注意力聚类和语义检索的阈值需手动调优
  • 改进思路: 可以用小LLM替代CLIP做组选择;可以引入组间轻量attention或summary token

相关工作与启发

  • vs InstructNav/MapGPT: 这些方法依赖GPT-4云端推理,EfficientNav首次将零样本ObjNav移至端侧且SR更高
  • vs 通用KV cache压缩: 通用方法(量化/蒸馏/剪枝)未考虑导航地图的语义结构,EfficientNav利用地图语义做针对性优化
  • 启发: 三层优化范式(分组缓存+语义聚类+自适应检索)可推广到所有需要长上下文端侧LLM的场景

评分

  • 新颖性: ⭐⭐⭐⭐ 三层KV cache优化的组合设计巧妙,背包问题建模新颖
  • 实验充分度: ⭐⭐⭐⭐ HM3D上完整对比+延迟分析+消融,但缺少更多场景验证
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰,系统设计层次分明
  • 价值: ⭐⭐⭐⭐⭐ 首个端侧LLM ObjNav系统,对端侧AI agent有标杆意义 方案
  • 用轻量 CLIP 模型(~100M参数)编码各组信息和目标物体,计算语义相似度
  • 将组选择建模为背包问题:最大化选中组与目标的相关性总和,约束为设备内存预算
  • max Σ(P_i - threshold)·x_i, s.t. Σ M_i·x_i ≤ M
  • P_i 为组 i 包含子目标的概率,M_i 为该组 KV cache 大小,M 为内存预算
  • CLIP 推理延迟远低于 LLM,组选择开销可忽略
  • 相邻规划步之间地图变化小 → cache 命中率高 → 进一步减少加载开销

实验设置与结果

评测环境

  • 数据集:HM3D (Habitat-Matterport 3D)
  • 平台:Habitat 仿真器,机器人执行 RGB-D 导航
  • 硬件:NVIDIA A6000 GPU + Jetson AGX Orin
  • 模型:LLaVA-7b/13b/34b, LLaMA-3.2-11b

主要对比结果

方法 LLM 成功率(SR) SPL 实时延迟 端到端延迟
LFG (SOTA) GPT-4 68.9 36.0 5.80s 59.34s
EfficientNav-11b LLaMA-11b 74.2 39.5 0.35s 12.70s
EfficientNav-34b LLaVA-34b 80.0 41.5 0.87s 12.51s
  • vs GPT-4 基线:SR +11.1%,实时延迟降 6.7×,端到端延迟降 4.7×
  • vs 原生 LLaVA-34b 规划器:SR +37.3%,SPL +20.5%
  • vs vLLM 加速方案:实时延迟仍低 5.1-6.5×(vLLM 无法解决 prefilling 重计算瓶颈)

消融实验 (LLaVA-34b)

配置 SR SPL 实时延迟 端到端延迟
原始规划器 42.7 21.0 5.63s 55.32s
+离散缓存 43.1 21.0 2.42s 36.94s
+注意力聚类 63.3 34.2 2.32s 32.58s
+语义检索 80.0 41.5 0.87s 12.51s
  • 注意力聚类贡献最大准确率提升(+20.2% SR),语义检索贡献最大延迟降低

延迟特性

  • 传统方案随导航步数增加 prompt 长度线性增长 → 延迟线性上升
  • EfficientNav 延迟在几步后趋于稳定——语义检索控制了给 LLM 的信息量上限
  • Cache 命中率随内存预算增加快速趋近高水平,进一步减少加载开销

亮点与深度洞察

  1. 小模型 > 大模型的反直觉结果:通过信息裁剪让小 LLM 聚焦关键信息,反而比 GPT-4 处理全量冗余信息表现更好——信息并非越多越好
  2. 背包问题建模组选择:优雅地将内存约束下的信息选择转化为经典优化问题,可适配不同设备的内存预算
  3. KV cache 离散化的通用性:该设计不限于导航,适用于任何长上下文+增量更新的端侧 LLM 场景(如对话历史管理、流式文档理解)
  4. 系统思维:不是单点优化而是三个模块协同——缓存解决延迟、聚类保证质量、检索控制规模

局限性 / 可改进方向

  • 系统三模块协调复杂度高,实现和超参调整难度大(阈值、分组粒度等)
  • 仅在室内导航 (HM3D) 验证,户外/动态障碍物环境的泛化能力未知
  • 离散缓存牺牲了组间交叉注意力,理论上存在信息损失(尽管实验表明影响可控)
  • 依赖 Grounding DINO 检测质量,检测错误会传播到后续所有环节

评分

  • 新颖性: ⭐⭐⭐⭐ KV cache 离散化+注意力聚类+语义检索的三层组合新颖实用
  • 实验充分度: ⭐⭐⭐⭐ HM3D 完整对比+消融+延迟分析+cache命中率分析
  • 系统完整性: ⭐⭐⭐⭐⭐ 从内存管理到信息检索到规划提升的完整系统设计
  • 写作质量: ⭐⭐⭐⭐ 系统设计思路清晰,挑战-方案对应明确
  • 价值: ⭐⭐⭐⭐⭐ 对端侧具身AI部署有重要实践意义,KV cache管理方案可泛化