EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval¶

会议: NeurIPS 2025
arXiv: 2510.18546
代码: GitHub
领域: 机器人 / 导航 / 端侧部署
关键词: object-goal navigation, on-device LLM, KV cache优化, zero-shot导航, 边缘部署

一句话总结¶

通过离散内存缓存（KV cache分组独立计算+选择性加载）、注意力驱动聚类（LLM浅层attention指导分组）和语义感知检索（CLIP+背包问题适配不同内存预算），首次在Jetson Orin上用LLaMA-3.2-11b实现零样本ObjNav，比GPT-4基线提升11.1% SR且实时延迟降低6.7×。

研究背景与动机¶

领域现状: LLM驱动的零样本目标导航（ObjNav）已成主流——LLM作规划器，利用图导航地图的语义/空间信息决定子目标。但严重依赖GPT-4等云端大模型
云端部署问题: 通信延迟破坏实时性、隐私风险、计算成本极高——需要从云端迁移到端侧
端侧内存瓶颈: Jetson Orin仅32GB DRAM，模型权重+导航地图KV cache→随探索步数增长KV cache溢出。重算KV cache引入巨大prefilling延迟
小模型能力瓶颈: 直接用LLaMA-11b替代GPT-4，成功率显著下降。实验发现：随导航步数增加，小模型对正确子目标的注意力分数持续下降——无法从复杂冗余地图中聚焦关键信息
关键观察: 导航地图存在大量冗余；不同目标只需关注地图的不同子集；语义相关物体（oven和pot）应该聚在一起
核心idea: 三层优化——(1)分组计算KV cache实现选择性加载（解耦cache与顺序）；(2)用LLM注意力指导分组确保语义一致性；(3)CLIP驱动的语义检索+背包问题适配内存预算

方法详解¶

整体框架¶

RGB-D → Grounding DINO检测 → 图导航地图 → {离散缓存+注意力聚类+语义检索} → LLM规划器选择子目标 → 低层控制器导航

关键设计¶

离散内存缓存 (Discrete Memory Caching):
做什么: 将地图中的对象分组，每组独立计算KV cache，规划时仅选择部分组加载
核心思路: 分组独立计算→KV cache与组顺序解耦→选择不同组子集时可直接复用已缓存的KV cache。新检测对象追加到组尾部（因果注意力保证正确性），不改变已有cache。一次性加载选中组的cache到设备内存，避免解码过程中的频繁cache搬运
设计动机: 整体KV cache无法存入设备内存；重算太慢；频繁搬运延迟高——分组+选择性加载三管齐下
注意力驱动聚类 (Attention-based Memory Clustering):
做什么: 用LLM自身的浅层注意力权重指导物体分组
核心思路: 新检测物体送入LLM前1/10层，计算与已有组的平均注意力。超过阈值→归入已有组；否则→创建新组。语义相关物体（oven/pot）聚到一起，组内交叉注意力保留了语义关系
设计动机: 均匀分块忽略物体间语义关系；分组粒度太粗→KV cache大→可选组少→可能丢失关键信息。注意力驱动的自适应分组兼顾精度和粒度
语义感知检索 (Semantics-aware Memory Retrieval):
做什么: 根据当前目标动态选择相关组，裁剪冗余信息帮助小模型聚焦
核心思路: 用CLIP（仅100M参数）编码每组物体信息和目标，计算相似度作为组包含子目标的概率。建模为背包问题: \(\max \sum_i (P_i - threshold) \cdot x_i\) subject to \(\sum_i M_i \cdot x_i \leq M\), 适配不同设备内存预算
设计动机: 小模型无法从复杂地图中自行聚焦——主动裁剪冗余是"授人以渔"。CLIP轻量且延迟可忽略；背包问题公式化使方案适配任意设备

系统协作¶

小大模型协作模式: CLIP负责简单的组选择（100M、低延迟），LLM负责困难的子目标规划——任务分工匹配模型能力。

实验关键数据¶

主实验（HM3D benchmark）¶

方法	Zero-shot	LLM	On-device	SR↑	SPL↑
InstructNav	✓	GPT-4V	✗	~38	~18
MapGPT	✓	GPT-4	✗	~40	~20
EfficientNav	✓	LLaMA-11b	✓	+11.1%	+提升

延迟对比¶

指标	GPT-4基线	EfficientNav	加速比
实时延迟	高	低	6.7×
端到端延迟	高	低	4.7×

关键发现¶

小模型+信息裁剪 > 大模型: LLaMA-11b + 语义检索的SR超过GPT-4基线11.1%——证明"少即是多"，精选信息比堆砌上下文更有效
三个模块互补且缺一不可: 去掉任一模块都导致SR下降或延迟增加
注意力聚类粒度自适应: 与固定分组相比，attention-based聚类能更好地保持组内语义一致性
背包问题适配不同设备: 通过调整内存预算M，方案可无缝迁移到不同硬件平台
相邻步骤cache复用率高: 两次规划间地图变化小，选中组大概率重合→cache命中率高→加载延迟进一步降低

亮点与洞察¶

系统层面的完整端侧解决方案 — 不仅优化模型还优化KV cache管理、内存分配、信息检索，是端侧LLM系统的范例
"裁剪冗余"比"增加能力"更有效 — 与直觉相反，帮助小模型聚焦比换大模型更管用。这对所有长上下文LLM应用都有启示
背包问题建模优雅 — 将信息选择与内存约束统一为经典组合优化问题，既有理论美感又实用

局限性 / 可改进方向¶

CLIP检索质量上限: CLIP的语义理解不如LLM，可能在复杂场景下错选组
分组后组间注意力丢失: 虽然聚类缓解，但仍存在信息损失
仅验证室内场景: 未测试室外大规模导航场景
固定阈值: 注意力聚类和语义检索的阈值需手动调优
改进思路: 可以用小LLM替代CLIP做组选择；可以引入组间轻量attention或summary token

评分¶

新颖性: ⭐⭐⭐⭐ 三层KV cache优化的组合设计巧妙，背包问题建模新颖
实验充分度: ⭐⭐⭐⭐ HM3D上完整对比+延迟分析+消融，但缺少更多场景验证
写作质量: ⭐⭐⭐⭐ 问题分析清晰，系统设计层次分明
价值: ⭐⭐⭐⭐⭐ 首个端侧LLM ObjNav系统，对端侧AI agent有标杆意义方案：
用轻量 CLIP 模型（~100M参数）编码各组信息和目标物体，计算语义相似度
将组选择建模为背包问题：最大化选中组与目标的相关性总和，约束为设备内存预算
max Σ(P_i - threshold)·x_i, s.t. Σ M_i·x_i ≤ M
P_i 为组 i 包含子目标的概率，M_i 为该组 KV cache 大小，M 为内存预算
CLIP 推理延迟远低于 LLM，组选择开销可忽略
相邻规划步之间地图变化小 → cache 命中率高 → 进一步减少加载开销

实验设置与结果¶

评测环境¶

数据集：HM3D (Habitat-Matterport 3D)
平台：Habitat 仿真器，机器人执行 RGB-D 导航
硬件：NVIDIA A6000 GPU + Jetson AGX Orin
模型：LLaVA-7b/13b/34b, LLaMA-3.2-11b

主要对比结果¶

方法	LLM	成功率(SR)	SPL	实时延迟	端到端延迟
LFG (SOTA)	GPT-4	68.9	36.0	5.80s	59.34s
EfficientNav-11b	LLaMA-11b	74.2	39.5	0.35s	12.70s
EfficientNav-34b	LLaVA-34b	80.0	41.5	0.87s	12.51s

vs GPT-4 基线：SR +11.1%，实时延迟降 6.7×，端到端延迟降 4.7×
vs 原生 LLaVA-34b 规划器：SR +37.3%，SPL +20.5%
vs vLLM 加速方案：实时延迟仍低 5.1-6.5×（vLLM 无法解决 prefilling 重计算瓶颈）

消融实验 (LLaVA-34b)¶

配置	SR	SPL	实时延迟	端到端延迟
原始规划器	42.7	21.0	5.63s	55.32s
+离散缓存	43.1	21.0	2.42s	36.94s
+注意力聚类	63.3	34.2	2.32s	32.58s
+语义检索	80.0	41.5	0.87s	12.51s

注意力聚类贡献最大准确率提升（+20.2% SR），语义检索贡献最大延迟降低

延迟特性¶

传统方案随导航步数增加 prompt 长度线性增长 → 延迟线性上升
EfficientNav 延迟在几步后趋于稳定——语义检索控制了给 LLM 的信息量上限
Cache 命中率随内存预算增加快速趋近高水平，进一步减少加载开销

亮点与深度洞察¶

小模型 > 大模型的反直觉结果：通过信息裁剪让小 LLM 聚焦关键信息，反而比 GPT-4 处理全量冗余信息表现更好——信息并非越多越好
背包问题建模组选择：优雅地将内存约束下的信息选择转化为经典优化问题，可适配不同设备的内存预算
KV cache 离散化的通用性：该设计不限于导航，适用于任何长上下文+增量更新的端侧 LLM 场景（如对话历史管理、流式文档理解）
系统思维：不是单点优化而是三个模块协同——缓存解决延迟、聚类保证质量、检索控制规模

局限性 / 可改进方向¶

系统三模块协调复杂度高，实现和超参调整难度大（阈值、分组粒度等）
仅在室内导航 (HM3D) 验证，户外/动态障碍物环境的泛化能力未知
离散缓存牺牲了组间交叉注意力，理论上存在信息损失（尽管实验表明影响可控）
依赖 Grounding DINO 检测质量，检测错误会传播到后续所有环节

评分¶

新颖性: ⭐⭐⭐⭐ KV cache 离散化+注意力聚类+语义检索的三层组合新颖实用
实验充分度: ⭐⭐⭐⭐ HM3D 完整对比+消融+延迟分析+cache命中率分析
系统完整性: ⭐⭐⭐⭐⭐ 从内存管理到信息检索到规划提升的完整系统设计
写作质量: ⭐⭐⭐⭐ 系统设计思路清晰，挑战-方案对应明确
价值: ⭐⭐⭐⭐⭐ 对端侧具身AI部署有重要实践意义，KV cache管理方案可泛化

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

系统协作¶

实验关键数据¶

主实验（HM3D benchmark）¶

延迟对比¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

实验设置与结果¶

评测环境¶

主要对比结果¶

消融实验 (LLaVA-34b)¶

延迟特性¶

亮点与深度洞察¶

局限性 / 可改进方向¶

评分¶