C-NAV: Towards Self-Evolving Continual Object Navigation in Open World¶
会议: NeurIPS 2025
arXiv: 2510.20685
代码: https://bigtree765.github.io/C-Nav-project
领域: robotics / embodied AI
关键词: continual learning, object navigation, catastrophic forgetting, feature distillation, feature replay, LOF
一句话总结¶
提出 C-Nav 框架,通过双路径抗遗忘(特征蒸馏 + 特征回放)和自适应经验选择(LOF 异常检测选关键帧),让导航智能体在不断学习新物体类别时避免灾难性遗忘,在 4 种架构上均超越全量数据回放基线。
研究背景与动机¶
- 领域现状:目标导航(ObjectNav)是具身智能核心任务,当前 SOTA 方法(OVRL-V2、PIRLNav、NavID 等)依赖预训练视觉编码器 + 大规模示范轨迹,在固定类别集上表现优异。
- 现有痛点:这些方法假设训练期间所有类别和数据一次性可用,在开放世界中需要不断接纳新物体时,模型参数更新会导致灾难性遗忘——新类别学会了,旧类别导航能力急剧下降(约 40% SR 下降)。
- 核心矛盾:直接的数据回放(存储完整轨迹)可以缓解遗忘,但导航轨迹极长(单条可达数百帧)、高度冗余、且涉及隐私(室内场景空间信息泄露),存储开销和隐私成本不可接受。
- 本文要解决什么:如何让导航智能体增量学习新类别的同时保持对旧类别的导航技能,且不需要存储原始轨迹。
- 切入角度:将遗忘分解为两个独立来源——编码器的表征漂移和解码器的策略退化,分别施加约束;同时将关键帧选择转化为特征空间的离群点检测问题来压缩存储。
- 核心 idea:双路径抗遗忘(feature distillation 稳定编码器表征 + feature replay 稳定动作解码器策略)+ 基于 LOF 的自适应经验选择(只存语义突变帧的特征而非原始图像)。
方法详解¶
整体框架¶
C-Nav 由两大模块组成:(1) 双路径抗遗忘机制——特征蒸馏路径约束多模态编码器输出一致性,特征回放路径向动作解码器重放旧任务的关键帧特征;(2) 自适应经验选择——用 CLIP 提取视觉特征后通过 LOF 算法检测语义离群帧作为关键帧,仅存储其深层特征和动作标签。
关键设计 1:特征蒸馏(Feature Distillation)保持表征一致性¶
- 做什么:冻结上一阶段编码器 \(f_{k-1}\),在新数据上训练时约束当前编码器 \(f_k\) 的输出与 \(f_{k-1}\) 保持接近。
- 核心思路:最小化新旧编码器在相同观测上的 \(\ell_2\) 距离:\(\mathcal{L}_{\text{KD}} = \sum_{t=1}^{L} \|f_{k-1}(o_t) - f_k(o_t)\|_2^2\)。
- 设计动机:多模态编码器处理 RGB、深度、位姿、文本等输入,分布偏移会导致特征空间漂移,下游解码器即使未变也会因输入特征变化而失效。
关键设计 2:特征回放(Feature Replay)保持策略一致性¶
- 做什么:存储旧任务关键帧的编码特征 \(h_t \in \mathbb{R}^d\) 及对应动作标签,训练时混入当前数据一起训练动作解码器。
- 核心思路:使用带 inflection weighting 的交叉熵损失:\(\mathcal{L}_{\text{FR}} = \frac{1}{L}\sum_{t=1}^{L} -w_t \log \pi_k(a_t | h_{1:t})\),其中动作转换点权重更高(\(w_t = 1 + \gamma \cdot \mathbb{1}_{a_t \neq a_{t-1}}\))。
- 设计动机:存储特征而非原始图像,既避免隐私泄露又大幅压缩存储;inflection weighting 强调转弯/停止等关键决策点。
关键设计 3:自适应经验选择(Adaptive Experience Selection via LOF)¶
- 做什么:从每条轨迹中自动筛选语义变化显著的关键帧,而非均匀采样或存储全部帧。
- 核心思路:用 CLIP 编码 RGB 观测得到特征 \(\mathbf{v}_i\),计算每帧的 Local Outlier Factor(LOF),选择 \(\text{LOF}(\mathbf{v}_i) > 1\) 的帧作为关键帧。LOF 高意味着该帧在特征空间中偏离邻域密度——通常对应进入新房间、发现目标物体、路径转折等语义突变时刻。
- 设计动机:导航轨迹中相邻帧高度冗余(机器人缓慢平移时视觉变化极小),均匀采样无法区分信息量,LOF 天然适合在连续特征流中捡出"不一样"的帧。
关键设计 4:总体训练目标¶
其中 \(\mathcal{L}_{\text{Curr}}\) 为当前任务的 behavior cloning 损失(同样带 inflection weighting),\(\lambda_{\text{KD}} = \lambda_{\text{FR}} = 5\)。
损失函数与训练策略¶
- 行为克隆损失:带 inflection weighting(\(\gamma = 3.48\))的交叉熵,重点监督动作转换帧
- 特征蒸馏损失:\(\ell_2\) 距离约束编码器新旧输出一致
- 特征回放损失:从特征缓存中回放旧任务特征训练解码器
- 优化器:AdamW,线性 warmup 1000 步达到 \(3 \times 10^{-4}\),之后线性衰减
- 训练规模:每阶段 25 epochs,batch size 32,2×A6000 GPU
- 编码器:CLIP-ResNet50(RGB)+ PointNav 预训练 ResNet50(深度),均冻结
实验关键数据¶
主实验:HM3D 数据集上不同架构的表现(SR%)¶
| 方法 | RNN-Avg | RNN-Last | Trans-Avg | Trans-Last | Bev-Avg | Bev-Last | LLM-Avg | LLM-Last |
|---|---|---|---|---|---|---|---|---|
| Finetuning | 32.8 | 21.3 | 31.4 | 19.5 | 32.0 | 20.8 | 28.4 | 16.4 |
| LoRA | - | - | 34.0 | 22.5 | 36.3 | 24.1 | 39.9 | 24.1 |
| LwF | 34.4 | 25.1 | 31.7 | 19.2 | 32.6 | 21.7 | 26.2 | 11.7 |
| Model Merge | 40.8 | 20.4 | 45.1 | 24.5 | 45.0 | 18.5 | 42.5 | 19.9 |
| Data Replay | 44.1 | 33.6 | 52.7 | 39.6 | 53.2 | 44.2 | 52.2 | 40.9 |
| C-Nav | 50.0 | 40.3 | 55.8 | 46.5 | 56.3 | 46.5 | 52.2 | 42.2 |
C-Nav 在 4 种架构上平均 SR 比 Data Replay 高 2.75%,同时不需要存原始轨迹。
消融实验:双路径组件贡献(HM3D,SR%)¶
| 消融设置 | RNN-Avg | RNN-Last | Trans-Avg | Trans-Last | Bev-Avg | Bev-Last | LLM-Avg | LLM-Last |
|---|---|---|---|---|---|---|---|---|
| w/o KD(去掉特征蒸馏) | 28.2 | 16.9 | 31.4 | 20.2 | 32.5 | 21.9 | 33.6 | 19.9 |
| w/o FP(去掉特征回放) | 37.9 | 27.9 | 45.9 | 32.6 | 38.9 | 26.7 | 42.7 | 30.2 |
| All(完整 C-Nav) | 50.0 | 40.3 | 55.8 | 46.5 | 56.3 | 46.5 | 52.2 | 42.2 |
去掉特征蒸馏导致平均 SR 下降约 22%(HM3D),去掉特征回放下降约 12%,说明编码器表征漂移是遗忘的主要来源。
自适应采样消融(HM3D,50% 长度,SR%)¶
| 采样方式 | RNN-Avg | Trans-Avg | Bev-Avg | LLM-Avg |
|---|---|---|---|---|
| Uniform (50%) | 43.2 | 50.5 | 49.4 | 47.7 |
| Data Replay (Full) | 44.1 | 52.7 | 53.2 | 52.2 |
| Adaptive (50%) | 47.3 | 53.7 | 52.8 | 51.6 |
| C-Nav Full | 50.0 | 54.7 | 56.3 | 52.2 |
自适应采样在只用 50% 帧的情况下比均匀采样高 3.65%,仅比全量回放低 1.9%。
亮点与洞察¶
- 问题定义有价值:首次系统化定义了 Continual-ObjectNav benchmark,覆盖 4 种主流架构(RNN/Transformer/BEV/LLM-based)× 多种持续学习方法,填补了具身导航领域持续学习的研究空白。
- 双路径解耦设计优雅:将遗忘归因为编码器表征漂移 + 解码器策略退化两个独立来源,分别用蒸馏和回放解决,逻辑清晰且实验验证了两者互补性。
- LOF 做关键帧选择很巧妙:把"哪些帧重要"转化为异常检测问题,利用 LOF 在连续特征流中自动找语义突变点,比均匀采样在半数数据量下效果更好。
- 存储特征而非原始图像:既解决了隐私问题(不存室内 RGB),又大幅压缩存储(特征向量 vs. 高分辨率图像),工程上非常实用。
- 跨架构泛化性:方法在 RNN、Transformer、BEV、LLM 四种架构上均一致有效,说明设计思路足够通用。
局限性¶
- Benchmark 规模有限:HM3D 只有 6 个类别分 4 阶段,MP3D 21 个类别但最终也只有 4 个 stage,距离真正的开放世界(数百类别、持续增长)差距较大,方法是否能扩展到更大规模未知。
- 仅限模拟器环境:所有实验基于 Habitat 模拟器,没有 sim-to-real 验证,真实机器人部署中的传感器噪声、动态障碍物等问题未涉及。
- 编码器冻结限制了表征学习:CLIP-ResNet50 和 PointNav ResNet50 均冻结,蒸馏只约束融合层,这限制了编码器适应新场景的能力,在更困难的任务上可能成为瓶颈。
- LOF 超参数敏感性未充分讨论:LOF 的邻域大小 \(k\) 对关键帧选择影响较大,论文未给出敏感性分析。
- 回放缓存大小固定:每类别存储 \(p=80\) 条轨迹特征,未讨论不同缓存大小对性能-存储 trade-off 的影响。
与相关工作的对比¶
| 方法 | 类型 | 是否需要原始轨迹 | 遗忘缓解程度 | 存储开销 |
|---|---|---|---|---|
| Data Replay | 数据回放 | ✅ 需要存原始轨迹 | 较好 | 高(随类别线性增长) |
| LwF | 正则化(logit 蒸馏) | ❌ | 差(HM3D 上接近 Finetuning) | 低 |
| C-Nav | 特征蒸馏 + 特征回放 | ❌ 只存特征向量 | 最优 | 中(特征级,远小于图像级) |
- vs. Data Replay:C-Nav 在 HM3D/MP3D 上分别高 2.75%/3.35% SR,且不存原始图像,存储和隐私优势明显。
- vs. LwF:LwF 对 logits 做 KL 散度蒸馏,但导航任务的 action space 很小(6 个动作),logit 层信息不够丰富,C-Nav 在特征层做蒸馏信息保留更充分。
- vs. LoRA / Model Merge:两者在一定程度上缓解遗忘,但在最终阶段(Last)性能仍明显低于 C-Nav,说明参数约束/合并不足以替代显式的表征和策略一致性保持。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个 Continual-ObjectNav benchmark + 双路径抗遗忘 + LOF 关键帧选择,问题定义和方法设计都有新意,但各组件(知识蒸馏、经验回放、LOF)本身不算新
- 实验充分度: ⭐⭐⭐⭐⭐ — 4 种架构 × 2 个数据集 × 多种基线 × 详细消融,非常全面系统
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,问题定义严谨,图表规范;部分数学符号有重复(LOF 的 k 和任务阶段的 k 冲突)
- 价值: ⭐⭐⭐⭐ — Benchmark 本身就是重要贡献,方法通用性强,对具身 AI 社区有实际推动价值