跳转至

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World

会议: NeurIPS 2025
arXiv: 2510.20685
代码: https://bigtree765.github.io/C-Nav-project
领域: robotics / embodied AI
关键词: continual learning, object navigation, catastrophic forgetting, feature distillation, feature replay, LOF

一句话总结

提出 C-Nav 框架,通过双路径抗遗忘(特征蒸馏 + 特征回放)和自适应经验选择(LOF 异常检测选关键帧),让导航智能体在不断学习新物体类别时避免灾难性遗忘,在 4 种架构上均超越全量数据回放基线。

研究背景与动机

  1. 领域现状:目标导航(ObjectNav)是具身智能核心任务,当前 SOTA 方法(OVRL-V2、PIRLNav、NavID 等)依赖预训练视觉编码器 + 大规模示范轨迹,在固定类别集上表现优异。
  2. 现有痛点:这些方法假设训练期间所有类别和数据一次性可用,在开放世界中需要不断接纳新物体时,模型参数更新会导致灾难性遗忘——新类别学会了,旧类别导航能力急剧下降(约 40% SR 下降)。
  3. 核心矛盾:直接的数据回放(存储完整轨迹)可以缓解遗忘,但导航轨迹极长(单条可达数百帧)、高度冗余、且涉及隐私(室内场景空间信息泄露),存储开销和隐私成本不可接受。
  4. 本文要解决什么:如何让导航智能体增量学习新类别的同时保持对旧类别的导航技能,且不需要存储原始轨迹
  5. 切入角度:将遗忘分解为两个独立来源——编码器的表征漂移和解码器的策略退化,分别施加约束;同时将关键帧选择转化为特征空间的离群点检测问题来压缩存储。
  6. 核心 idea:双路径抗遗忘(feature distillation 稳定编码器表征 + feature replay 稳定动作解码器策略)+ 基于 LOF 的自适应经验选择(只存语义突变帧的特征而非原始图像)。

方法详解

整体框架

C-Nav 由两大模块组成:(1) 双路径抗遗忘机制——特征蒸馏路径约束多模态编码器输出一致性,特征回放路径向动作解码器重放旧任务的关键帧特征;(2) 自适应经验选择——用 CLIP 提取视觉特征后通过 LOF 算法检测语义离群帧作为关键帧,仅存储其深层特征和动作标签。

关键设计 1:特征蒸馏(Feature Distillation)保持表征一致性

  • 做什么:冻结上一阶段编码器 \(f_{k-1}\),在新数据上训练时约束当前编码器 \(f_k\) 的输出与 \(f_{k-1}\) 保持接近。
  • 核心思路:最小化新旧编码器在相同观测上的 \(\ell_2\) 距离:\(\mathcal{L}_{\text{KD}} = \sum_{t=1}^{L} \|f_{k-1}(o_t) - f_k(o_t)\|_2^2\)
  • 设计动机:多模态编码器处理 RGB、深度、位姿、文本等输入,分布偏移会导致特征空间漂移,下游解码器即使未变也会因输入特征变化而失效。

关键设计 2:特征回放(Feature Replay)保持策略一致性

  • 做什么:存储旧任务关键帧的编码特征 \(h_t \in \mathbb{R}^d\) 及对应动作标签,训练时混入当前数据一起训练动作解码器。
  • 核心思路:使用带 inflection weighting 的交叉熵损失:\(\mathcal{L}_{\text{FR}} = \frac{1}{L}\sum_{t=1}^{L} -w_t \log \pi_k(a_t | h_{1:t})\),其中动作转换点权重更高(\(w_t = 1 + \gamma \cdot \mathbb{1}_{a_t \neq a_{t-1}}\))。
  • 设计动机:存储特征而非原始图像,既避免隐私泄露又大幅压缩存储;inflection weighting 强调转弯/停止等关键决策点。

关键设计 3:自适应经验选择(Adaptive Experience Selection via LOF)

  • 做什么:从每条轨迹中自动筛选语义变化显著的关键帧,而非均匀采样或存储全部帧。
  • 核心思路:用 CLIP 编码 RGB 观测得到特征 \(\mathbf{v}_i\),计算每帧的 Local Outlier Factor(LOF),选择 \(\text{LOF}(\mathbf{v}_i) > 1\) 的帧作为关键帧。LOF 高意味着该帧在特征空间中偏离邻域密度——通常对应进入新房间、发现目标物体、路径转折等语义突变时刻。
  • 设计动机:导航轨迹中相邻帧高度冗余(机器人缓慢平移时视觉变化极小),均匀采样无法区分信息量,LOF 天然适合在连续特征流中捡出"不一样"的帧。

关键设计 4:总体训练目标

\[\mathcal{L} = \mathcal{L}_{\text{Curr}} + \lambda_{\text{KD}} \cdot \mathcal{L}_{\text{KD}} + \lambda_{\text{FR}} \cdot \mathcal{L}_{\text{FR}}\]

其中 \(\mathcal{L}_{\text{Curr}}\) 为当前任务的 behavior cloning 损失(同样带 inflection weighting),\(\lambda_{\text{KD}} = \lambda_{\text{FR}} = 5\)

损失函数与训练策略

  • 行为克隆损失:带 inflection weighting(\(\gamma = 3.48\))的交叉熵,重点监督动作转换帧
  • 特征蒸馏损失\(\ell_2\) 距离约束编码器新旧输出一致
  • 特征回放损失:从特征缓存中回放旧任务特征训练解码器
  • 优化器:AdamW,线性 warmup 1000 步达到 \(3 \times 10^{-4}\),之后线性衰减
  • 训练规模:每阶段 25 epochs,batch size 32,2×A6000 GPU
  • 编码器:CLIP-ResNet50(RGB)+ PointNav 预训练 ResNet50(深度),均冻结

实验关键数据

主实验:HM3D 数据集上不同架构的表现(SR%)

方法 RNN-Avg RNN-Last Trans-Avg Trans-Last Bev-Avg Bev-Last LLM-Avg LLM-Last
Finetuning 32.8 21.3 31.4 19.5 32.0 20.8 28.4 16.4
LoRA - - 34.0 22.5 36.3 24.1 39.9 24.1
LwF 34.4 25.1 31.7 19.2 32.6 21.7 26.2 11.7
Model Merge 40.8 20.4 45.1 24.5 45.0 18.5 42.5 19.9
Data Replay 44.1 33.6 52.7 39.6 53.2 44.2 52.2 40.9
C-Nav 50.0 40.3 55.8 46.5 56.3 46.5 52.2 42.2

C-Nav 在 4 种架构上平均 SR 比 Data Replay 高 2.75%,同时不需要存原始轨迹。

消融实验:双路径组件贡献(HM3D,SR%)

消融设置 RNN-Avg RNN-Last Trans-Avg Trans-Last Bev-Avg Bev-Last LLM-Avg LLM-Last
w/o KD(去掉特征蒸馏) 28.2 16.9 31.4 20.2 32.5 21.9 33.6 19.9
w/o FP(去掉特征回放) 37.9 27.9 45.9 32.6 38.9 26.7 42.7 30.2
All(完整 C-Nav) 50.0 40.3 55.8 46.5 56.3 46.5 52.2 42.2

去掉特征蒸馏导致平均 SR 下降约 22%(HM3D),去掉特征回放下降约 12%,说明编码器表征漂移是遗忘的主要来源。

自适应采样消融(HM3D,50% 长度,SR%)

采样方式 RNN-Avg Trans-Avg Bev-Avg LLM-Avg
Uniform (50%) 43.2 50.5 49.4 47.7
Data Replay (Full) 44.1 52.7 53.2 52.2
Adaptive (50%) 47.3 53.7 52.8 51.6
C-Nav Full 50.0 54.7 56.3 52.2

自适应采样在只用 50% 帧的情况下比均匀采样高 3.65%,仅比全量回放低 1.9%

亮点与洞察

  1. 问题定义有价值:首次系统化定义了 Continual-ObjectNav benchmark,覆盖 4 种主流架构(RNN/Transformer/BEV/LLM-based)× 多种持续学习方法,填补了具身导航领域持续学习的研究空白。
  2. 双路径解耦设计优雅:将遗忘归因为编码器表征漂移 + 解码器策略退化两个独立来源,分别用蒸馏和回放解决,逻辑清晰且实验验证了两者互补性。
  3. LOF 做关键帧选择很巧妙:把"哪些帧重要"转化为异常检测问题,利用 LOF 在连续特征流中自动找语义突变点,比均匀采样在半数数据量下效果更好。
  4. 存储特征而非原始图像:既解决了隐私问题(不存室内 RGB),又大幅压缩存储(特征向量 vs. 高分辨率图像),工程上非常实用。
  5. 跨架构泛化性:方法在 RNN、Transformer、BEV、LLM 四种架构上均一致有效,说明设计思路足够通用。

局限性

  1. Benchmark 规模有限:HM3D 只有 6 个类别分 4 阶段,MP3D 21 个类别但最终也只有 4 个 stage,距离真正的开放世界(数百类别、持续增长)差距较大,方法是否能扩展到更大规模未知。
  2. 仅限模拟器环境:所有实验基于 Habitat 模拟器,没有 sim-to-real 验证,真实机器人部署中的传感器噪声、动态障碍物等问题未涉及。
  3. 编码器冻结限制了表征学习:CLIP-ResNet50 和 PointNav ResNet50 均冻结,蒸馏只约束融合层,这限制了编码器适应新场景的能力,在更困难的任务上可能成为瓶颈。
  4. LOF 超参数敏感性未充分讨论:LOF 的邻域大小 \(k\) 对关键帧选择影响较大,论文未给出敏感性分析。
  5. 回放缓存大小固定:每类别存储 \(p=80\) 条轨迹特征,未讨论不同缓存大小对性能-存储 trade-off 的影响。

与相关工作的对比

方法 类型 是否需要原始轨迹 遗忘缓解程度 存储开销
Data Replay 数据回放 ✅ 需要存原始轨迹 较好 高(随类别线性增长)
LwF 正则化(logit 蒸馏) 差(HM3D 上接近 Finetuning)
C-Nav 特征蒸馏 + 特征回放 ❌ 只存特征向量 最优 中(特征级,远小于图像级)
  • vs. Data Replay:C-Nav 在 HM3D/MP3D 上分别高 2.75%/3.35% SR,且不存原始图像,存储和隐私优势明显。
  • vs. LwF:LwF 对 logits 做 KL 散度蒸馏,但导航任务的 action space 很小(6 个动作),logit 层信息不够丰富,C-Nav 在特征层做蒸馏信息保留更充分。
  • vs. LoRA / Model Merge:两者在一定程度上缓解遗忘,但在最终阶段(Last)性能仍明显低于 C-Nav,说明参数约束/合并不足以替代显式的表征和策略一致性保持。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个 Continual-ObjectNav benchmark + 双路径抗遗忘 + LOF 关键帧选择,问题定义和方法设计都有新意,但各组件(知识蒸馏、经验回放、LOF)本身不算新
  • 实验充分度: ⭐⭐⭐⭐⭐ — 4 种架构 × 2 个数据集 × 多种基线 × 详细消融,非常全面系统
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,问题定义严谨,图表规范;部分数学符号有重复(LOF 的 k 和任务阶段的 k 冲突)
  • 价值: ⭐⭐⭐⭐ — Benchmark 本身就是重要贡献,方法通用性强,对具身 AI 社区有实际推动价值