C-NAV: Towards Self-Evolving Continual Object Navigation in Open World¶

会议: NeurIPS 2025 arXiv: 2510.20685 代码: https://bigtree765.github.io/C-Nav-project 领域: robotics / embodied AI 关键词: continual learning, object navigation, catastrophic forgetting, feature distillation, feature replay, LOF, embodied agent

一句话总结¶

提出 C-Nav 持续目标导航框架，通过双路径抗遗忘机制（特征蒸馏 + 特征回放）和基于 LOF 的自适应经验选择，使导航智能体在增量学习新物体类别时有效避免灾难性遗忘，在 4 种主流架构和 2 个数据集上均超越全量数据回放基线。

研究背景与动机¶

领域现状：目标导航（ObjectNav）是具身智能的基础能力，当前 SOTA（OVRL-V2、PIRLNav、NavID 等）依赖预训练视觉编码器 + 大规模示范轨迹，假设所有目标类别在训练期间一次性给定。
开放世界需求：实际部署中机器人需持续面对新物体类别和变化环境，要求增量学习能力。然而现有方法在顺序学习新类别时，成功率平均下降约 40%，遭受严重的灾难性遗忘。
数据回放的代价：朴素数据回放（存储完整轨迹）虽能缓解遗忘，但导航轨迹极长（单条可达数百帧），存在存储开销大、帧间高度冗余、以及隐私风险（室内场景泄露敏感空间信息）等问题。
遗忘根源分析：灾难性遗忘有两个独立来源——多模态编码器的表征漂移（输入分布偏移导致特征空间漂移）与动作解码器的策略退化（历史特征→动作映射失效），需分别施加约束。
研究空白：持续学习在图像分类等单模态任务上已有大量工作，但在需要长时序决策和多模态融合的目标导航任务中尚未被系统研究，也缺乏标准化评估基准。
核心切入点：将关键帧选择建模为特征空间中的离群点检测问题，仅存储语义突变帧的深层特征（而非原始图像），同时用双路径机制分别稳定编码器和解码器，从而以极低存储代价实现持续导航。

方法详解¶

整体框架¶

C-Nav 由两大核心模块构成：(1) 双路径抗遗忘机制——特征蒸馏路径约束多模态编码器的表征一致性，特征回放路径向动作解码器重放旧任务关键帧特征以保持策略一致性；(2) 自适应经验选择——用 CLIP 编码视觉观测后，通过 LOF（Local Outlier Factor）算法检测语义离群帧作为关键帧，仅存储其编码器输出特征与动作标签到 feature buffer。

关键设计 1：特征蒸馏（Feature Distillation）——保持表征一致性¶

目标：冻结上一阶段编码器 \(f_{k-1}\)，约束当前编码器 \(f_k\) 在新数据上的输出与旧编码器保持一致。
实现：最小化新旧编码器在同一观测上的 \(\ell_2\) 距离：\(\mathcal{L}_{\text{KD}} = \sum_{t=1}^{L} \|f_{k-1}(o_t) - f_k(o_t)\|_2^2\)。
设计动机：多模态编码器处理 RGB、深度图、位姿、文本等异构输入，学习新任务时输入分布偏移会导致特征空间漂移，即使解码器未变也会因输入特征变化而对旧类别失效。通过特征蒸馏可软性约束表征空间的连续性。

关键设计 2：特征回放（Feature Replay）——保持策略一致性¶

目标：在训练新任务时，向动作解码器混入旧任务关键帧的编码特征和对应动作标签，防止策略遗忘。
实现：带 inflection weighting 的交叉熵损失 \(\mathcal{L}_{\text{FR}} = \frac{1}{L}\sum_{t} -w_t \log \pi_k(a_t | h_{1:t})\)，其中动作转换点赋予更高权重 \(w_t = 1 + \gamma \cdot \mathbb{1}_{a_t \neq a_{t-1}}\)（\(\gamma=3.48\)）。
设计动机：存储深层特征而非原始图像，既大幅压缩存储又避免隐私泄露；inflection weighting 强调转弯、停止等关键决策点，这些是导航策略中最容易退化的部分。

关键设计 3：自适应经验选择（Adaptive Experience Selection via LOF）¶

目标：从冗长导航轨迹中自动识别语义突变帧（如进入新空间、发现目标物体、空间转换点），压缩存储量。
实现：用预训练 CLIP 对 RGB 观测提取特征 \(\mathbf{v}_i\)，计算帧间余弦距离，通过 LOF 算法度量每帧的局部离群程度。LOF > 1 的帧被判定为关键帧，存入 feature buffer。
设计动机：导航轨迹中相邻帧高度冗余（走直线时连续数十帧几乎相同），均匀采样会浪费大量存储。将关键帧选择转化为密度估计问题，只保留语义变化显著的少量帧即可覆盖轨迹核心信息。

关键设计 4：Continual-ObjectNav 基准构建¶

基于 HM3D（6 类，75,488 轨迹）和 MP3D（21 类，59,604 轨迹）构建 4 阶段增量学习基准。
各阶段的目标类别集严格不相交（\(\mathcal{C}_i \cap \mathcal{C}_j = \emptyset\)），评估时在所有已见类别上测试 SR 和 SPL。
系统评估 4 种主流架构：RNN-Based、Bev-Based、Transformer-Based、LLM-Based。

损失函数与训练策略¶

总损失函数为三项加权组合：

\[\mathcal{L} = \mathcal{L}_{\text{Curr}} + \lambda_{\text{KD}} \cdot \mathcal{L}_{\text{KD}} + \lambda_{\text{FR}} \cdot \mathcal{L}_{\text{FR}}\]

其中 \(\mathcal{L}_{\text{Curr}}\) 为当前任务的 behavior cloning 损失（带 inflection weighting），\(\lambda_{\text{KD}} = \lambda_{\text{FR}} = 5\)。训练使用 AdamW 优化器，学习率 \(3 \times 10^{-4}\)，1000 步线性预热后线性衰减，每阶段训练 25 epochs，batch size 32。视觉编码器（CLIP-ResNet50 + PointNav-ResNet50）在训练期间冻结。

实验¶

实验一：HM3D 基准主实验¶

方法	HM3D-RNN Avg SR	HM3D-Trans Avg SR	HM3D-Bev Avg SR	HM3D-LLM Avg SR
Fine-tuning	32.8	31.4	32.0	28.4
LoRA	—	34.0	36.3	39.9
LwF	34.4	31.7	32.6	26.2
Model Merge	40.8	45.1	45.0	42.5
Data Replay	44.1	52.7	53.2	52.2
C-Nav	50.0	55.8	56.3	52.2

C-Nav 在 HM3D 上平均 SR 比数据回放提升 2.75%（4 种架构平均），其中 RNN 架构提升最大（+5.9%）。Bev-Based 架构整体表现最优。

实验二：MP3D 基准主实验¶

方法	MP3D-RNN Avg SR	MP3D-Trans Avg SR	MP3D-Bev Avg SR	MP3D-LLM Avg SR
Fine-tuning	19.4	20.1	27.4	14.7
LoRA	—	24.2	29.5	31.1
LwF	22.0	20.7	27.6	14.6
Model Merge	30.3	33.8	41.7	26.5
Data Replay	33.8	37.7	41.8	26.3
C-Nav	36.4	38.1	42.4	36.1

C-Nav 在 MP3D 上平均 SR 比数据回放提升 3.35%。LLM-Based 架构提升最显著（+9.8%），说明特征蒸馏和特征回放对大语言模型解码器尤其有效。

消融实验：双路径各组件贡献¶

组件	HM3D-Bev Avg SR	HM3D-Bev Last SR
w/o 特征蒸馏（KD）	32.5	21.9
w/o 特征回放（FP）	38.9	26.7
C-Nav (All)	56.3	46.5

去掉特征蒸馏导致 HM3D 上平均 SR 下降约 22%，去掉特征回放下降约 12%，表明两个组件互补但特征蒸馏对抗遗忘贡献更大。

消融实验：自适应经验选择¶

在截取 50% 轨迹长度的条件下，自适应采样比均匀采样 SR 高 3.65%（HM3D）/ 3.2%（MP3D），且仅比全长特征回放掉 1.9%/1.3%，证明 LOF 能有效识别高信息量关键帧。

亮点¶

首个持续目标导航基准：系统化定义了 Continual-ObjectNav 任务，覆盖 4 种架构（RNN/Transformer/Bev/LLM）和 6 种基线方法，填补了该领域的评估空白
双路径设计直击遗忘本质：将遗忘分解为「表征漂移」与「策略退化」两个独立来源，分别用特征蒸馏和特征回放施加约束，设计逻辑清晰
LOF 关键帧选择新颖实用：将关键帧选择建模为密度估计中的离群点检测，避免人工阈值设定，自动适应不同轨迹特征
存储与隐私友好：存储编码器输出特征而非原始 RGB-D 图像，既大幅减少存储需求又规避室内场景的隐私风险
跨架构一致有效：在 4 种差异较大的架构上均优于全量数据回放，泛化性强

局限性¶

评估仅在模拟器（Habitat）中进行，未在真实机器人上验证 sim-to-real 迁移效果
每阶段仅引入 1-3 个新类别，类别增量规模较小，大规模类别增量（如 50+ 类别）下的可扩展性尚不明确
LLM-Based 架构（Qwen2-0.5B）在训练数据有限时优势不明显，论文未探讨更大 LLM 或更多训练数据的影响
特征蒸馏要求保留上一阶段完整编码器副本，随阶段增多可能带来额外显存开销（虽然论文冻结编码器，但推理时仍需加载）
LOF 的近邻参数 \(k\) 对结果敏感度未充分分析，不同场景（如密集家具 vs 空旷走廊）可能需要不同配置
仅评估离散动作空间（6 种原子动作），未扩展到连续控制或更细粒度的导航策略

评分¶

新颖性: ⭐⭐⭐⭐ — 首个 Continual-ObjectNav 基准 + 双路径抗遗忘设计简洁有效，LOF 关键帧选择视角新颖
实验充分度: ⭐⭐⭐⭐ — 覆盖 4 种架构、2 个数据集、6 种基线，消融实验充分，但缺少真实机器人验证
写作质量: ⭐⭐⭐⭐ — 问题定义清晰、框架图直观、数学符号规范，整体写作质量高
价值: ⭐⭐⭐⭐ — 基准和方法对持续具身智能研究有重要推动作用，但模拟到实机的鸿沟仍需后续工作填补