C-NAV: Towards Self-Evolving Continual Object Navigation in Open World¶

会议: NeurIPS 2025
arXiv: 2510.20685
代码: https://bigtree765.github.io/C-Nav-project
领域: robotics / embodied AI
关键词: continual learning, object navigation, catastrophic forgetting, feature distillation, feature replay, LOF

一句话总结¶

提出 C-Nav 框架，通过双路径抗遗忘（特征蒸馏 + 特征回放）和自适应经验选择（LOF 异常检测选关键帧），让导航智能体在不断学习新物体类别时避免灾难性遗忘，在 4 种架构上均超越全量数据回放基线。

研究背景与动机¶

领域现状：目标导航（ObjectNav）是具身智能核心任务，当前 SOTA 方法（OVRL-V2、PIRLNav、NavID 等）依赖预训练视觉编码器 + 大规模示范轨迹，在固定类别集上表现优异。
现有痛点：这些方法假设训练期间所有类别和数据一次性可用，在开放世界中需要不断接纳新物体时，模型参数更新会导致灾难性遗忘——新类别学会了，旧类别导航能力急剧下降（约 40% SR 下降）。
核心矛盾：直接的数据回放（存储完整轨迹）可以缓解遗忘，但导航轨迹极长（单条可达数百帧）、高度冗余、且涉及隐私（室内场景空间信息泄露），存储开销和隐私成本不可接受。
本文要解决什么：如何让导航智能体增量学习新类别的同时保持对旧类别的导航技能，且不需要存储原始轨迹。
切入角度：将遗忘分解为两个独立来源——编码器的表征漂移和解码器的策略退化，分别施加约束；同时将关键帧选择转化为特征空间的离群点检测问题来压缩存储。
核心 idea：双路径抗遗忘（feature distillation 稳定编码器表征 + feature replay 稳定动作解码器策略）+ 基于 LOF 的自适应经验选择（只存语义突变帧的特征而非原始图像）。

方法详解¶

整体框架¶

C-Nav 由两大模块组成：(1) 双路径抗遗忘机制——特征蒸馏路径约束多模态编码器输出一致性，特征回放路径向动作解码器重放旧任务的关键帧特征；(2) 自适应经验选择——用 CLIP 提取视觉特征后通过 LOF 算法检测语义离群帧作为关键帧，仅存储其深层特征和动作标签。

关键设计 1：特征蒸馏（Feature Distillation）保持表征一致性¶

做什么：冻结上一阶段编码器 \(f_{k-1}\)，在新数据上训练时约束当前编码器 \(f_k\) 的输出与 \(f_{k-1}\) 保持接近。
核心思路：最小化新旧编码器在相同观测上的 \(\ell_2\) 距离：\(\mathcal{L}_{\text{KD}} = \sum_{t=1}^{L} \|f_{k-1}(o_t) - f_k(o_t)\|_2^2\)。
设计动机：多模态编码器处理 RGB、深度、位姿、文本等输入，分布偏移会导致特征空间漂移，下游解码器即使未变也会因输入特征变化而失效。

关键设计 2：特征回放（Feature Replay）保持策略一致性¶

做什么：存储旧任务关键帧的编码特征 \(h_t \in \mathbb{R}^d\) 及对应动作标签，训练时混入当前数据一起训练动作解码器。
核心思路：使用带 inflection weighting 的交叉熵损失：\(\mathcal{L}_{\text{FR}} = \frac{1}{L}\sum_{t=1}^{L} -w_t \log \pi_k(a_t | h_{1:t})\)，其中动作转换点权重更高（\(w_t = 1 + \gamma \cdot \mathbb{1}_{a_t \neq a_{t-1}}\)）。
设计动机：存储特征而非原始图像，既避免隐私泄露又大幅压缩存储；inflection weighting 强调转弯/停止等关键决策点。

关键设计 3：自适应经验选择（Adaptive Experience Selection via LOF）¶

做什么：从每条轨迹中自动筛选语义变化显著的关键帧，而非均匀采样或存储全部帧。
核心思路：用 CLIP 编码 RGB 观测得到特征 \(\mathbf{v}_i\)，计算每帧的 Local Outlier Factor（LOF），选择 \(\text{LOF}(\mathbf{v}_i) > 1\) 的帧作为关键帧。LOF 高意味着该帧在特征空间中偏离邻域密度——通常对应进入新房间、发现目标物体、路径转折等语义突变时刻。
设计动机：导航轨迹中相邻帧高度冗余（机器人缓慢平移时视觉变化极小），均匀采样无法区分信息量，LOF 天然适合在连续特征流中捡出"不一样"的帧。

关键设计 4：总体训练目标¶

\[\mathcal{L} = \mathcal{L}_{\text{Curr}} + \lambda_{\text{KD}} \cdot \mathcal{L}_{\text{KD}} + \lambda_{\text{FR}} \cdot \mathcal{L}_{\text{FR}}\]

其中 \(\mathcal{L}_{\text{Curr}}\) 为当前任务的 behavior cloning 损失（同样带 inflection weighting），\(\lambda_{\text{KD}} = \lambda_{\text{FR}} = 5\)。

损失函数与训练策略¶

行为克隆损失：带 inflection weighting（\(\gamma = 3.48\)）的交叉熵，重点监督动作转换帧
特征蒸馏损失：\(\ell_2\) 距离约束编码器新旧输出一致
特征回放损失：从特征缓存中回放旧任务特征训练解码器
优化器：AdamW，线性 warmup 1000 步达到 \(3 \times 10^{-4}\)，之后线性衰减
训练规模：每阶段 25 epochs，batch size 32，2×A6000 GPU
编码器：CLIP-ResNet50（RGB）+ PointNav 预训练 ResNet50（深度），均冻结

实验关键数据¶

主实验：HM3D 数据集上不同架构的表现（SR%）¶

方法	RNN-Avg	RNN-Last	Trans-Avg	Trans-Last	Bev-Avg	Bev-Last	LLM-Avg	LLM-Last
Finetuning	32.8	21.3	31.4	19.5	32.0	20.8	28.4	16.4
LoRA	-	-	34.0	22.5	36.3	24.1	39.9	24.1
LwF	34.4	25.1	31.7	19.2	32.6	21.7	26.2	11.7
Model Merge	40.8	20.4	45.1	24.5	45.0	18.5	42.5	19.9
Data Replay	44.1	33.6	52.7	39.6	53.2	44.2	52.2	40.9
C-Nav	50.0	40.3	55.8	46.5	56.3	46.5	52.2	42.2

C-Nav 在 4 种架构上平均 SR 比 Data Replay 高 2.75%，同时不需要存原始轨迹。

消融实验：双路径组件贡献（HM3D，SR%）¶

消融设置	RNN-Avg	RNN-Last	Trans-Avg	Trans-Last	Bev-Avg	Bev-Last	LLM-Avg	LLM-Last
w/o KD（去掉特征蒸馏）	28.2	16.9	31.4	20.2	32.5	21.9	33.6	19.9
w/o FP（去掉特征回放）	37.9	27.9	45.9	32.6	38.9	26.7	42.7	30.2
All（完整 C-Nav）	50.0	40.3	55.8	46.5	56.3	46.5	52.2	42.2

去掉特征蒸馏导致平均 SR 下降约 22%（HM3D），去掉特征回放下降约 12%，说明编码器表征漂移是遗忘的主要来源。

自适应采样消融（HM3D，50% 长度，SR%）¶

采样方式	RNN-Avg	Trans-Avg	Bev-Avg	LLM-Avg
Uniform (50%)	43.2	50.5	49.4	47.7
Data Replay (Full)	44.1	52.7	53.2	52.2
Adaptive (50%)	47.3	53.7	52.8	51.6
C-Nav Full	50.0	54.7	56.3	52.2

自适应采样在只用 50% 帧的情况下比均匀采样高 3.65%，仅比全量回放低 1.9%。

亮点与洞察¶

问题定义有价值：首次系统化定义了 Continual-ObjectNav benchmark，覆盖 4 种主流架构（RNN/Transformer/BEV/LLM-based）× 多种持续学习方法，填补了具身导航领域持续学习的研究空白。
双路径解耦设计优雅：将遗忘归因为编码器表征漂移 + 解码器策略退化两个独立来源，分别用蒸馏和回放解决，逻辑清晰且实验验证了两者互补性。
LOF 做关键帧选择很巧妙：把"哪些帧重要"转化为异常检测问题，利用 LOF 在连续特征流中自动找语义突变点，比均匀采样在半数数据量下效果更好。
存储特征而非原始图像：既解决了隐私问题（不存室内 RGB），又大幅压缩存储（特征向量 vs. 高分辨率图像），工程上非常实用。
跨架构泛化性：方法在 RNN、Transformer、BEV、LLM 四种架构上均一致有效，说明设计思路足够通用。

局限性¶

Benchmark 规模有限：HM3D 只有 6 个类别分 4 阶段，MP3D 21 个类别但最终也只有 4 个 stage，距离真正的开放世界（数百类别、持续增长）差距较大，方法是否能扩展到更大规模未知。
仅限模拟器环境：所有实验基于 Habitat 模拟器，没有 sim-to-real 验证，真实机器人部署中的传感器噪声、动态障碍物等问题未涉及。
编码器冻结限制了表征学习：CLIP-ResNet50 和 PointNav ResNet50 均冻结，蒸馏只约束融合层，这限制了编码器适应新场景的能力，在更困难的任务上可能成为瓶颈。
LOF 超参数敏感性未充分讨论：LOF 的邻域大小 \(k\) 对关键帧选择影响较大，论文未给出敏感性分析。
回放缓存大小固定：每类别存储 \(p=80\) 条轨迹特征，未讨论不同缓存大小对性能-存储 trade-off 的影响。

与相关工作的对比¶

方法	类型	是否需要原始轨迹	遗忘缓解程度	存储开销
Data Replay	数据回放	✅ 需要存原始轨迹	较好	高（随类别线性增长）
LwF	正则化（logit 蒸馏）	❌	差（HM3D 上接近 Finetuning）	低
C-Nav	特征蒸馏 + 特征回放	❌ 只存特征向量	最优	中（特征级，远小于图像级）

vs. Data Replay：C-Nav 在 HM3D/MP3D 上分别高 2.75%/3.35% SR，且不存原始图像，存储和隐私优势明显。
vs. LwF：LwF 对 logits 做 KL 散度蒸馏，但导航任务的 action space 很小（6 个动作），logit 层信息不够丰富，C-Nav 在特征层做蒸馏信息保留更充分。
vs. LoRA / Model Merge：两者在一定程度上缓解遗忘，但在最终阶段（Last）性能仍明显低于 C-Nav，说明参数约束/合并不足以替代显式的表征和策略一致性保持。

评分¶

新颖性: ⭐⭐⭐⭐ — 首个 Continual-ObjectNav benchmark + 双路径抗遗忘 + LOF 关键帧选择，问题定义和方法设计都有新意，但各组件（知识蒸馏、经验回放、LOF）本身不算新
实验充分度: ⭐⭐⭐⭐⭐ — 4 种架构 × 2 个数据集 × 多种基线 × 详细消融，非常全面系统
写作质量: ⭐⭐⭐⭐ — 结构清晰，问题定义严谨，图表规范；部分数学符号有重复（LOF 的 k 和任务阶段的 k 冲突）
价值: ⭐⭐⭐⭐ — Benchmark 本身就是重要贡献，方法通用性强，对具身 AI 社区有实际推动价值