Embodied Navigation with Auxiliary Task of Action Description Prediction¶
会议: ICCV 2025
arXiv: 2510.21809
代码: 无
领域: 强化学习 / 具身导航
关键词: 具身导航, 动作描述, 辅助任务, 知识蒸馏, 语义音频-视觉导航
一句话总结¶
DescRL 将动作描述生成作为强化学习导航的辅助任务,通过从预训练的视觉-语言模型蒸馏知识来训练 ADPredictor,使导航智能体在生成可解释动作描述的同时提升导航性能,在语义音频-视觉导航(SAVNav)等多个任务上实现 SOTA。
研究背景与动机¶
多模态机器人导航领域面临两个关键挑战:
可解释性 vs. 性能权衡:随着导航模型越来越复杂,系统变成黑盒。可解释系统通常无法在性能上超越不可解释系统;
RL 中缺乏动作描述的 ground-truth:在模仿学习(IL)中可以将指令文本作为预测目标,但 RL 中没有人类提供的轨迹-指令配对数据,无法直接扩展已有方法。
核心洞察:通过知识蒸馏从预训练的描述生成模型(VLM)获取伪标签,可以在 RL 中引入动作描述预测作为辅助任务。令人惊讶的是,这一辅助任务不仅不损害导航性能,反而能显著提升导航能力。
方法详解¶
整体框架¶
DescRL 分为两个阶段: - Phase 1:预训练 ADGenerator(动作描述生成器),将导航观测序列翻译为自然语言描述; - Phase 2:在 RL 训练中,ADPredictor(动作描述预测器)作为辅助任务,学习预测 ADGenerator 的输出。
定义三种动作描述类型: - P-AD(过去动作描述):描述智能体过去做了什么——有助于识别物体/空间的识别错误; - F-AD(未来动作描述):描述智能体接下来应该做什么——有助于提升规划能力; - PF-AD:P-AD + F-AD 的组合。
关键设计¶
-
ADGenerator 预训练:使用 R2R(Vision-and-Language Navigation)数据集训练,输入为视觉观测序列 \(V_0, \dots, V_T\) 和动作序列 \(\mathbb{a}_1, \dots, \mathbb{a}_T\),通过 CNN 编码视觉特征后与动作拼接,送入 Transformer encoder-decoder 输出描述语句 \(w_1, \dots, w_l\)。使用 teacher-forcing 和交叉熵损失训练。
-
ADPredictor 辅助任务:ADPredictor 与 RL 策略网络共享 Transformer encoder 和 decoder。通过任务嵌入 \(E_{\text{RL}}^T, E_{\text{AD}}^T\) 区分两个任务的输入。训练分两步:
- Step 1 预训练:仅训练动作描述预测(使用预构建的轨迹-描述数据集,ObjNav ~100k 数据,SAVNav ~500k 数据);
- Step 2 联合训练:同时学习导航和动作描述预测,总损失为 \(\mathcal{L}_{\text{RL}} + \lambda \mathcal{L}_{\text{CE}}\)。
关键技巧: - ADPredictor 与策略共享编码器/解码器权重,使观测编码更高效; - ADGenerator 仅在训练时使用;测试时仅需 ADPredictor,无额外推理开销; - F-DescRL 中,训练时 ADGenerator 可输入未来观测(沿最短路径),ADPredictor 仅基于过去观测预测未来动作描述。
- VLM 作为 ADGenerator(去人工数据依赖):使用 VideoLLaMA2 或 Qwen2.5-VL 作为 ADGenerator,以零样本方式从 VLM 的输出进行知识蒸馏(soft targets),完全不依赖人工标注数据。实验表明即使无 R2R 数据,DescRL 仍能提升导航性能。
损失函数 / 训练策略¶
- RL 算法:DD-PPO(ObjNav/SAVNav)、DAgger(VLN);
- DescRL 损失系数 \(\lambda = 0.1\);
- ADGenerator 输入历史长度 \(k+1 = 20\);
- 共享解码器层数 2 层(ObjNav/SAVNav),非共享层各 1 层;
- SAVNav 中以目标位置/类别预测作为 ADPredictor 的 BOS token,使描述与目标感知对齐。
实验关键数据¶
主实验¶
语义音频-视觉导航(SAVNav,Heard Setting):
| 方法 | SR↑ | SPL↑ | SNA↑ | DTG↓ | SWS↑ |
|---|---|---|---|---|---|
| AV-Nav | 19.3 | 15.9 | 15.0 | 12.6 | 5.6 |
| SAVi | 31.6 | 28.5 | 24.6 | 11.8 | 12.5 |
| KSAVEN | 25.1 | 18.1 | 13.5 | 10.3 | 15.8 |
| SAVi + P-DescRL | 37.4 | 32.4 | 28.0 | 8.4 | 19.1 |
SAVNav Unheard Setting:
| 方法 | SR↑ | SPL↑ | SNA↑ | DTG↓ | SWS↑ |
|---|---|---|---|---|---|
| SAVi | 24.7 | 22.4 | 18.9 | 11.8 | 10.2 |
| SAVi + P-DescRL | 31.4 | 26.9 | 22.5 | 8.7 | 15.1 |
P-DescRL 在 SAVi 上全面超越 SOTA:SR +5.8, SPL +3.9, SWS +6.6(Heard)。
VLN(Val Unseen):
| 方法 | NE↓ | SR↑ | SPL↑ |
|---|---|---|---|
| DUET | 3.21 | 71.65 | 60.44 |
| DUET + P-DescRL | 3.09 | 72.33 | 61.37 |
| ScaleVLN | 2.40 | 78.63 | 69.15 |
| ScaleVLN + P-DescRL | 2.37 | 78.84 | 68.96 |
消融实验¶
与其他辅助任务对比(SAVi 基线,Heard Setting):
| 辅助任务 | SR↑ | SPL↑ | SNA↑ | SWS↑ |
|---|---|---|---|---|
| 无辅助任务 | 31.6 | 28.5 | 24.6 | 12.5 |
| 预测下一步动作 | 33.2 | 30.6 | 27.3 | 12.7 |
| 预测进度 | 35.0 | 31.6 | 28.3 | 15.7 |
| 预测下一帧图像 | 35.4 | 31.6 | 27.0 | 15.8 |
| 预测目标类别 | 35.4 | 31.9 | 27.9 | 15.2 |
| P-DescRL | 37.4 | 32.4 | 28.0 | 19.1 |
P-DescRL 在所有指标上均优于传统辅助任务,尤其是 SWS(声音停止时的成功率)提升显著。
VLM 作为 ADGenerator(SAVNav Heard):
| ADGenerator | Fine-tuned | SR↑ | SPL↑ | SWS↑ |
|---|---|---|---|---|
| 无 | - | 31.6 | 28.5 | 12.5 |
| CNN+TF (R2R) | ✓ | 37.4 | 32.4 | 19.1 |
| VideoLLaMA2 (零样本) | × | 33.7 | 29.8 | 16.0 |
| VideoLLaMA2 (微调) | ✓ | 28.9 | 25.6 | 11.6 |
| Qwen2.5-VL (零样本) | × | 33.4 | 28.6 | 15.2 |
关键发现¶
- P-AD > F-AD:过去动作描述比未来动作描述更适合作为辅助任务。F-AD 本身太难,作为辅助任务反而有害(Unheard 设置下甚至降低基线性能);
- VLM 微调反而有害:在 R2R 上微调 VideoLLaMA2 导致过拟合,性能低于零样本;
- 更强 VLM 不一定更好:Qwen2.5-VL(更强模型)在此任务上并不优于 VideoLLaMA2;
- SAVNav 受益最大:因为声音可能中途停止,导致后半段 RL 缺乏奖励线索,辅助任务提供了持续学习信号。
亮点与洞察¶
- 打破可解释性-性能权衡:传统观念认为可解释性会降低性能,但 DescRL 通过将描述生成作为辅助任务(而非独立目标),实现了两者同时提升;
- 知识蒸馏解决 RL 中无 ground-truth 难题:巧妙利用预训练模型作为伪标签生成器,绕过了 RL 中缺乏人工标注的核心困难;
- 共享编码器的双重价值:Transformer 编码器/解码器的共享不仅减少参数,还通过多任务学习使观测编码更具语义意义;
- 故障分析能力:描述生成使得可以分析导航失败原因(如"走近了但未在正确位置停下"),提供调试价值。
局限与展望¶
- ADGenerator 的训练依赖 R2R 数据集(VLN 特定数据),存在域差异(VLN 成功距离 3m vs SAVNav 1m)导致"走近但不停"的失败模式;
- VLM 零样本描述虽可行但效果明显不如 R2R 训练的 ADGenerator,说明通用 VLM 的导航描述能力仍有限;
- 仅在 Habitat 模拟器中评估,未在真实机器人上验证;
- 生成的描述质量评估主要是定性的,缺乏系统的语言质量量化指标。
相关工作与启发¶
- 与 XRL(可解释 RL)不同:传统 XRL 关注事后解释,DescRL 将描述集成到策略学习中;
- 与 VLN 中的指令预测(Zhu et al., Hejna et al.)不同:他们仅用 IL,RL 中无法获取 ground-truth 指令,DescRL 通过蒸馏解决此问题;
- 与 LLM-based 导航(Yang et al.)不同:LLM 方法推理慢且 SPL 指标差,DescRL 轻量且实时。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将动作描述从"解释性输出"变为"辅助训练信号"的思路很新颖
- 实验充分度: ⭐⭐⭐⭐ 三个导航任务(ObjNav/VLN/SAVNav)、多种基线、辅助任务对比、VLM消融
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰,实验设计周到
- 价值: ⭐⭐⭐⭐ 提供了一种通用的 RL 辅助任务设计范式,不限于导航
相关论文¶
- [CVPR 2025] CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
- [ICCV 2025] NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation
- [CVPR 2026] RoboAgent: Chaining Basic Capabilities for Embodied Task Planning
- [ICCV 2025] RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints
- [NeurIPS 2025] Bandit and Delayed Feedback in Online Structured Prediction