跳转至

Embodied Navigation with Auxiliary Task of Action Description Prediction

会议: ICCV 2025
arXiv: 2510.21809
代码: 无
领域: 强化学习 / 具身导航
关键词: 具身导航, 动作描述, 辅助任务, 知识蒸馏, 语义音频-视觉导航

一句话总结

DescRL 将动作描述生成作为强化学习导航的辅助任务,通过从预训练的视觉-语言模型蒸馏知识来训练 ADPredictor,使导航智能体在生成可解释动作描述的同时提升导航性能,在语义音频-视觉导航(SAVNav)等多个任务上实现 SOTA。

研究背景与动机

多模态机器人导航领域面临两个关键挑战:

可解释性 vs. 性能权衡:随着导航模型越来越复杂,系统变成黑盒。可解释系统通常无法在性能上超越不可解释系统;

RL 中缺乏动作描述的 ground-truth:在模仿学习(IL)中可以将指令文本作为预测目标,但 RL 中没有人类提供的轨迹-指令配对数据,无法直接扩展已有方法。

核心洞察:通过知识蒸馏从预训练的描述生成模型(VLM)获取伪标签,可以在 RL 中引入动作描述预测作为辅助任务。令人惊讶的是,这一辅助任务不仅不损害导航性能,反而能显著提升导航能力。

方法详解

整体框架

DescRL 分为两个阶段: - Phase 1:预训练 ADGenerator(动作描述生成器),将导航观测序列翻译为自然语言描述; - Phase 2:在 RL 训练中,ADPredictor(动作描述预测器)作为辅助任务,学习预测 ADGenerator 的输出。

定义三种动作描述类型: - P-AD(过去动作描述):描述智能体过去做了什么——有助于识别物体/空间的识别错误; - F-AD(未来动作描述):描述智能体接下来应该做什么——有助于提升规划能力; - PF-AD:P-AD + F-AD 的组合。

关键设计

  1. ADGenerator 预训练:使用 R2R(Vision-and-Language Navigation)数据集训练,输入为视觉观测序列 \(V_0, \dots, V_T\) 和动作序列 \(\mathbb{a}_1, \dots, \mathbb{a}_T\),通过 CNN 编码视觉特征后与动作拼接,送入 Transformer encoder-decoder 输出描述语句 \(w_1, \dots, w_l\)。使用 teacher-forcing 和交叉熵损失训练。

  2. ADPredictor 辅助任务:ADPredictor 与 RL 策略网络共享 Transformer encoder 和 decoder。通过任务嵌入 \(E_{\text{RL}}^T, E_{\text{AD}}^T\) 区分两个任务的输入。训练分两步:

    • Step 1 预训练:仅训练动作描述预测(使用预构建的轨迹-描述数据集,ObjNav ~100k 数据,SAVNav ~500k 数据);
    • Step 2 联合训练:同时学习导航和动作描述预测,总损失为 \(\mathcal{L}_{\text{RL}} + \lambda \mathcal{L}_{\text{CE}}\)

关键技巧: - ADPredictor 与策略共享编码器/解码器权重,使观测编码更高效; - ADGenerator 仅在训练时使用;测试时仅需 ADPredictor,无额外推理开销; - F-DescRL 中,训练时 ADGenerator 可输入未来观测(沿最短路径),ADPredictor 仅基于过去观测预测未来动作描述。

  1. VLM 作为 ADGenerator(去人工数据依赖):使用 VideoLLaMA2 或 Qwen2.5-VL 作为 ADGenerator,以零样本方式从 VLM 的输出进行知识蒸馏(soft targets),完全不依赖人工标注数据。实验表明即使无 R2R 数据,DescRL 仍能提升导航性能。

损失函数 / 训练策略

  • RL 算法:DD-PPO(ObjNav/SAVNav)、DAgger(VLN);
  • DescRL 损失系数 \(\lambda = 0.1\)
  • ADGenerator 输入历史长度 \(k+1 = 20\)
  • 共享解码器层数 2 层(ObjNav/SAVNav),非共享层各 1 层;
  • SAVNav 中以目标位置/类别预测作为 ADPredictor 的 BOS token,使描述与目标感知对齐。

实验关键数据

主实验

语义音频-视觉导航(SAVNav,Heard Setting)

方法 SR↑ SPL↑ SNA↑ DTG↓ SWS↑
AV-Nav 19.3 15.9 15.0 12.6 5.6
SAVi 31.6 28.5 24.6 11.8 12.5
KSAVEN 25.1 18.1 13.5 10.3 15.8
SAVi + P-DescRL 37.4 32.4 28.0 8.4 19.1

SAVNav Unheard Setting

方法 SR↑ SPL↑ SNA↑ DTG↓ SWS↑
SAVi 24.7 22.4 18.9 11.8 10.2
SAVi + P-DescRL 31.4 26.9 22.5 8.7 15.1

P-DescRL 在 SAVi 上全面超越 SOTA:SR +5.8, SPL +3.9, SWS +6.6(Heard)。

VLN(Val Unseen)

方法 NE↓ SR↑ SPL↑
DUET 3.21 71.65 60.44
DUET + P-DescRL 3.09 72.33 61.37
ScaleVLN 2.40 78.63 69.15
ScaleVLN + P-DescRL 2.37 78.84 68.96

消融实验

与其他辅助任务对比(SAVi 基线,Heard Setting)

辅助任务 SR↑ SPL↑ SNA↑ SWS↑
无辅助任务 31.6 28.5 24.6 12.5
预测下一步动作 33.2 30.6 27.3 12.7
预测进度 35.0 31.6 28.3 15.7
预测下一帧图像 35.4 31.6 27.0 15.8
预测目标类别 35.4 31.9 27.9 15.2
P-DescRL 37.4 32.4 28.0 19.1

P-DescRL 在所有指标上均优于传统辅助任务,尤其是 SWS(声音停止时的成功率)提升显著。

VLM 作为 ADGenerator(SAVNav Heard)

ADGenerator Fine-tuned SR↑ SPL↑ SWS↑
- 31.6 28.5 12.5
CNN+TF (R2R) 37.4 32.4 19.1
VideoLLaMA2 (零样本) × 33.7 29.8 16.0
VideoLLaMA2 (微调) 28.9 25.6 11.6
Qwen2.5-VL (零样本) × 33.4 28.6 15.2

关键发现

  • P-AD > F-AD:过去动作描述比未来动作描述更适合作为辅助任务。F-AD 本身太难,作为辅助任务反而有害(Unheard 设置下甚至降低基线性能);
  • VLM 微调反而有害:在 R2R 上微调 VideoLLaMA2 导致过拟合,性能低于零样本;
  • 更强 VLM 不一定更好:Qwen2.5-VL(更强模型)在此任务上并不优于 VideoLLaMA2;
  • SAVNav 受益最大:因为声音可能中途停止,导致后半段 RL 缺乏奖励线索,辅助任务提供了持续学习信号。

亮点与洞察

  1. 打破可解释性-性能权衡:传统观念认为可解释性会降低性能,但 DescRL 通过将描述生成作为辅助任务(而非独立目标),实现了两者同时提升;
  2. 知识蒸馏解决 RL 中无 ground-truth 难题:巧妙利用预训练模型作为伪标签生成器,绕过了 RL 中缺乏人工标注的核心困难;
  3. 共享编码器的双重价值:Transformer 编码器/解码器的共享不仅减少参数,还通过多任务学习使观测编码更具语义意义;
  4. 故障分析能力:描述生成使得可以分析导航失败原因(如"走近了但未在正确位置停下"),提供调试价值。

局限与展望

  • ADGenerator 的训练依赖 R2R 数据集(VLN 特定数据),存在域差异(VLN 成功距离 3m vs SAVNav 1m)导致"走近但不停"的失败模式;
  • VLM 零样本描述虽可行但效果明显不如 R2R 训练的 ADGenerator,说明通用 VLM 的导航描述能力仍有限;
  • 仅在 Habitat 模拟器中评估,未在真实机器人上验证;
  • 生成的描述质量评估主要是定性的,缺乏系统的语言质量量化指标。

相关工作与启发

  • 与 XRL(可解释 RL)不同:传统 XRL 关注事后解释,DescRL 将描述集成到策略学习中;
  • 与 VLN 中的指令预测(Zhu et al., Hejna et al.)不同:他们仅用 IL,RL 中无法获取 ground-truth 指令,DescRL 通过蒸馏解决此问题;
  • 与 LLM-based 导航(Yang et al.)不同:LLM 方法推理慢且 SPL 指标差,DescRL 轻量且实时。

评分

  • 新颖性: ⭐⭐⭐⭐ 将动作描述从"解释性输出"变为"辅助训练信号"的思路很新颖
  • 实验充分度: ⭐⭐⭐⭐ 三个导航任务(ObjNav/VLN/SAVNav)、多种基线、辅助任务对比、VLM消融
  • 写作质量: ⭐⭐⭐⭐ 方法动机清晰,实验设计周到
  • 价值: ⭐⭐⭐⭐ 提供了一种通用的 RL 辅助任务设计范式,不限于导航

相关论文