Embodied Navigation with Auxiliary Task of Action Description Prediction¶

会议: ICCV 2025
arXiv: 2510.21809
代码: 无
领域: 强化学习 / 具身导航
关键词: 具身导航, 动作描述, 辅助任务, 知识蒸馏, 语义音频-视觉导航

一句话总结¶

DescRL 将动作描述生成作为强化学习导航的辅助任务，通过从预训练的视觉-语言模型蒸馏知识来训练 ADPredictor，使导航智能体在生成可解释动作描述的同时提升导航性能，在语义音频-视觉导航（SAVNav）等多个任务上实现 SOTA。

研究背景与动机¶

多模态机器人导航领域面临两个关键挑战：

可解释性 vs. 性能权衡：随着导航模型越来越复杂，系统变成黑盒。可解释系统通常无法在性能上超越不可解释系统；

RL 中缺乏动作描述的 ground-truth：在模仿学习（IL）中可以将指令文本作为预测目标，但 RL 中没有人类提供的轨迹-指令配对数据，无法直接扩展已有方法。

核心洞察：通过知识蒸馏从预训练的描述生成模型（VLM）获取伪标签，可以在 RL 中引入动作描述预测作为辅助任务。令人惊讶的是，这一辅助任务不仅不损害导航性能，反而能显著提升导航能力。

方法详解¶

整体框架¶

DescRL 分为两个阶段： - Phase 1：预训练 ADGenerator（动作描述生成器），将导航观测序列翻译为自然语言描述； - Phase 2：在 RL 训练中，ADPredictor（动作描述预测器）作为辅助任务，学习预测 ADGenerator 的输出。

定义三种动作描述类型： - P-AD（过去动作描述）：描述智能体过去做了什么——有助于识别物体/空间的识别错误； - F-AD（未来动作描述）：描述智能体接下来应该做什么——有助于提升规划能力； - PF-AD：P-AD + F-AD 的组合。

关键设计¶

ADGenerator 预训练：使用 R2R（Vision-and-Language Navigation）数据集训练，输入为视觉观测序列 \(V_0, \dots, V_T\) 和动作序列 \(\mathbb{a}_1, \dots, \mathbb{a}_T\)，通过 CNN 编码视觉特征后与动作拼接，送入 Transformer encoder-decoder 输出描述语句 \(w_1, \dots, w_l\)。使用 teacher-forcing 和交叉熵损失训练。
ADPredictor 辅助任务：ADPredictor 与 RL 策略网络共享 Transformer encoder 和 decoder。通过任务嵌入 \(E_{\text{RL}}^T, E_{\text{AD}}^T\) 区分两个任务的输入。训练分两步：
- Step 1 预训练：仅训练动作描述预测（使用预构建的轨迹-描述数据集，ObjNav ~100k 数据，SAVNav ~500k 数据）；
- Step 2 联合训练：同时学习导航和动作描述预测，总损失为 \(\mathcal{L}_{\text{RL}} + \lambda \mathcal{L}_{\text{CE}}\)。

关键技巧： - ADPredictor 与策略共享编码器/解码器权重，使观测编码更高效； - ADGenerator 仅在训练时使用；测试时仅需 ADPredictor，无额外推理开销； - F-DescRL 中，训练时 ADGenerator 可输入未来观测（沿最短路径），ADPredictor 仅基于过去观测预测未来动作描述。

VLM 作为 ADGenerator（去人工数据依赖）：使用 VideoLLaMA2 或 Qwen2.5-VL 作为 ADGenerator，以零样本方式从 VLM 的输出进行知识蒸馏（soft targets），完全不依赖人工标注数据。实验表明即使无 R2R 数据，DescRL 仍能提升导航性能。

损失函数 / 训练策略¶

RL 算法：DD-PPO（ObjNav/SAVNav）、DAgger（VLN）；
DescRL 损失系数 \(\lambda = 0.1\)；
ADGenerator 输入历史长度 \(k+1 = 20\)；
共享解码器层数 2 层（ObjNav/SAVNav），非共享层各 1 层；
SAVNav 中以目标位置/类别预测作为 ADPredictor 的 BOS token，使描述与目标感知对齐。

实验关键数据¶

主实验¶

语义音频-视觉导航（SAVNav，Heard Setting）：

方法	SR↑	SPL↑	SNA↑	DTG↓	SWS↑
AV-Nav	19.3	15.9	15.0	12.6	5.6
SAVi	31.6	28.5	24.6	11.8	12.5
KSAVEN	25.1	18.1	13.5	10.3	15.8
SAVi + P-DescRL	37.4	32.4	28.0	8.4	19.1

SAVNav Unheard Setting：

方法	SR↑	SPL↑	SNA↑	DTG↓	SWS↑
SAVi	24.7	22.4	18.9	11.8	10.2
SAVi + P-DescRL	31.4	26.9	22.5	8.7	15.1

P-DescRL 在 SAVi 上全面超越 SOTA：SR +5.8, SPL +3.9, SWS +6.6（Heard）。

VLN（Val Unseen）：

方法	NE↓	SR↑	SPL↑
DUET	3.21	71.65	60.44
DUET + P-DescRL	3.09	72.33	61.37
ScaleVLN	2.40	78.63	69.15
ScaleVLN + P-DescRL	2.37	78.84	68.96

消融实验¶

与其他辅助任务对比（SAVi 基线，Heard Setting）：

辅助任务	SR↑	SPL↑	SNA↑	SWS↑
无辅助任务	31.6	28.5	24.6	12.5
预测下一步动作	33.2	30.6	27.3	12.7
预测进度	35.0	31.6	28.3	15.7
预测下一帧图像	35.4	31.6	27.0	15.8
预测目标类别	35.4	31.9	27.9	15.2
P-DescRL	37.4	32.4	28.0	19.1

P-DescRL 在所有指标上均优于传统辅助任务，尤其是 SWS（声音停止时的成功率）提升显著。

VLM 作为 ADGenerator（SAVNav Heard）：

ADGenerator	Fine-tuned	SR↑	SPL↑	SWS↑
无	-	31.6	28.5	12.5
CNN+TF (R2R)	✓	37.4	32.4	19.1
VideoLLaMA2 (零样本)	×	33.7	29.8	16.0
VideoLLaMA2 (微调)	✓	28.9	25.6	11.6
Qwen2.5-VL (零样本)	×	33.4	28.6	15.2

关键发现¶

P-AD > F-AD：过去动作描述比未来动作描述更适合作为辅助任务。F-AD 本身太难，作为辅助任务反而有害（Unheard 设置下甚至降低基线性能）；
VLM 微调反而有害：在 R2R 上微调 VideoLLaMA2 导致过拟合，性能低于零样本；
更强 VLM 不一定更好：Qwen2.5-VL（更强模型）在此任务上并不优于 VideoLLaMA2；
SAVNav 受益最大：因为声音可能中途停止，导致后半段 RL 缺乏奖励线索，辅助任务提供了持续学习信号。

亮点与洞察¶

打破可解释性-性能权衡：传统观念认为可解释性会降低性能，但 DescRL 通过将描述生成作为辅助任务（而非独立目标），实现了两者同时提升；
知识蒸馏解决 RL 中无 ground-truth 难题：巧妙利用预训练模型作为伪标签生成器，绕过了 RL 中缺乏人工标注的核心困难；
共享编码器的双重价值：Transformer 编码器/解码器的共享不仅减少参数，还通过多任务学习使观测编码更具语义意义；
故障分析能力：描述生成使得可以分析导航失败原因（如"走近了但未在正确位置停下"），提供调试价值。

局限与展望¶

ADGenerator 的训练依赖 R2R 数据集（VLN 特定数据），存在域差异（VLN 成功距离 3m vs SAVNav 1m）导致"走近但不停"的失败模式；
VLM 零样本描述虽可行但效果明显不如 R2R 训练的 ADGenerator，说明通用 VLM 的导航描述能力仍有限；
仅在 Habitat 模拟器中评估，未在真实机器人上验证；
生成的描述质量评估主要是定性的，缺乏系统的语言质量量化指标。

评分¶

新颖性: ⭐⭐⭐⭐ 将动作描述从"解释性输出"变为"辅助训练信号"的思路很新颖
实验充分度: ⭐⭐⭐⭐ 三个导航任务（ObjNav/VLN/SAVNav）、多种基线、辅助任务对比、VLM消融
写作质量: ⭐⭐⭐⭐ 方法动机清晰，实验设计周到
价值: ⭐⭐⭐⭐ 提供了一种通用的 RL 辅助任务设计范式，不限于导航