Controllable Navigation Instruction Generation with Chain of Thought Prompting¶
会议: ECCV 2024
arXiv: 2407.07433
代码: GitHub
领域: LLM推理
关键词: 导航指令生成, 思维链提示, 视觉语言导航, 大语言模型, 风格可控生成
一句话总结¶
提出 C-Instructor,利用 LLM 的思维链提示实现风格和内容可控的导航指令生成,通过 CoTL(带地标的思维链)、STMT(空间拓扑建模)和 SMT(混合风格训练)三大机制,在四个室内外导航数据集上全面超越已有方法。
研究背景与动机¶
-
领域现状:视觉语言导航(VLN)中,导航指令生成是具身 AI 的核心任务之一,要求机器人根据路径信息向人类生成自然语言指导。该任务对人机协作至关重要,可应用于视障导航、危险场景引导等。
-
现有痛点:已有指令生成模型(如 BT-Speaker、Lana 等)只能从特定数据集生成单一风格的指令,语言质量有限且缺乏可控性。同时,大多方法忽略了导航环境的空间结构建模,导致生成的指令在转弯处缺少关键地标引导。
-
核心矛盾:实际应用中需要根据接收者的熟悉程度调整指令风格(如抽象 vs 详细),还需根据关注的地标调整内容,但现有方法无法做到单模型多风格生成。
-
本文要解决什么:如何让一个模型同时具备高语言质量、风格可控性和内容可控性。
-
切入角度:借助 LLM 的语言能力和思维链推理范式,设计 adapter 结构将路径信息注入 LLM,并通过 CoTL 引导模型先识别地标再生成指令。
-
核心 idea:将 CoT 范式引入导航指令生成,让模型"先想后说"——先识别关键地标,再据此生成高质量指令,同时通过混合风格训练实现单模型多风格切换。
方法详解¶
整体框架¶
输入路径 \(R=\{r_1, r_2, ..., r_T\}\)(每步包含全景观测和动作)→ Trajectory Encoder 编码视觉特征 → LLM Adapter 将路径特征注入 GPT-based LLM 各层 → 根据不同 prompt 生成不同风格的指令。训练阶段结合 STMT 辅助任务和 CoTL 地标监督。
关键设计¶
- Trajectory Encoder + LLM Adapter:
- 做什么:将路径上每步的全景视觉信息编码为轨迹特征,并注入 LLM
- 核心思路:使用 CLIP 视觉编码器提取每个子视图的特征 \(\boldsymbol{I}_{t,k} = \text{layer\_norm}(\text{linear}(f_{CLIP}(v_{t,k})))\),加入空间位置编码 \(pos_k^v\)、历史编码 \(pos_t^h\) 和动作/非动作标识 \(pos^a / pos^o\),再通过 ViT 块和聚合 token 压缩为轨迹表示。LLM Adapter 在每层通过零初始化注意力将轨迹特征融入 LLM 的文本表示
-
设计动机:直接用 Caption 作为中间表示会丢失大量空间和视觉信息(消融实验证实 Vanilla LLM 性能很差),adapter 方式可保留 LLM 语言能力的同时注入空间信息
-
STMT(Spatial Topology Modeling Task):
- 做什么:作为辅助训练任务,让模型预测如何从当前节点回到前一个节点(回溯动作预测)
- 核心思路:给定轨迹 \(\{r_1, ..., r_t\}\),模型通过交叉注意力聚合视觉特征后预测 \(a_t^p\),使得 \(\boldsymbol{A}_t = \text{softmax}(\boldsymbol{x}_L^a \boldsymbol{W} \boldsymbol{I}_{t,1:36}^\top)\),用交叉熵损失 \(\mathcal{L}_a\) 监督
-
设计动机:LLM 和视觉编码器主要在互联网数据上训练,空间认知能力弱。前向动作已用位置编码表示,因此让模型预测回溯动作来学习空间拓扑
-
CoTL(Chain of Thought with Landmarks):
- 做什么:引导模型先识别路径中的关键地标,再生成指令
- 核心思路:地标选择分两个维度——时间维度计算相邻视点特征的余弦距离 \(\delta_t^\tau = 1 - \frac{\boldsymbol{I}_t^* \cdot \boldsymbol{I}_{t+1}^*}{||\boldsymbol{I}_t^*|| \cdot ||\boldsymbol{I}_{t+1}^*||}\) 定位场景转换点(如从走廊到房间),空间维度选择动作视角中独有的物体作为地标(物体在其他候选视角也出现则扣分 \(\delta_{t,n}^a = 1 - d_{t,c_1}^a - d_{t,c_2}^a - d_{t,c_3}^a\)),最终地标分数 \(\delta_{t,n} = \delta_{t,n}^a \cdot \delta_t^\tau\),超过阈值 \(\beta\) 则选为视觉地标。推理时分两阶段:先预测地标,再据地标生成指令
-
设计动机:认知心理学研究表明人类在给路径指引时也是先在认知地图中定位关键导航点再组织语言。修改预测出的地标还可实现内容可控
-
SMT(Style-Mixed Training):
- 做什么:混合不同语言风格的数据集训练,通过不同 prompt 切换生成风格
- 核心思路:为每种风格设计描述性 prompt,训练时混合 R2R(详细逐步)、REVERIE(高层抽象描述)、RxR(细粒度对齐)等不同风格数据
- 设计动机:单一风格训练数据有限易过拟合,混合训练增加语言多样性,同时实现单模型多风格切换
损失函数 / 训练策略¶
- 自回归指令生成损失与 STMT 的交叉熵损失 \(\mathcal{L}_a\) 联合优化
- LLM 使用 LLaMA-Adapter(7B 参数,32层),仅微调最后 2 层
- 先在 PREVALENT 数据上预训练 240K iterations,再在多个数据集上微调 120K iterations
- AdamW 优化器,学习率 \(1.0 \times 10^{-4}\),使用 4 张 A100 80GB GPU
实验关键数据¶
主实验¶
| 数据集 | 指标 | C-Instructor | 之前SOTA (Lana) | 提升 |
|---|---|---|---|---|
| R2R val unseen | SPICE | 0.212 | 0.174 | +21.8% (相对) |
| R2R val unseen | CIDEr | 0.447 | 0.295 | +51.5% |
| REVERIE val unseen | SPICE | 0.141 | 0.107 | +31.8% |
| REVERIE val unseen | CIDEr | 0.545 | 0.327 | +66.7% |
| RxR val unseen | BLEU-4 | 0.233 | 0.115 | +102.6% |
| UrbanWalk | SPICE | 0.645 | 0.566 (Kefa) | +14.0% |
消融实验¶
| 配置 | REVERIE CIDEr | R2R CIDEr | 说明 |
|---|---|---|---|
| Vanilla LLM | 0.432 | 0.292 | 纯 Caption+LLM,信息丢失严重 |
| Baseline (Adapter) | 0.347 | 0.356 | 仅视觉 adapter |
| + SMT | 0.397 | 0.407 | 混合风格训练提升语言多样性 |
| + SMT + STMT | 0.490 | 0.445 | 空间建模对高层抽象指令帮助大 |
| + SMT + STMT + CoTL | 0.545 | 0.447 | 地标引导进一步提升语义一致性 |
关键发现¶
- C-Instructor 生成的指令用于导航数据增强时,是唯一能提升导航器(HAMT)性能的方法(SR: 32.95→34.25),其他方法反而降低性能
- 导航引导实验:C-Instructor 指令引导 DUET 导航器的 SR 达 43.34%,接近人类标注的 46.98%
- 用户研究中 C-Instructor 平均得分 3.50,远超 Lana(2.26)和其他方法(~2.10)
- STMT 对 REVERIE(高层抽象指令)的提升尤为显著(CIDEr +0.093),说明空间理解对生成抽象指令至关重要
亮点与洞察¶
- CoT 范式迁移到指令生成:将 LLM 推理中的"先思考再回答"迁移到视觉导航指令生成的"先找地标再说话",巧妙且有效
- Vanilla LLM 基准的对比非常有说服力,证明了直接 captioning→LLM 管线的局限性
- SMT 策略值得借鉴:不同数据集的语言风格当作不同 prompt,单模型多任务,既解决数据不足又实现可控性
- 地标选择算法综合时间和空间两个维度,物理意义清晰,可迁移到其他需要自动选择视觉重点的任务
- 回溯动作预测作为辅助任务非常巧妙,因为前向动作已经编码在输入中,预测回溯动作才是真正学习空间关系
局限性 / 可改进方向¶
- 依赖 Matterport3D Simulator 的离散导航图,难以直接应用于连续空间导航
- 地标选择阈值 \(\beta=0.25\) 是手动设定的,可以考虑自适应学习
- 仅用 CLIP 提取视觉特征,未利用更强的视觉编码器或多模态 LLM
- 推理需要两阶段(先预测地标再生成指令),效率低于端到端方法
- 未探索对话式交互场景,如根据用户反馈迭代修改指令
相关工作与启发¶
- vs Lana (CVPR2023): Lana 使用 cycle-consistent learning 联合优化指令生成和跟随,但只能单风格且无地标可控性。C-Instructor 通过 SMT 和 CoTL 大幅超越
- vs BT-Speaker: 经典 LSTM 基线,语言质量远低于 LLM-based 方法
- vs LLaMA-Adapter: C-Instructor 在其基础上增加了 Trajectory Encoder 和三大训练策略,证明 adapter 结构配合领域特定训练策略效果显著
评分¶
- 新颖性: ⭐⭐⭐⭐ CoTL 机制将 CoT 与视觉地标识别结合有新意,但整体框架(adapter + LLM)较为常规
- 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、详细消融、导航器评估、用户研究,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细,但公式符号略显繁杂
- 价值: ⭐⭐⭐⭐ 风格可控和内容可控在实际人机交互中价值大,数据增强效果显著