跳转至

LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward

会议: AAAI 2026
arXiv: 2506.04070
代码: https://github.com/YiyiyiZhao/NIG4VI
领域: 机器人
关键词: 视障导航, GRPO, VLM后训练, LLM-as-Follower, 导航指令生成

一句话总结

提出 LaF-GRPO 框架,利用 LLM 模拟视障用户对导航指令的响应作为奖励信号,通过 GRPO 后训练 VLM 来生成更精确、更安全的视障导航指令,并构建了 27k 样本的 NIG4VI 基准数据集。

研究背景与动机

全球约有 22 亿视障人群,导航指令生成(NIG-VI)是一个关键但研究不足的领域。与面向通用具身智能体的导航指令生成不同,NIG-VI 以人为中心,要求生成:(1) 包含非视觉线索(如声音、触觉),(2) 精确的方向和距离指引(如时钟方向 + 步数),(3) 适应障碍物的安全警告。

现有方法的局限性

  • 早期方法(如 ASSISTER)受限于 BERT 架构,生成能力有限
  • VLM + GRPO 范式虽有前景,但需要大量人类反馈数据,收集成本高
  • 现有数据集多数不开源、缺少精确空间坐标、或规模太小

核心动机:能否让 LLM 代替真实视障用户,模拟他们对导航指令的理解和执行,从而提供低成本的反馈奖励?这就是论文的核心创新——LLM-as-Follower(LaF)思想。

方法详解

整体框架

LaF-GRPO 基于 Speaker-Follower 范式和心智理论(Theory of Mind),包含两个核心组件:

  1. Action Interpreter(动作解释器):一个经过 SFT 训练的 LLM(LLaMA-3-8B-Instruct),模拟视障用户对导航指令的响应
  2. Navigation Instruction Generator(导航指令生成器):一个 VLM(Qwen2.5-VL-3B/7B),通过 SFT + LaF-GRPO 后训练生成导航指令

关键设计

1. NIG-VI 任务形式化

在每一步 \(i\),VLM 接收前视图像 \(x_{\text{image}}^{(i)}\) 和当前位姿 \(x_{\text{pose}}^{(i)} = (x_{\text{loc}}^{(i)}, x_{\text{rot}}^{(i)})\),以及下一个目标路点 \(p_{i+1}\),生成逐步导航指令:

\[y_j \sim \pi_\theta(y_j^{(i)} | x_{\text{image}}^{(i)}, x_{\text{loc}}^{(i)}, x_{\text{rot}}^{(i)}, p_{i+1}, y_{<j}^{(i)})\]

路径 \(P = [p_1, \ldots, p_K]\) 由 A* 算法生成。

2. Action Interpreter(动作解释器)

核心思想是让 LLM 扮演视障用户——它没有视觉编码器,只能"听"指令,然后预测用户可能的行动。输出一个结构化字典 \(\mathcal{A}\),包含:

  • move:移动动作,包含 direction(时钟方向)和 distance 参数
  • detailed_hazard_alert:布尔标志,表示用户是否感知到障碍警告

训练数据来自 NIG4VI 的 ground truth 指令-动作对,验证集上解析精度 > 98%。

3. LaF-GRPO 奖励函数

三个奖励函数协同工作:

格式奖励\(r_{\text{format}} \in \{0, 1\}\)):检查输出是否符合 <think>...</think><answer>...</answer> 格式。

文本生成奖励\(r_{\text{meteor}}\)):计算输出与 ground truth 的 METEOR 分数,评估语义重叠。

LLM-as-Follower 奖励\(r_{\text{LaF}}\)):将 VLM 生成的指令送入 Action Interpreter,比较解释出的动作与 ground truth 动作的匹配度:

\[r_{\text{LaF}} = w_{\text{dir}} \delta(a_{\text{dir}}, a_{\text{dir}}^{\text{ref}}) + w_{\text{dist}} \delta(a_{\text{dist}}, a_{\text{dist}}^{\text{ref}}) + w_{\text{alert}} \delta(a_{\text{alert}}, a_{\text{alert}}^{\text{ref}})\]

其中 \(\delta(\cdot)\) 为精确匹配,权重设为 \((w_{\text{dir}}, w_{\text{dist}}, w_{\text{alert}}) = (0.4, 0.4, 0.2)\)。空间参数(方向和距离)的权重高于安全警报,因为前者是导航成功的直接决定因素。

损失函数 / 训练策略

采用标准 GRPO 目标函数,对每个查询采样 \(G=8\) 个输出,计算组内相对优势:

\[\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{q, \{o_i\} \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i=1}^{G} \mathcal{L}_i - \beta \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \right]\]

训练在单块 NVIDIA H20 GPU(96GB)上完成,3k 样本训练约 15 小时。支持两种训练模式: - Zero-(LaF-GRPO):直接对基础模型应用 LaF-GRPO - SFT+(LaF-GRPO):先 SFT,再 LaF-GRPO

实验关键数据

NIG4VI 基准数据集

数据集在 CARLA 模拟器中收集,包含多种环境和天气条件,27k 样本来自 6 个城镇。训练集 1,500 样本(Town01),测试集分 Intra-town(613)和 Inter-town(11,223)。提供"有预计算"和"无预计算"两个版本。

主实验

模型 / 方法 BLEU↑ ROUGE↑ METEOR↑ SPICE↑ 设置
GPT-4o (Zero-Shot) 1.748 0.169 0.249 0.149 Intra, w/o pre-cal
Claude-3.5 (Zero-Shot) 2.803 0.216 0.304 0.211 Intra, w/o pre-cal
Gemini-2 (Zero-Shot) 4.105 0.236 0.232 0.232 Intra, w/o pre-cal
Qwen-VL-7B (Zero-Shot) 3.204 0.202 0.211 0.166 Intra, w/o pre-cal
Qwen-VL-7B Zero-(LaF-GRPO) 3.272 0.234 0.256 0.222 Intra, w/o pre-cal
Qwen-VL-7B SFT 9.937 0.291 0.518 0.275 Intra, w/o pre-cal
Qwen-VL-7B SFT+(LaF-GRPO) 10.037 0.284 0.545 0.283 Intra, w/o pre-cal
Qwen-VL-3B SFT+(LaF-GRPO) 10.921 0.323 0.528 0.274 Intra, w/o pre-cal

关键发现:SFT+(LaF-GRPO) 的 METEOR 达到 0.542(Inter-town),远超 GPT-4o 的 0.323。且 LaF-GRPO 生成的指令更简洁(34.1 tokens vs GPT-4o 117.9 tokens)。

消融实验

奖励配置 BLEU↑ ROUGE↑ METEOR↑ SPICE↑ 说明
Format only 10.251 0.318 0.524 0.278 仅格式奖励
Format + Meteor 10.912 0.317 0.525 0.279 加文本生成奖励
Format + Meteor + LaF 10.921 0.323 0.528 0.274 完整 LaF-GRPO

训练数据量消融(7B 模型):1k→2k→3k 样本时,METEOR 从 0.529 提升至 0.545,说明数据效率较高。

关键发现

  1. Zero-(LaF-GRPO) 显著优于 Zero-Shot:BLEU 提升约 14%,验证了 LaF-GRPO 的即时效果
  2. SFT+(LaF-GRPO) 达到 SOTA:超越 GPT-4o、Claude-3.5 等强大商用模型
  3. LaF 奖励 vs 标准 GRPO:人类偏好研究中 76% 偏好 LaF-GRPO 指令(Cohen's κ = 0.83)
  4. 更安全的指令:LaF-GRPO 会生成"用手杖探测左侧""倾听交通声"等安全提示

亮点与洞察

  1. LLM-as-Follower 思想极具创新性——用 LLM 模拟特定用户群体的认知和行为,为 RLHF 提供了低成本替代方案
  2. 心智理论(ToM)在 NLP 中的实践:让 LLM 建模视障用户的认知地图,是 ToM 在辅助技术中的绝佳应用
  3. 奖励设计的人体工学考量:方向和距离权重 0.4 > 安全警报 0.2,反映了导航任务的实际优先级
  4. 时钟方向系统(如"1点钟方向")比角度更直观,是面向视障用户的人性化设计

局限与展望

  1. 仅在模拟环境(CARLA)中验证,未进行真实世界测试
  2. 代理用户而非真实视障用户参与评估,可能存在认知偏差
  3. Action Interpreter 的泛化性:在更复杂的实际场景中,98% 的解析精度是否能保持存疑
  4. 语言多样性:目前仅支持英语,多语言扩展是重要方向

相关工作与启发

  • GRPO 在特定领域的应用:AlphaDrive(自动驾驶)、MedVLM-R1(医学)、本文(视障辅助),展示了 GRPO 的广泛适用性
  • 数据集设计:NIG4VI 的"有/无预计算"双版本设计值得借鉴,能评估模型不同层次的推理能力
  • 可启发研究方向:将 LaF 思想扩展到其他辅助技术(如听障辅助、老年人导航)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — LLM-as-Follower 思想新颖,GRPO 在视障辅助中首次应用
  • 实验充分度: ⭐⭐⭐⭐ — 多模型、多范式对比充分,但缺乏真实世界和真实用户实验
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式表述规范
  • 价值: ⭐⭐⭐⭐⭐ — 对视障辅助技术有重要实际意义

相关论文