LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward¶

会议: AAAI 2026
arXiv: 2506.04070
代码: https://github.com/YiyiyiZhao/NIG4VI
领域: 机器人
关键词: 视障导航, GRPO, VLM后训练, LLM-as-Follower, 导航指令生成

一句话总结¶

提出 LaF-GRPO 框架，利用 LLM 模拟视障用户对导航指令的响应作为奖励信号，通过 GRPO 后训练 VLM 来生成更精确、更安全的视障导航指令，并构建了 27k 样本的 NIG4VI 基准数据集。

研究背景与动机¶

全球约有 22 亿视障人群，导航指令生成（NIG-VI）是一个关键但研究不足的领域。与面向通用具身智能体的导航指令生成不同，NIG-VI 以人为中心，要求生成：(1) 包含非视觉线索（如声音、触觉），(2) 精确的方向和距离指引（如时钟方向 + 步数），(3) 适应障碍物的安全警告。

现有方法的局限性：

早期方法（如 ASSISTER）受限于 BERT 架构，生成能力有限
VLM + GRPO 范式虽有前景，但需要大量人类反馈数据，收集成本高
现有数据集多数不开源、缺少精确空间坐标、或规模太小

核心动机：能否让 LLM 代替真实视障用户，模拟他们对导航指令的理解和执行，从而提供低成本的反馈奖励？这就是论文的核心创新——LLM-as-Follower（LaF）思想。

方法详解¶

整体框架¶

LaF-GRPO 基于 Speaker-Follower 范式和心智理论（Theory of Mind），包含两个核心组件：

Action Interpreter（动作解释器）：一个经过 SFT 训练的 LLM（LLaMA-3-8B-Instruct），模拟视障用户对导航指令的响应
Navigation Instruction Generator（导航指令生成器）：一个 VLM（Qwen2.5-VL-3B/7B），通过 SFT + LaF-GRPO 后训练生成导航指令

关键设计¶

1. NIG-VI 任务形式化¶

在每一步 \(i\)，VLM 接收前视图像 \(x_{\text{image}}^{(i)}\) 和当前位姿 \(x_{\text{pose}}^{(i)} = (x_{\text{loc}}^{(i)}, x_{\text{rot}}^{(i)})\)，以及下一个目标路点 \(p_{i+1}\)，生成逐步导航指令：

\[y_j \sim \pi_\theta(y_j^{(i)} | x_{\text{image}}^{(i)}, x_{\text{loc}}^{(i)}, x_{\text{rot}}^{(i)}, p_{i+1}, y_{<j}^{(i)})\]

路径 \(P = [p_1, \ldots, p_K]\) 由 A* 算法生成。

2. Action Interpreter（动作解释器）¶

核心思想是让 LLM 扮演视障用户——它没有视觉编码器，只能"听"指令，然后预测用户可能的行动。输出一个结构化字典 \(\mathcal{A}\)，包含：

move：移动动作，包含 direction（时钟方向）和 distance 参数
detailed_hazard_alert：布尔标志，表示用户是否感知到障碍警告

训练数据来自 NIG4VI 的 ground truth 指令-动作对，验证集上解析精度 > 98%。

3. LaF-GRPO 奖励函数¶

三个奖励函数协同工作：

格式奖励（\(r_{\text{format}} \in \{0, 1\}\)）：检查输出是否符合 <think>...</think><answer>...</answer> 格式。

文本生成奖励（\(r_{\text{meteor}}\)）：计算输出与 ground truth 的 METEOR 分数，评估语义重叠。

LLM-as-Follower 奖励（\(r_{\text{LaF}}\)）：将 VLM 生成的指令送入 Action Interpreter，比较解释出的动作与 ground truth 动作的匹配度：

\[r_{\text{LaF}} = w_{\text{dir}} \delta(a_{\text{dir}}, a_{\text{dir}}^{\text{ref}}) + w_{\text{dist}} \delta(a_{\text{dist}}, a_{\text{dist}}^{\text{ref}}) + w_{\text{alert}} \delta(a_{\text{alert}}, a_{\text{alert}}^{\text{ref}})\]

其中 \(\delta(\cdot)\) 为精确匹配，权重设为 \((w_{\text{dir}}, w_{\text{dist}}, w_{\text{alert}}) = (0.4, 0.4, 0.2)\)。空间参数（方向和距离）的权重高于安全警报，因为前者是导航成功的直接决定因素。

损失函数 / 训练策略¶

采用标准 GRPO 目标函数，对每个查询采样 \(G=8\) 个输出，计算组内相对优势：

\[\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{q, \{o_i\} \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i=1}^{G} \mathcal{L}_i - \beta \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \right]\]

训练在单块 NVIDIA H20 GPU（96GB）上完成，3k 样本训练约 15 小时。支持两种训练模式： - Zero-(LaF-GRPO)：直接对基础模型应用 LaF-GRPO - SFT+(LaF-GRPO)：先 SFT，再 LaF-GRPO

实验关键数据¶

NIG4VI 基准数据集¶

数据集在 CARLA 模拟器中收集，包含多种环境和天气条件，27k 样本来自 6 个城镇。训练集 1,500 样本（Town01），测试集分 Intra-town（613）和 Inter-town（11,223）。提供"有预计算"和"无预计算"两个版本。

主实验¶

模型 / 方法	BLEU↑	ROUGE↑	METEOR↑	SPICE↑	设置
GPT-4o (Zero-Shot)	1.748	0.169	0.249	0.149	Intra, w/o pre-cal
Claude-3.5 (Zero-Shot)	2.803	0.216	0.304	0.211	Intra, w/o pre-cal
Gemini-2 (Zero-Shot)	4.105	0.236	0.232	0.232	Intra, w/o pre-cal
Qwen-VL-7B (Zero-Shot)	3.204	0.202	0.211	0.166	Intra, w/o pre-cal
Qwen-VL-7B Zero-(LaF-GRPO)	3.272	0.234	0.256	0.222	Intra, w/o pre-cal
Qwen-VL-7B SFT	9.937	0.291	0.518	0.275	Intra, w/o pre-cal
Qwen-VL-7B SFT+(LaF-GRPO)	10.037	0.284	0.545	0.283	Intra, w/o pre-cal
Qwen-VL-3B SFT+(LaF-GRPO)	10.921	0.323	0.528	0.274	Intra, w/o pre-cal

关键发现：SFT+(LaF-GRPO) 的 METEOR 达到 0.542（Inter-town），远超 GPT-4o 的 0.323。且 LaF-GRPO 生成的指令更简洁（34.1 tokens vs GPT-4o 117.9 tokens）。

消融实验¶

奖励配置	BLEU↑	ROUGE↑	METEOR↑	SPICE↑	说明
Format only	10.251	0.318	0.524	0.278	仅格式奖励
Format + Meteor	10.912	0.317	0.525	0.279	加文本生成奖励
Format + Meteor + LaF	10.921	0.323	0.528	0.274	完整 LaF-GRPO

训练数据量消融（7B 模型）：1k→2k→3k 样本时，METEOR 从 0.529 提升至 0.545，说明数据效率较高。

关键发现¶

Zero-(LaF-GRPO) 显著优于 Zero-Shot：BLEU 提升约 14%，验证了 LaF-GRPO 的即时效果
SFT+(LaF-GRPO) 达到 SOTA：超越 GPT-4o、Claude-3.5 等强大商用模型
LaF 奖励 vs 标准 GRPO：人类偏好研究中 76% 偏好 LaF-GRPO 指令（Cohen's κ = 0.83）
更安全的指令：LaF-GRPO 会生成"用手杖探测左侧""倾听交通声"等安全提示

亮点与洞察¶

LLM-as-Follower 思想极具创新性——用 LLM 模拟特定用户群体的认知和行为，为 RLHF 提供了低成本替代方案
心智理论（ToM）在 NLP 中的实践：让 LLM 建模视障用户的认知地图，是 ToM 在辅助技术中的绝佳应用
奖励设计的人体工学考量：方向和距离权重 0.4 > 安全警报 0.2，反映了导航任务的实际优先级
时钟方向系统（如"1点钟方向"）比角度更直观，是面向视障用户的人性化设计

局限与展望¶

仅在模拟环境（CARLA）中验证，未进行真实世界测试
代理用户而非真实视障用户参与评估，可能存在认知偏差
Action Interpreter 的泛化性：在更复杂的实际场景中，98% 的解析精度是否能保持存疑
语言多样性：目前仅支持英语，多语言扩展是重要方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ — LLM-as-Follower 思想新颖，GRPO 在视障辅助中首次应用
实验充分度: ⭐⭐⭐⭐ — 多模型、多范式对比充分，但缺乏真实世界和真实用户实验
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式表述规范
价值: ⭐⭐⭐⭐⭐ — 对视障辅助技术有重要实际意义