Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data¶

会议: NeurIPS 2025
arXiv: 2507.10741
代码: github
领域: LLM Agent / 强化学习
关键词: 语言接地, Reward Machine, 组合泛化, 神经符号, 奖励塑形

一句话总结¶

提出 Ground-Compose-Reinforce (GCR)，一个端到端的神经符号框架，通过少量标注轨迹（仅350条）学习原子命题的接地语义（Ground），将其通过 Reward Machine 组合成复杂任务规范（Compose），然后用自生成的稠密奖励训练 RL 智能体（Reinforce），无需手工奖励函数即可引出分布外的复杂行为。

研究背景与动机¶

领域现状：让智能体通过语言指令执行任务需要解决"语言接地"问题——将语言与感知和动作关联。目前主要有两条路线：(a) 手工设计特定领域的奖励函数/成功检测器；(b) 在海量语言-轨迹配对数据上训练（如 π0、RT-2）。
现有痛点：
手工设计路线在复杂/非仿真场景中难以工程化，难以泛化
数据驱动路线需要海量标注轨迹数据（如数十万条），在数据受限场景（如机器人操作）容易在复杂/OOD 任务上失败
非组合式方法无法利用语言的组合性——学了"拿红色方块"和"打开抽屉"不能自动组合出"把红色方块放进抽屉"
核心矛盾：如何在极少标注数据下实现从高级任务规范到可执行行为的端到端映射，且能泛化到训练数据中从未见过的组合任务？
本文要解决什么？ 不依赖手工奖励函数、不依赖海量数据，仅从少量标注轨迹学习语言接地，并通过组合实现 OOD 泛化。
切入角度：利用 Reward Machine（基于自动机的任务规范语言）的天然组合结构——先学原子命题的含义，再通过逻辑组合表达任意复杂任务，最后用自生成奖励做 RL。
核心idea一句话：把语言接地分解为"学原子概念 + 逻辑组合 + RL 微调"三步，用组合性而非海量数据来实现泛化。

方法详解¶

整体框架¶

GCR 分为预训练和行为引出两个阶段： - 预训练 (Ground)：在少量标注轨迹 \(\mathcal{D}\) 上学习标注函数 \(\hat{\mathcal{L}}(s)\)（将环境状态映射为命题真值）和原始值函数 PVFs（每个原子命题的进度信号） - 行为引出 (Compose + Reinforce)：给定 Reward Machine 任务规范 \(\mathcal{R}\)，利用学到的 \(\hat{\mathcal{L}}\) 自动生成奖励信号和 RM 状态跟踪，通过组合 PVFs 进行 reward shaping，用 PPO 训练策略

关键设计¶

原子命题接地 (Ground)：
做什么：将抽象命题符号（如"机器人正在持红色方块"）接地到环境状态
核心思路：在标注轨迹 \(\mathcal{D}\) 上训练一个二分类器 \(\hat{\mathcal{L}}: \mathcal{S} \to 2^{\mathcal{AP}}\)，对每个状态预测各命题的真值。训练完成后，智能体可以自由查询此函数来自评任务进度
设计动机：将接地问题化为标准分类问题，使得所需数据量大幅减少（350条轨迹即可）
组合奖励塑形 (Compose)：
做什么：解决命题稀疏性（propositional sparsity）问题——当目标命题难以在随机探索中被满足时（如"拿起方块"），智能体无法获得奖励信号
核心思路：
- 预训练阶段学习 \(2|\mathcal{AP}|\) 个原始值函数 (PVFs)，每个估计满足单个命题（或其否定）的最优值函数 \(V^*_{\Diamond x}(s)\)
- 对任意 Reward Machine 任务，将其分解为 RM 转移→逻辑子任务→DNF→原子命题链
- 用模糊逻辑语义组合 PVFs：\(\max\) 对应析取，\(\min\) 对应合取
- 最终得到任意 RM 任务的 OVF 近似 \(V^*_{\mathcal{R}}(s,u) \approx \max_{\langle u,u',\varphi,r\rangle} [V^*_{\Diamond\varphi}(s) \cdot (r + \gamma v^*_{\mathcal{R}}(u'))]\)
- 用该 OVF 做 potential-based reward shaping
设计动机：从 \(2|\mathcal{AP}|\) 个 PVFs 出发，可以组合出指数级（\(2^{2^n}\)）个逻辑任务和无穷多 RM 任务的值函数估计，实现了效率和泛化的双赢
RL 微调 (Reinforce)：
做什么：给定 RM 任务，用自生成的奖励信号 + reward shaping 训练策略
核心思路：将学到的 \(\hat{\mathcal{L}}\) 嵌入 RL 循环——每个时间步预测命题真值，驱动 RM 状态转移，生成奖励。策略以 \((s, u)\) 为输入（\(u\) 是 RM 状态），用 PPO 优化
设计动机：自监督 RL 无需外部 oracle，RM 状态紧凑编码了历史，避免了基于历史的策略的复杂性

损失函数 / 训练策略¶

标注函数 \(\hat{\mathcal{L}}\)：标准二元交叉熵分类损失
PVFs：离线 RL 训练，优化目标为到达命题满足状态的折扣回报
策略：PPO + potential-based reward shaping（保证最优策略不变性）

实验关键数据¶

主实验¶

任务	GCR (本文)	LTL-BC	Bespoke RM	Bespoke BC	Max 可达
GeoGrid-Sequence	1.00±0.00	0.04	0	0.05	1
GeoGrid-Loop	5.36±0.08	0.03	0	0.04	5.36
GeoGrid-Logic	0.94±0.01	0	0	0	1
GeoGrid-Safety	1.00±0.00	-0.84	-0.14	-0.85	1
DrawerWorld-Hold-Red-Box	1538±130	0	0	0	1538
DrawerWorld-Pickup-Each-Box	1.00±0.00	0	0	0	1
DrawerWorld-Show-Green-Box	0.61±0.06	0	0	0	—

消融实验（Reward Shaping）¶

配置	Hold-Red-Box	Pickup-Each-Box	Show-Green-Box
GCR (full, 本文)	1538	1.00	0.61
GCR No RS	0	0	0
GCR High-Level RS	0	0	0

关键发现¶

组合性是关键：GCR 在所有任务上大幅超越所有非组合式 baseline，包括有特权信息的 Bespoke 方法。非组合式方法在有限数据下完全失败（所有 DrawerWorld 任务返回 0）
350条轨迹足矣：DrawerWorld 仅用 350 条手工收集的轨迹，且预训练数据只涉及单个物体操作，就能泛化到多物体组合任务
reward shaping 决定成败：在 DrawerWorld 中，没有组合式 reward shaping 的 GCR 完全无法学习（回报为 0），因为命题稀疏性导致 RL 几乎无法获得任何信号
Bespoke Reward Model 出现严重的 reward hacking——学到的奖励模型与真实奖励不一致

亮点与洞察¶

"自下而上"的组合接地策略极其高效：先学原子概念的语义，再用逻辑组合表达复杂任务——这比端到端学"语言→行为"的映射数据效率高出几个数量级。350条轨迹 vs VLA 模型需要的百万级数据，差距巨大。
用 fuzzy logic 组合值函数的技巧非常巧妙：\(\max\) = 析取、\(\min\) = 合取，从 \(2|\mathcal{AP}|\) 个 PVFs 组合出 \(2^{2^n}\) 个逻辑任务的值函数。这个思路可以迁移到任何需要从原子技能估计组合任务价值的场景。
Reward Machine 作为 LLM 与 RL 的桥梁：自然语言 → (LLM 自动形式化) → Reward Machine → RL，这条路线可以结合 LLM 的语言理解与 RL 的环境交互能力。
命题稀疏性是一个被低估的问题：当"拿起物体"等命题在随机探索中几乎不可能被满足时，传统 RM-based RL 方法全部失效，本文的组合 reward shaping 是目前唯一有效的解法。

局限性 / 可改进方向¶

命题集需预定义：当前框架要求 \(\mathcal{AP}\) 预先固定并有标注数据，无法动态扩展命题集。未来可探索用自然语言描述命题，通过 VLM 自动判断真值。
DrawerWorld 规模有限：实验环境只有 2 个抽屉 + 3 个方块，命题空间为 11 个。对于更复杂的真实场景（命题空间可能上百），组合近似的误差累积需要验证。
PVF 近似误差：fuzzy logic 组合只是近似，\(\min\) 和 \(\max\) 操作可能导致非凸值景观的严重低估/高估。论文未量化这一误差的影响。
自动形式化仅验证了 GeoGrid：用 LLM 将自然语言转为 RM 的管线仅在简单 gridworld 上验证，更复杂场景下 LLM 的形式化准确性有待考察。
改进方向：可以用 VLM 替代标注函数 \(\hat{\mathcal{L}}\) 来实现零标注的端到端管线；可以探索分层 RM 结构处理更长 horizon 的任务。

评分¶

新颖性: ⭐⭐⭐⭐ "Ground-Compose-Reinforce"三步管线简洁优雅，组合reward shaping技术有实际价值
实验充分度: ⭐⭐⭐⭐ 两个域多个任务，消融充分，但环境规模偏小
写作质量: ⭐⭐⭐⭐⭐ 写作清晰流畅，形式化严谨，running example贯穿全文
价值: ⭐⭐⭐⭐ 在数据受限场景下的组合泛化思路有很强的实用启发