GoalLadder: Incremental Goal Discovery with Vision-Language Models¶
会议: NeurIPS 2025
arXiv: 2506.16396
代码: 无
领域: 多模态VLM
关键词: 视觉语言模型, 强化学习, 目标发现, ELO评分, 奖励函数
一句话总结¶
提出 GoalLadder,利用 VLM 渐进式发现并排序候选目标状态,结合 ELO 评分系统抵抗噪声反馈,在学习的嵌入空间中定义距离奖励,仅凭单条语言指令就能训练 RL 智能体达到约 95% 的成功率。
研究背景与动机¶
自然语言指令(如"打开抽屉")为 RL 任务提供了简洁的规范方式,但从语言指令中提取有效奖励函数仍是核心挑战。现有方法存在两类问题:
- 嵌入方法(如 VLM-RM 使用 CLIP):将任务描述和观察嵌入同一空间,用余弦相似度作奖励。但 CLIP 训练数据与目标环境不匹配,导致奖励函数噪声大
- 偏好方法(如 RL-VLM-F):用 VLM 比较轨迹片段生成偏好标签,再训练奖励函数。虽比嵌入方法更准确,但 VLM 的错误判断会污染偏好数据集,且需大量 VLM 查询
作者指出,实用的 VLM 反馈方法必须同时解决两个关键问题:(a)对噪声反馈的鲁棒性和(b)VLM 查询效率。
方法详解¶
整体框架¶
GoalLadder 的核心思想是"渐进式目标发现":在 RL 训练过程中,利用 VLM 逐步发现更接近任务目标的环境状态。整个流程包含四个循环阶段:
- 收集(Collection):RL 智能体按当前 SAC 策略与环境交互,收集新 episode
- 发现(Discovery):查询 VLM 判断新观察是否比当前最佳候选目标更优
- 排序(Ranking):从缓冲区采样候选目标对,用 VLM 成对比较并更新 ELO 评分
- 训练(Training):智能体以最小化到 top 候选目标的嵌入空间距离为奖励进行训练
关键设计¶
1. 候选目标发现¶
维护候选目标缓冲区 \(\mathcal{B}_g\),每个候选目标 \(g_i = (o_i, e_i)\) 包含图像和 ELO 评分。从新收集的轨迹中随机采样观察 \(o_j\),与当前最高评分目标 \(g^*\) 比较:
- 查询 VLM:\(y = \text{VLM}(o^*, o_j, l)\),\(y \in \{-1, 0, 1\}\)
- 若 \(y=1\)(新观察更优),将 \(o_j\) 加入缓冲区
- 若 \(y=0\) 或 \(y=-1\),丢弃,保持缓冲区聚焦高质量候选
此过滤机制避免在无关状态上浪费 VLM 查询配额。
2. ELO 评分系统¶
借鉴国际象棋 ELO 评分机制处理 VLM 噪声反馈。对候选目标对 \((g_i, g_j)\):
- 期望得分:\(E_i = \frac{1}{1 + 10^{(e_j - e_i)/C}}\),\(C=400\)
- 评分更新:\(e_i \leftarrow e_i + T(S_i - E_i)\),\(T=32\)
ELO 系统的优势:增量式吸收噪声比较结果,自适应调整评分,不会因单次 VLM 错误判断而严重偏离。
3. 嵌入空间奖励定义¶
用 VAE 学习视觉特征提取器 \(\psi(\cdot)\),将观察映射到紧凑潜在表示:
奖励定义为到最佳候选目标的欧氏距离:\(R(s_{t-1}, a_{t-1}) = -d(z_t, z^*)\)
实际使用时进行 max-min 归一化到 \([0,1]\),并施加非线性变换 \(\hat{r} = r^{20}\),使智能体越接近目标获得越大比例的奖励。
损失函数 / 训练策略¶
- RL 骨干:Soft Actor-Critic(SAC),每个环境步后做一次梯度更新
- 奖励更新:每 \(L=5000\) 步更新目标状态和奖励函数,并重新标注所有存储的转移
- VLM 反馈:OpenAI Gym 环境每 \(K=2000\) 步查询 \(M=5\) 次,Metaworld 环境每 \(K=500\) 步查询 \(M=5\) 次
- 缓冲区管理:目标缓冲区上限 \(|\mathcal{B}_g|=10\),每 \(L\) 步移除最低评分候选
- VLM 骨干:Gemini 2.0 Flash
- VAE 架构:6 层卷积编码器 + 6 层反卷积解码器,潜在维度 \(|z|=16\)
实验关键数据¶
主实验¶
在 2 个经典控制任务 + 5 个 Metaworld 机器人操作任务上评估:
| 方法 | 平均最终成功率 | 特点 |
|---|---|---|
| Oracle (真实奖励) | ~97% | 上界 |
| GoalLadder | ~95% | 仅需语言指令 |
| RL-VLM-F | ~45% | 最好的竞争对手 |
| VLM-RM | ~15% | CLIP 嵌入奖励 |
| RoboCLIP | ~10% | 视频-语言相似度 |
GoalLadder 在所有 7 个任务上接近 Oracle 性能,在 Drawer Open 任务上甚至超越 Oracle。
消融实验¶
- VLM 查询效率:GoalLadder 平均仅需约 4500 次 VLM 查询即可解决 Metaworld 任务,而 PEBBLE(使用真实奖励偏好)需约 15000 次
- 目标发现过程:训练过程中 top 候选目标稳步改进,缓冲区自然按任务进度排序
- ELO 收敛:一旦发现明显最优目标(约 50K 步),ELO 系统迅速将其推至首位
关键发现¶
- GoalLadder 比最好的竞争对手(RL-VLM-F)高出约 50 个百分点
- 在 Drawer Open 上超越 Oracle 说明手工设计奖励函数本身可能是次优的
- RL-VLM-F 在简单任务上还行,但在复杂 Metaworld 任务上崩溃——说明从噪声偏好学奖励函数的困难
- 不需要对环境做任何修改(如移除机器人),而 RL-VLM-F 需要移除以帮助 VLM 判断
亮点与洞察¶
- ELO + VLM 的结合非常巧妙:用成熟的评分系统处理 VLM 固有的噪声问题,无需假设反馈准确
- 范式创新:从"学习奖励函数"转变为"发现目标状态+距离奖励",绕开了从噪声标签训练奖励模型的困难
- 极高的查询效率:利用无标签数据训练嵌入空间,仅用少量 VLM 查询识别目标,奖励自动泛化到未见状态
- 实验结果令人惊喜:接近 Oracle 性能,在一个任务上甚至超越,充分验证了方法的有效性
局限性 / 可改进方向¶
- 假设任务目标可由单张图像表示(静态目标),无法处理需要序列判断的动态任务
- 依赖视觉特征相似度作为状态距离的代理,在某些环境中可能不够准确
- 仅在模拟环境中验证,未涉及真实机器人场景
- VLM 调用成本仍然不低(单个智能体训练约 45 小时,V100 GPU)
- 可扩展到视频理解 VLM 以处理动态目标
相关工作与启发¶
- 与 RL-VLM-F 的本质区别:RL-VLM-F 训练参数化奖励函数,GoalLadder 直接维护目标状态排名
- 与 PEBBLE 的对比:PEBBLE 需要 3 倍的查询量(且用真实奖励偏好),GoalLadder 用噪声 VLM 反馈就能达到相同效果
- 启发:ELO 评分的思路可推广到其他需要从噪声反馈中提取信号的场景,如 RLHF 中的奖励模型训练
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (ELO+VLM目标发现+嵌入空间距离奖励的组合非常新颖)
- 实验充分度: ⭐⭐⭐⭐ (7个任务全面验证,但缺少真实机器人实验)
- 写作质量: ⭐⭐⭐⭐⭐ (动机清晰,方法自然流畅,图示直观)
- 价值: ⭐⭐⭐⭐⭐ (显著优于竞争方法,实用价值高)