ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics¶
会议: ICML 2025
arXiv: 2411.18825
代码: 无
领域: Multimodal / VLM
关键词: 奖励设计, VLM, 逆强化学习, 从演示学习, 机器人
一句话总结¶
ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。
研究背景与动机¶
领域现状: RL 在机器人任务中表现出色,但核心瓶颈是奖励函数设计——需要大量领域知识和手工调参。
现有痛点: (a) EUREKA 等 LLM 方法仅用文本描述生成奖励函数,无法精确表达复杂空间任务;(b) LLM 不擅长平衡不同特征的权重;(c) 纯文本任务规范无法捕捉用户的隐含偏好。
核心矛盾: LLM 擅长语义理解和特征识别,但不擅长数学优化和权重分配;IRL 擅长从演示中匹配行为但需要预定义特征——两者互补。
本文切入: 让 VLM 负责特征提取,让 IRL 负责权重优化,并引入视觉演示作为补充信息。
核心 idea: 三阶段循环——VLM 初始提示生成特征函数 → Approximate MaxEnt-IRL 学习奖励权重和策略 → 自我反思比较特征计数差异并迭代改进。
方法详解¶
整体框架¶
输入:环境代码 + 任务文本描述 + 视觉演示 → Phase 1: VLM 生成特征函数 \(\phi(s)\) → Phase 2: IRL 学习 \(R_\theta(s) = \theta^T \phi(s)\) → Phase 3: 比较策略与演示的特征计数差异 → 反馈给 VLM 修正特征 → 迭代。
关键设计¶
-
Phase 1 - 初始提示 (VLM 特征提取):
- 输入包括:环境 MDP 代码、任务文本描述、视觉演示 (叠加图 / 关键帧)
- VLM (GPT-4o) 输出 Python 代码形式的特征函数 \(\phi: \mathcal{S} \to \mathbb{R}^n\)
- 设计动机:视觉演示弥补纯文本描述的不充分性,VLM 的代码能力被限制在"特征提取"而非"完整奖励设计"
-
Phase 2 - 学习 (Approximate MaxEnt-IRL):
- 奖励模型:\(R_\theta(s) = \theta^T \phi(s)\),初始 \(\theta = \{1/n\}^n\)
- 梯度:\(\nabla_\theta \approx \mathbb{E}_{\tau \sim \mathcal{D}}[\sum_s \phi(s)] - \mathbb{E}_{\tau \sim \pi_\psi}[\sum_s \phi(s)]\)
- 交替优化 \(\theta\) (奖励权重) 和 \(\psi\) (PPO 策略)
- 关键技巧:梯度 L1 归一化 + \(\theta\) L1 归一化,保证训练稳定
- 设计动机:直接计算配分函数不可行,用策略近似代替
-
Phase 3 - 反思 (Self-Reflection):
- 计算策略轨迹和演示轨迹的特征计数向量:\(\vec{\Phi}_{\pi_\psi}\) vs \(\vec{\Phi}_\mathcal{D}\)
- 将差异反馈给 VLM,让其修正特征函数
- 自动完成,无需额外人工输入
- 设计动机:模拟人类学习中的"观察→执行→反思→改进"循环
损失函数 / 训练策略¶
- 奖励权重:梯度上升 \(\theta \leftarrow \theta + \alpha \nabla_\theta'\),归一化 \(\theta\)
- 策略:PPO 优化 \(\pi_\psi\) 以最大化 \(J(\pi_\psi)\)
- 交替进行 \(m\) 轮 IRL 迭代
实验关键数据¶
主实验¶
| 任务 | ELEMENTAL | EUREKA | BC | IRL | GT Reward |
|---|---|---|---|---|---|
| Cartpole | 233.92 | 215.91 | 149.85 | 28.15 | 260.14 |
| Ant | 8.49 | 6.88 | -0.05 | 0.88 | 7.00 |
| Humanoid | 4.70 | 3.78 | -0.43 | 2.13 | 5.07 |
| FrankaCabinet | 0.36 | 0.21 | 0.01 | 0.00 | 0.40 |
| AllegroHand | 22.97 | 11.12 | 0.04 | 0.01 | 23.70 |
| ShadowHand | 2.71 | 0.001 | 0.03 | 0.01 | 0.15 |
| 整体提升 | +42.3% | baseline | — | — | upper bound |
消融实验¶
| 配置 | 平均表现 | 说明 |
|---|---|---|
| 完整 ELEMENTAL | 最优 | 三阶段完整流程 |
| w/o Self-Reflection | 下降 | 缺少迭代改进 |
| w/o Visual Input | 下降 | 纯文本不足以描述复杂任务 |
| w/o Norm 1 (梯度归一化) | 下降 | 训练不稳定 |
| w/o Norm 2 (权重归一化) | 下降 | 奖励尺度不一致 |
关键发现¶
- GPT-4o 的特征代码执行率 (~80%) 远高于 EUREKA 的奖励代码执行率 (<50%)
- 泛化实验:ELEMENTAL 在 4 个 Ant 变体上比 EUREKA 提升 41.3%——EUREKA 可能记忆了标准 IsaacGym 奖励
- 这是首次成功将 IRL 应用于 IsaacGym 的高维任务
亮点与洞察¶
- 互补架构:VLM 做特征识别 + IRL 做权重优化,各取所长
- 首次在 IsaacGym 上成功使用 IRL:得益于 VLM 提供的结构化特征空间
- 自我反思机制:特征计数差异提供了比文本反馈更精确的改进信号
局限与展望¶
- 运行时间较 EUREKA 多约 2.5 倍 (168 vs 68 分钟)
- 尚未在真实机器人上验证
- 视觉演示的形式 (叠加图/关键帧) 需要针对任务类型手动选择
相关工作与启发¶
- EUREKA (Ma et al. 2023) 是直接竞争对手
- RL-VLM-F 用 VLM 作为代理奖励,但不交互
- AIRL (Fu et al. 2018) 提供了 IRL 的训练范式
- 启发:LLM/VLM 不应被要求做它不擅长的事 (数学优化),而应专注于语义理解
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ VLM+IRL 的结合方式和自我反思机制非常巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 9 个 IsaacGym 任务 + 4 个泛化变体 + 完整消融
- 写作质量: ⭐⭐⭐⭐ 方法阐述清晰,实验设计合理
- 价值: ⭐⭐⭐⭐⭐ 为机器人奖励设计提供了实用且强大的方案
相关论文¶
- [NeurIPS 2025] RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
- [CVPR 2025] RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
- [ICML 2025] The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models
- [ICML 2025] Learning Invariant Causal Mechanism from Vision-Language Models
- [NeurIPS 2025] Scene-Aware Urban Design: A Human-AI Recommendation Framework Using Co-Occurrence Embeddings and Vision-Language Models