跳转至

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

会议: ICML 2025
arXiv: 2411.18825
代码: 无
领域: Multimodal / VLM
关键词: 奖励设计, VLM, 逆强化学习, 从演示学习, 机器人

一句话总结

ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。

研究背景与动机

领域现状: RL 在机器人任务中表现出色,但核心瓶颈是奖励函数设计——需要大量领域知识和手工调参。

现有痛点: (a) EUREKA 等 LLM 方法仅用文本描述生成奖励函数,无法精确表达复杂空间任务;(b) LLM 不擅长平衡不同特征的权重;(c) 纯文本任务规范无法捕捉用户的隐含偏好。

核心矛盾: LLM 擅长语义理解和特征识别,但不擅长数学优化和权重分配;IRL 擅长从演示中匹配行为但需要预定义特征——两者互补。

本文切入: 让 VLM 负责特征提取,让 IRL 负责权重优化,并引入视觉演示作为补充信息。

核心 idea: 三阶段循环——VLM 初始提示生成特征函数 → Approximate MaxEnt-IRL 学习奖励权重和策略 → 自我反思比较特征计数差异并迭代改进。

方法详解

整体框架

输入:环境代码 + 任务文本描述 + 视觉演示 → Phase 1: VLM 生成特征函数 \(\phi(s)\) → Phase 2: IRL 学习 \(R_\theta(s) = \theta^T \phi(s)\) → Phase 3: 比较策略与演示的特征计数差异 → 反馈给 VLM 修正特征 → 迭代。

关键设计

  1. Phase 1 - 初始提示 (VLM 特征提取):

    • 输入包括:环境 MDP 代码、任务文本描述、视觉演示 (叠加图 / 关键帧)
    • VLM (GPT-4o) 输出 Python 代码形式的特征函数 \(\phi: \mathcal{S} \to \mathbb{R}^n\)
    • 设计动机:视觉演示弥补纯文本描述的不充分性,VLM 的代码能力被限制在"特征提取"而非"完整奖励设计"
  2. Phase 2 - 学习 (Approximate MaxEnt-IRL):

    • 奖励模型:\(R_\theta(s) = \theta^T \phi(s)\),初始 \(\theta = \{1/n\}^n\)
    • 梯度:\(\nabla_\theta \approx \mathbb{E}_{\tau \sim \mathcal{D}}[\sum_s \phi(s)] - \mathbb{E}_{\tau \sim \pi_\psi}[\sum_s \phi(s)]\)
    • 交替优化 \(\theta\) (奖励权重) 和 \(\psi\) (PPO 策略)
    • 关键技巧:梯度 L1 归一化 + \(\theta\) L1 归一化,保证训练稳定
    • 设计动机:直接计算配分函数不可行,用策略近似代替
  3. Phase 3 - 反思 (Self-Reflection):

    • 计算策略轨迹和演示轨迹的特征计数向量:\(\vec{\Phi}_{\pi_\psi}\) vs \(\vec{\Phi}_\mathcal{D}\)
    • 将差异反馈给 VLM,让其修正特征函数
    • 自动完成,无需额外人工输入
    • 设计动机:模拟人类学习中的"观察→执行→反思→改进"循环

损失函数 / 训练策略

  • 奖励权重:梯度上升 \(\theta \leftarrow \theta + \alpha \nabla_\theta'\),归一化 \(\theta\)
  • 策略:PPO 优化 \(\pi_\psi\) 以最大化 \(J(\pi_\psi)\)
  • 交替进行 \(m\) 轮 IRL 迭代

实验关键数据

主实验

任务 ELEMENTAL EUREKA BC IRL GT Reward
Cartpole 233.92 215.91 149.85 28.15 260.14
Ant 8.49 6.88 -0.05 0.88 7.00
Humanoid 4.70 3.78 -0.43 2.13 5.07
FrankaCabinet 0.36 0.21 0.01 0.00 0.40
AllegroHand 22.97 11.12 0.04 0.01 23.70
ShadowHand 2.71 0.001 0.03 0.01 0.15
整体提升 +42.3% baseline upper bound

消融实验

配置 平均表现 说明
完整 ELEMENTAL 最优 三阶段完整流程
w/o Self-Reflection 下降 缺少迭代改进
w/o Visual Input 下降 纯文本不足以描述复杂任务
w/o Norm 1 (梯度归一化) 下降 训练不稳定
w/o Norm 2 (权重归一化) 下降 奖励尺度不一致

关键发现

  • GPT-4o 的特征代码执行率 (~80%) 远高于 EUREKA 的奖励代码执行率 (<50%)
  • 泛化实验:ELEMENTAL 在 4 个 Ant 变体上比 EUREKA 提升 41.3%——EUREKA 可能记忆了标准 IsaacGym 奖励
  • 这是首次成功将 IRL 应用于 IsaacGym 的高维任务

亮点与洞察

  • 互补架构:VLM 做特征识别 + IRL 做权重优化,各取所长
  • 首次在 IsaacGym 上成功使用 IRL:得益于 VLM 提供的结构化特征空间
  • 自我反思机制:特征计数差异提供了比文本反馈更精确的改进信号

局限与展望

  • 运行时间较 EUREKA 多约 2.5 倍 (168 vs 68 分钟)
  • 尚未在真实机器人上验证
  • 视觉演示的形式 (叠加图/关键帧) 需要针对任务类型手动选择

相关工作与启发

  • EUREKA (Ma et al. 2023) 是直接竞争对手
  • RL-VLM-F 用 VLM 作为代理奖励,但不交互
  • AIRL (Fu et al. 2018) 提供了 IRL 的训练范式
  • 启发:LLM/VLM 不应被要求做它不擅长的事 (数学优化),而应专注于语义理解

评分

  • 新颖性: ⭐⭐⭐⭐⭐ VLM+IRL 的结合方式和自我反思机制非常巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 9 个 IsaacGym 任务 + 4 个泛化变体 + 完整消融
  • 写作质量: ⭐⭐⭐⭐ 方法阐述清晰,实验设计合理
  • 价值: ⭐⭐⭐⭐⭐ 为机器人奖励设计提供了实用且强大的方案

相关论文