跳转至

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

日期: 2026-03-08
arXiv: 2603.07516
代码: 无
领域: 机器人/具身智能
关键词: humanoid robot, human-object interaction, imitation learning, automatic reward, physics-based

一句话总结

提出 InterReal,基于物理仿真的统一人-物交互(HOI)模仿学习框架——通过 HOI 运动增广(IK 保持手-物接触下偏移物体位置)和双循环自动奖励学习(外循环 SAC meta-policy 基于跟踪误差梯度动态调节内循环 PPO 的多维奖励权重),在 Unitree G1 上搬箱/推箱任务成功率达 96.41%/87.45%,大幅超越 InterMimic(84.72%/79.10%)。

研究背景与动机

  1. 领域现状: 类人机器人的 DRL + 运动模仿已在行走、跳跃、舞蹈等非交互全身控制上取得进展(ASAP、HOVER 等),但缺乏精确的人-物交互(HOI)能力,限制了工业场景的实用性。
  2. 现有痛点: (a) 动画领域的 HOI 方法(InterMimic、CooHOI)使用理想化物理设置(小质量、低摩擦),无法直接部署到真实机器人;(b) 遥操作方案(CLONE、TWIST)依赖人类操作员,限制了自主性;(c) 单条 mocap 轨迹对物体位置扰动泛化差——传感器噪声导致学到的策略轻易出分布甚至崩溃;(d) 多维奖励权重的手动调参是 DRL 的长期瓶颈,HOI 场景更复杂因为奖励异质性高且最优权重随任务阶段变化。
  3. 核心矛盾: 要做到"真实世界部署的精确 HOI 交互"需要同时解决两个问题:对物体位置扰动的泛化性(单条轨迹不够)和大规模异质奖励的自动平衡(手动调参不可行)。
  4. 切入角度: 两个关键观察——(1) HOI 轨迹可以通过物体位置偏移+IK 保持手-物接触来增广;(2) 运动模仿任务的最终目标都是最小化关键跟踪误差,这些误差变化可以作为 meta-policy 的奖励信号来自动学习奖励权重。

方法详解

整体框架

InterReal 分三阶段:(1) 运动预处理——SMPL mocap 重定向到 G1 机器人 → 物理验证 → 运动增广生成多轨迹;(2) 双循环训练——内循环 PPO 学习 HOI 策略 \(\pi^{hoi}\),外循环 SAC 学习 meta-policy \(\mu^{meta}\) 动态调节奖励权重;(3) 部署——先 MuJoCo sim-to-sim 验证,再 Unitree G1 sim-to-real 部署(用 FoundationPose 做物体位姿估计)。

关键设计

  1. HOI 运动增广(Motion Augmentation):

    • 做什么:从单条锚点 HOI 轨迹生成多种物体位置变体的训练轨迹
    • 核心思路:对锚点运动 \(\mathcal{M}\) 施加物体位置偏移 \(\Delta\mathbf{p}_{xy} = [\Delta x, \Delta y, 0]^\top\)(XY 平面),将末端执行器位置变换到骨盆坐标系后用 Ipopt 非线性优化器求解新的 7-DoF 手臂关节角,保持手-物接触细节不变。遍历 \(\Delta x, \Delta y \in \text{linspace}(-\epsilon, \epsilon, \sqrt{c_3})\) 生成 \(c_3\) 条增广轨迹
    • 设计动机:真实部署中物体位置的传感器扰动会导致策略出分布。通过保持接触不变量的增广,策略学会在不同物体位置下完成同一交互任务
  2. 双循环自动奖励学习(Automatic Reward Learning):

    • 做什么:外循环 meta-policy 自动学习内循环 PPO 的多维奖励权重 \(\Theta = \{\theta^k\}_{k=1}^K\)
    • 核心思路:每 \(N\) 个 PPO epoch 定义为一个潜在子任务 \(\mathcal{T}_i\)。外循环用 SAC 训练 meta-policy \(\mu^{meta}_\psi\),其状态 \(u_t\) 包含 HOI 任务特征和学习进度,动作是输出权重 \(\Theta_t\),奖励是关键跟踪误差(关节位置 \(e_{jp}\)、物体位置 \(e_{op}\)、link 位置 \(e_{lp}\))的时间梯度 \(G_t = \Delta(e_{jp} + e_{op} + e_{lp})/\Delta t\)。权重更新 \(\Theta' = \Theta^0 \cdot \sigma(t) \cdot \mu^{meta}(\Theta_t | u_t)\),其中 \(\sigma(t)\) 是递减缩放因子
    • 设计动机:HOI 任务的子奖励异质性高(位姿跟踪、物体位置、交互图、平衡惩罚等),且最优权重随任务阶段变化(如搬箱初期重平衡、中期重手臂跟踪、末期重物体位置)。手动固定权重无法捕捉这种动态,meta-policy 通过误差梯度信号自动适应
  3. 交互图奖励(Interaction-Aware Reward):

    • 做什么:监督机器人关键 link 与物体特征点之间的距离关系
    • 核心思路:交互图特征 \(s_t^{ig}\) 编码 \(c_2\) 个 link-物体特征点对的距离,奖励 \(r_t^{ig} = \exp(-\theta_t^{ig} \cdot \|s_t^{ig} - s_{ref,t}^{ig}\|^2)\)
    • 设计动机:纯粹跟踪关节角度不够,需要显式监督接触几何关系才能实现精确的手-物交互
  4. 非对称 Actor-Critic:

    • 做什么:Actor 只接收不完美状态(排除交互图、物体速度/旋转),Critic 获得完整状态
    • 设计动机:真实部署中物体速度和旋转的传感噪声大(FoundationPose 只提供位置),不稳定特征会放大 sim-to-real gap。训练时让 Actor 学会仅从有限观测中做决策

损失函数 / 训练策略

  • 内循环:PPO 优化,加权奖励 \(f_t(\Theta) = \sum_{k=1}^K \theta_t^k r^k(t)\),含关节位姿、link 位置、物体位姿、交互图、力矩惩罚等多维子奖励
  • 外循环:SAC 优化 meta-policy,温度参数 \(\alpha=0.1\),每 \(N\) 个 PPO epoch 更新一次,计算开销极小
  • 域随机化:质量、摩擦等物理属性的均匀随机化,支持 sim-to-real 迁移

实验关键数据

主实验

方法 搬箱成功率 推箱成功率 MPJPE (rad)↓ 物体位置误差↓ 交互图误差 (e-7)↓
ASAP* 77.38% 70.63% 0.1634 0.0087 19.09
InterMimic* 84.72% 79.10% 0.1984 0.0032 17.08
InterReal 96.41% 87.45% 0.1076 0.0021 15.70

搬箱任务 InterReal 在几乎所有 8 个跟踪指标上最优。

消融实验

配置 关键效果
InterReal(完整) 最低跟踪误差 + 最高成功率
w/o 自动奖励(= InterMimic*) 跟踪误差显著上升,固定权重无法适应阶段变化
w/o 自动奖励 & 交互图(= ASAP*) 物体位置误差最高,无法感知交互细节
\(\delta = 0.0\)(无 meta-policy 作用) 性能最差,确认自动奖励的有效性
\(\delta = 0.1\)(最优) 最佳跟踪表现
\(\delta = 0.25, 0.50\) 性能逐渐下降

关键发现

  • 自动奖励学习消除手动调参且性能更优:InterMimic* 用固定初始权重,跟踪误差显著更高,说明 HOI 场景下手动奖励调参确实不可行
  • 运动增广显著提升泛化性:策略在 ±ε 偏移范围内稳定完成任务,真实部署中能根据 FoundationPose 检测的不同物体位置动态调整手臂行为
  • 交互图奖励不可或缺:ASAP* 缺少交互图导致物体位置误差最大(0.0087 vs 0.0021),机器人无法直接感知手-物距离关系
  • meta-policy 自适应权重变化:可视化显示权重随任务阶段自动调整(搬箱初期加大平衡权重,中后期加大手臂和物体跟踪权重)
  • 推箱比搬箱更难:成功率更低(87.45% vs 96.41%),因为长程接触维持更困难

亮点与洞察

  • Meta-DRL 自动学习奖励权重的思路很优雅:把"如何设计奖励"这个 meta 问题也建模为 MDP,用跟踪误差的时间梯度作为 meta 奖励——这个信号既容易计算又物理直觉清晰。整个框架可以迁移到其他多维奖励的 RL 任务
  • 运动增广保持接触不变量的设计巧妙:不是简单的数据增强,而是利用 IK 约束确保增广轨迹物理可行,生成的轨迹都保持正确的手-物接触关系
  • 非对称 Actor-Critic 对 sim-to-real 的处理务实:直接在训练时限制 Actor 可用信息,比后处理式的域适应更简洁

局限性 / 可改进方向

  • 被动物体跟踪:策略被动跟踪参考轨迹中的物体运动,缺乏主动规划能力(如应对意外碰撞后的恢复)
  • 物体位姿检测的高方差和延迟:真实部署依赖 FoundationPose,其检测不稳定性仍是瓶颈
  • 任务范围有限:仅验证了搬箱和推箱两个任务,更复杂的灵巧操作(如工具使用、物体重新排列)有待验证
  • 依赖高质量 mocap 数据:需要 SMPL 格式的人-物交互 mocap 数据作为参考轨迹,数据获取成本高

相关工作与启发

  • vs InterMimic: InterMimic 是动画领域的 HOI 工作,使用理想化物理(小质量/低摩擦)+ 固定奖励权重。InterReal 引入真实物理约束 + 运动增广 + 自动奖励,专门面向真实机器人部署
  • vs ASAP: ASAP 是全身控制框架,不涉及 HOI 交互。InterReal 在其基础上添加物体跟踪、交互图特征和自动奖励机制
  • vs 遥操作方案(CLONE/TWIST): 遥操作保留人在环,InterReal 追求全自主的闭环交互,策略自己感知物体并做决策

评分

  • 新颖性: ⭐⭐⭐⭐ 双循环自动奖励学习 + 接触保持运动增广是有意义的创新,但各组件(PPO+SAC+IK)都是成熟技术的组合
  • 实验充分度: ⭐⭐⭐⭐ 两个任务 + 完整消融 + 真实机器人部署验证,但任务种类偏少
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,公式完整,附录详细
  • 价值: ⭐⭐⭐⭐ 为真实机器人的 HOI 模仿学习提供了实用框架,自动奖励机制有较好的泛化前景