InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills¶

日期: 2026-03-08
arXiv: 2603.07516
代码: 无
领域: 机器人/具身智能
关键词: humanoid robot, human-object interaction, imitation learning, automatic reward, physics-based

一句话总结¶

提出 InterReal，基于物理仿真的统一人-物交互（HOI）模仿学习框架——通过 HOI 运动增广（IK 保持手-物接触下偏移物体位置）和双循环自动奖励学习（外循环 SAC meta-policy 基于跟踪误差梯度动态调节内循环 PPO 的多维奖励权重），在 Unitree G1 上搬箱/推箱任务成功率达 96.41%/87.45%，大幅超越 InterMimic（84.72%/79.10%）。

研究背景与动机¶

领域现状: 类人机器人的 DRL + 运动模仿已在行走、跳跃、舞蹈等非交互全身控制上取得进展（ASAP、HOVER 等），但缺乏精确的人-物交互（HOI）能力，限制了工业场景的实用性。
现有痛点: (a) 动画领域的 HOI 方法（InterMimic、CooHOI）使用理想化物理设置（小质量、低摩擦），无法直接部署到真实机器人；(b) 遥操作方案（CLONE、TWIST）依赖人类操作员，限制了自主性；(c) 单条 mocap 轨迹对物体位置扰动泛化差——传感器噪声导致学到的策略轻易出分布甚至崩溃；(d) 多维奖励权重的手动调参是 DRL 的长期瓶颈，HOI 场景更复杂因为奖励异质性高且最优权重随任务阶段变化。
核心矛盾: 要做到"真实世界部署的精确 HOI 交互"需要同时解决两个问题：对物体位置扰动的泛化性（单条轨迹不够）和大规模异质奖励的自动平衡（手动调参不可行）。
切入角度: 两个关键观察——(1) HOI 轨迹可以通过物体位置偏移+IK 保持手-物接触来增广；(2) 运动模仿任务的最终目标都是最小化关键跟踪误差，这些误差变化可以作为 meta-policy 的奖励信号来自动学习奖励权重。

方法详解¶

整体框架¶

InterReal 分三阶段：(1) 运动预处理——SMPL mocap 重定向到 G1 机器人 → 物理验证 → 运动增广生成多轨迹；(2) 双循环训练——内循环 PPO 学习 HOI 策略 \(\pi^{hoi}\)，外循环 SAC 学习 meta-policy \(\mu^{meta}\) 动态调节奖励权重；(3) 部署——先 MuJoCo sim-to-sim 验证，再 Unitree G1 sim-to-real 部署（用 FoundationPose 做物体位姿估计）。

关键设计¶

HOI 运动增广（Motion Augmentation）:
- 做什么：从单条锚点 HOI 轨迹生成多种物体位置变体的训练轨迹
- 核心思路：对锚点运动 \(\mathcal{M}\) 施加物体位置偏移 \(\Delta\mathbf{p}_{xy} = [\Delta x, \Delta y, 0]^\top\)（XY 平面），将末端执行器位置变换到骨盆坐标系后用 Ipopt 非线性优化器求解新的 7-DoF 手臂关节角，保持手-物接触细节不变。遍历 \(\Delta x, \Delta y \in \text{linspace}(-\epsilon, \epsilon, \sqrt{c_3})\) 生成 \(c_3\) 条增广轨迹
- 设计动机：真实部署中物体位置的传感器扰动会导致策略出分布。通过保持接触不变量的增广，策略学会在不同物体位置下完成同一交互任务
双循环自动奖励学习（Automatic Reward Learning）:
- 做什么：外循环 meta-policy 自动学习内循环 PPO 的多维奖励权重 \(\Theta = \{\theta^k\}_{k=1}^K\)
- 核心思路：每 \(N\) 个 PPO epoch 定义为一个潜在子任务 \(\mathcal{T}_i\)。外循环用 SAC 训练 meta-policy \(\mu^{meta}_\psi\)，其状态 \(u_t\) 包含 HOI 任务特征和学习进度，动作是输出权重 \(\Theta_t\)，奖励是关键跟踪误差（关节位置 \(e_{jp}\)、物体位置 \(e_{op}\)、link 位置 \(e_{lp}\)）的时间梯度 \(G_t = \Delta(e_{jp} + e_{op} + e_{lp})/\Delta t\)。权重更新 \(\Theta' = \Theta^0 \cdot \sigma(t) \cdot \mu^{meta}(\Theta_t | u_t)\)，其中 \(\sigma(t)\) 是递减缩放因子
- 设计动机：HOI 任务的子奖励异质性高（位姿跟踪、物体位置、交互图、平衡惩罚等），且最优权重随任务阶段变化（如搬箱初期重平衡、中期重手臂跟踪、末期重物体位置）。手动固定权重无法捕捉这种动态，meta-policy 通过误差梯度信号自动适应
交互图奖励（Interaction-Aware Reward）:
- 做什么：监督机器人关键 link 与物体特征点之间的距离关系
- 核心思路：交互图特征 \(s_t^{ig}\) 编码 \(c_2\) 个 link-物体特征点对的距离，奖励 \(r_t^{ig} = \exp(-\theta_t^{ig} \cdot \|s_t^{ig} - s_{ref,t}^{ig}\|^2)\)
- 设计动机：纯粹跟踪关节角度不够，需要显式监督接触几何关系才能实现精确的手-物交互
非对称 Actor-Critic:
- 做什么：Actor 只接收不完美状态（排除交互图、物体速度/旋转），Critic 获得完整状态
- 设计动机：真实部署中物体速度和旋转的传感噪声大（FoundationPose 只提供位置），不稳定特征会放大 sim-to-real gap。训练时让 Actor 学会仅从有限观测中做决策

损失函数 / 训练策略¶

内循环：PPO 优化，加权奖励 \(f_t(\Theta) = \sum_{k=1}^K \theta_t^k r^k(t)\)，含关节位姿、link 位置、物体位姿、交互图、力矩惩罚等多维子奖励
外循环：SAC 优化 meta-policy，温度参数 \(\alpha=0.1\)，每 \(N\) 个 PPO epoch 更新一次，计算开销极小
域随机化：质量、摩擦等物理属性的均匀随机化，支持 sim-to-real 迁移

实验关键数据¶

主实验¶

方法	搬箱成功率	推箱成功率	MPJPE (rad)↓	物体位置误差↓	交互图误差 (e-7)↓
ASAP*	77.38%	70.63%	0.1634	0.0087	19.09
InterMimic*	84.72%	79.10%	0.1984	0.0032	17.08
InterReal	96.41%	87.45%	0.1076	0.0021	15.70

搬箱任务 InterReal 在几乎所有 8 个跟踪指标上最优。

消融实验¶

配置	关键效果
InterReal（完整）	最低跟踪误差 + 最高成功率
w/o 自动奖励（= InterMimic*）	跟踪误差显著上升，固定权重无法适应阶段变化
w/o 自动奖励 & 交互图（= ASAP*）	物体位置误差最高，无法感知交互细节
\(\delta = 0.0\)（无 meta-policy 作用）	性能最差，确认自动奖励的有效性
\(\delta = 0.1\)（最优）	最佳跟踪表现
\(\delta = 0.25, 0.50\)	性能逐渐下降

关键发现¶

自动奖励学习消除手动调参且性能更优：InterMimic* 用固定初始权重，跟踪误差显著更高，说明 HOI 场景下手动奖励调参确实不可行
运动增广显著提升泛化性：策略在 ±ε 偏移范围内稳定完成任务，真实部署中能根据 FoundationPose 检测的不同物体位置动态调整手臂行为
交互图奖励不可或缺：ASAP* 缺少交互图导致物体位置误差最大（0.0087 vs 0.0021），机器人无法直接感知手-物距离关系
meta-policy 自适应权重变化：可视化显示权重随任务阶段自动调整（搬箱初期加大平衡权重，中后期加大手臂和物体跟踪权重）
推箱比搬箱更难：成功率更低（87.45% vs 96.41%），因为长程接触维持更困难

亮点与洞察¶

Meta-DRL 自动学习奖励权重的思路很优雅：把"如何设计奖励"这个 meta 问题也建模为 MDP，用跟踪误差的时间梯度作为 meta 奖励——这个信号既容易计算又物理直觉清晰。整个框架可以迁移到其他多维奖励的 RL 任务
运动增广保持接触不变量的设计巧妙：不是简单的数据增强，而是利用 IK 约束确保增广轨迹物理可行，生成的轨迹都保持正确的手-物接触关系
非对称 Actor-Critic 对 sim-to-real 的处理务实：直接在训练时限制 Actor 可用信息，比后处理式的域适应更简洁

局限性 / 可改进方向¶

被动物体跟踪：策略被动跟踪参考轨迹中的物体运动，缺乏主动规划能力（如应对意外碰撞后的恢复）
物体位姿检测的高方差和延迟：真实部署依赖 FoundationPose，其检测不稳定性仍是瓶颈
任务范围有限：仅验证了搬箱和推箱两个任务，更复杂的灵巧操作（如工具使用、物体重新排列）有待验证
依赖高质量 mocap 数据：需要 SMPL 格式的人-物交互 mocap 数据作为参考轨迹，数据获取成本高

评分¶

新颖性: ⭐⭐⭐⭐ 双循环自动奖励学习 + 接触保持运动增广是有意义的创新，但各组件（PPO+SAC+IK）都是成熟技术的组合
实验充分度: ⭐⭐⭐⭐ 两个任务 + 完整消融 + 真实机器人部署验证，但任务种类偏少
写作质量: ⭐⭐⭐⭐ 框架描述清晰，公式完整，附录详细
价值: ⭐⭐⭐⭐ 为真实机器人的 HOI 模仿学习提供了实用框架，自动奖励机制有较好的泛化前景