跳转至

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

会议: CVPR 2025
arXiv: 2408.15270
代码: https://ingrid789.github.io/SkillMimic/ (有)
领域: 强化学习 / 人物交互
关键词: 人物交互模仿, 篮球技能, 接触图, 统一奖励函数, 层次策略

一句话总结

提出 SkillMimic,一个纯数据驱动的框架,通过统一的 HOI 模仿奖励(特别是创新的接触图奖励)从动捕数据中学习多样的篮球交互技能,并通过高层控制器组合技能实现连续得分等复杂长程任务。

研究背景与动机

领域现状:基于物理的角色动画中,模仿学习(如 DeepMimic、AMP、ASE)在运动技能学习上取得了很大成功,但这些方法主要聚焦于行走、跑步等纯运动技能,对人与物体的交互(HOI)关注不够。

现有痛点:现有 HOI 方法(如打网球、爬绳等)每种交互技能都需要手工设计专门的奖励函数,不仅工作量大,而且无法泛化到新的交互模式。像篮球这种技能高度多样化的场景(运球、投篮、上篮等),手工设计奖励几乎不可能覆盖所有技能变体。

核心矛盾:运动学层面的模仿奖励(只看关节位置/速度是否匹配)对 HOI 来说不够——它无法区分"用手控球"和"用头控球",导致 humanoid 经常学到运动学上接近但物理上完全错误的局部最优解。

本文目标 设计一个统一的、不需要技能特定调参的 HOI 模仿学习框架,同时能学习多种篮球交互技能并组合完成复杂任务。

切入角度:引入接触图(Contact Graph)来显式建模交互中的接触关系,将接触信息作为模仿奖励的核心组成部分。同时采用乘法而非加法组合各子奖励,避免不平衡学习。

核心 idea:用接触图奖励显式约束接触模式 + 乘法组合多维奖励,实现统一的 HOI 模仿学习。

方法详解

整体框架

系统分三个部分:(1)HOI 数据采集——包括基于视觉的 BallPlay-V(8种基础技能)和基于动捕的 BallPlay-M(35分钟多样篮球交互,120fps);(2)交互技能(IS)策略训练——通过 RL 模仿 HOI 数据,输入是 HOI 状态+技能标签(one-hot),输出是关节目标角度,用 PD 控制器驱动;(3)高层控制器(HLC)——输入当前状态+任务观测(如篮筐位置),输出技能选择标签,驱动冻结的 IS 策略完成复杂任务。

关键设计

  1. 接触图(Contact Graph, CG)奖励:

    • 功能:显式建模交互中的接触关系,确保 humanoid 用正确的身体部位与物体接触
    • 核心思路:将交互场景中的物体/身体部位定义为图的节点(如:双手/非手身体/篮球),边表示两节点间的接触状态(0/1)。每帧计算接触图的边集合 \(\mathcal{E}\),用 \(r_t^{cg} = \exp(-\sum_j \lambda^{cg}[j] \cdot |s_t^{cg}[j] - \hat{s}_t^{cg}[j]|)\) 衡量接触模式与参考的匹配程度
    • 设计动机:没有接触图奖励时,humanoid 经常陷入运动学局部最优——用头顶球、用手腕碰球、无法抓住物体等。接触图显式惩罚错误的接触模式,消融实验显示加入 CG 奖励后准确率从 7.5% 跃升至 82.4%
  2. 乘法组合的统一 HOI 模仿奖励:

    • 功能:将多维度模仿信号整合为单一奖励,避免奖励不均衡导致的学习失败
    • 核心思路:总奖励 \(r_t = r_t^b \times r_t^o \times r_t^{rel} \times r_t^{reg} \times r_t^{cg}\),分别对应身体运动学、物体运动学、相对运动、速度正则化和接触图。每个子奖励形式为 \(\exp(-\lambda \cdot \text{MSE})\),乘法组合确保任一维度不匹配都会显著拉低总奖励
    • 设计动机:加法组合允许单一维度(如身体运动)的高分掩盖其他维度(如接触)的低分,导致不平衡学习。消融显示乘法准确率 95.4% vs 加法 38.6%
  3. 层次控制器(HLC)用于技能组合:

    • 功能:在已学到的交互技能之上训练高层策略,实现连续得分等复杂长程任务
    • 核心思路:冻结 IS 策略,HLC 输入当前 HOI 状态和任务特定观测(如篮筐位置),输出离散的技能嵌入向量选择执行哪个技能。用任务特定奖励训练 HLC(如距离篮筐距离、投掷高度等)
    • 设计动机:将技能获取和任务规划解耦,IS 策略负责"怎么做",HLC 负责"做什么"

损失函数 / 训练策略

使用 PPO 算法训练。IS 策略是 3 层 MLP [1024, 512, 512],输出高斯分布(固定方差)。Humanoid 模型有 52-53 个关节、156 个自由度(包括手部 30×3 DOF)。训练时从参考片段随机初始化,用统一 HOI 模仿奖励优化。支持混合训练多个技能(同一策略同时学运球、上篮等),通过 one-hot 技能标签区分。

实验关键数据

主实验

技能学习成功率对比(BallPlay-M):

方法 捡球 向前运球 上篮 投篮
DeepMimic* 19.6% 68.5% 98.9% 97.8%
AMP* 0.0% 13.6% 0.0% 1.6%
SkillMimic 86.7% 79.6% 99.1% 97.9%

高层任务成功率对比:

方法 带球前进 绕圈运球 投掷 得分
PPO (从头训) 0.70% 11.14% 0.00% 0.00%
ASE* (有交互先验) 0.31% 7.21% 0.00% 0.00%
SkillMimic + HLC 93.04% 79.92% 93.40% 80.25%

消融实验

配置 准确率 接触误差 \(E_{cg}\) 说明
完整模型 82.4% 0.087
无接触图奖励 7.5% 0.306 接触完全错误
加法组合奖励 38.6% 不平衡学习
乘法组合 95.4% GRAB 数据集

关键发现

  • 接触图奖励是最关键的创新:没有它准确率只有 7.5%,humanoid 会用头、手腕等错误部位接触物体
  • 数据量正比于性能:捡球技能从 1 个片段 0.5% 成功率增长到 131 个片段 85.6%,体现了数据驱动方法的可扩展性
  • 混合训练提升单技能:同时训练 4 种技能比单独训练单技能效果更好(运球左:4.1%→67.9%),且支持零样本技能切换
  • 对物理属性鲁棒:球半径 0.5-1.5 倍、密度 0.1-6 倍变化时成功率保持稳定

亮点与洞察

  • 接触图的简洁通用性:篮球场景只需 3 个节点(双手/身体/球)就能建模所有技能的接触模式,这个抽象足够简洁又足够有效。可以迁移到其他 HOI 场景(如厨房操作、工具使用)
  • 乘法组合奖励的深意:从信息论角度看,乘法相当于 log 空间的加法,对每个维度施加了更严格的"一票否决"约束——任何一个维度接近 0 都会拉低总奖励,避免"虚假成功"
  • 数据驱动的可扩展性:不需要针对新技能设计奖励,只需要增加数据就能学习新技能,这使得人物交互动画的规模化成为可能
  • 层次架构的解耦设计:IS 策略和 HLC 分层训练,IS 负责"怎么执行技能",HLC 负责"选哪个技能"

局限与展望

  • 仅限篮球场景:虽然接触图是通用设计,但实验仅在篮球上验证,更复杂的多物体交互(如烹饪、装配)需要更多节点和边
  • 单物体限制:当前只处理一个球的交互,多物体同时操作是更大的挑战
  • 数据采集成本高:BallPlay-M 需要光学动捕+惯性传感器,限制了数据规模的进一步扩展
  • 无 sim-to-real 验证:所有实验在 Isaac Gym 仿真中完成,真实机器人转移需要解决域差距
  • HLC 仍需任务奖励:高层控制器仍然需要为每个任务设计奖励函数(如得分、带球等)

相关工作与启发

  • vs DeepMimic: DeepMimic 的运动学模仿奖励在 HOI 场景下失败——捡球成功率仅 19.6%,因为它不建模接触。SkillMimic 的接触图奖励填补了这个空白
  • vs AMP/ASE: 对抗式模仿奖励(AMP)在 HOI 中表现极差(0-13.6%),说明 GAN 式奖励的粒度不够细致,无法引导精确的接触学习
  • vs 交互图方法: 之前的 InteractionGraph 只考虑运动学关系(距离/速度),不考虑物理接触,导致学习不稳定

评分

  • 新颖性: ⭐⭐⭐⭐ 接触图和乘法奖励组合是简洁有效的创新,首次实现统一的多技能 HOI 模仿
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、多种技能、丰富的消融和对比、物理属性鲁棒性测试
  • 写作质量: ⭐⭐⭐⭐ 图示清晰、结构完整,但符号较多需要反复对照
  • 价值: ⭐⭐⭐⭐ 为 HOI 模仿学习提供了一个简洁统一的基线,数据驱动的可扩展性是关键优势

相关论文