SkillMimic: Learning Basketball Interaction Skills from Demonstrations¶
会议: CVPR 2025
arXiv: 2408.15270
代码: https://ingrid789.github.io/SkillMimic/ (有)
领域: 强化学习 / 人物交互
关键词: 人物交互模仿, 篮球技能, 接触图, 统一奖励函数, 层次策略
一句话总结¶
提出 SkillMimic,一个纯数据驱动的框架,通过统一的 HOI 模仿奖励(特别是创新的接触图奖励)从动捕数据中学习多样的篮球交互技能,并通过高层控制器组合技能实现连续得分等复杂长程任务。
研究背景与动机¶
领域现状:基于物理的角色动画中,模仿学习(如 DeepMimic、AMP、ASE)在运动技能学习上取得了很大成功,但这些方法主要聚焦于行走、跑步等纯运动技能,对人与物体的交互(HOI)关注不够。
现有痛点:现有 HOI 方法(如打网球、爬绳等)每种交互技能都需要手工设计专门的奖励函数,不仅工作量大,而且无法泛化到新的交互模式。像篮球这种技能高度多样化的场景(运球、投篮、上篮等),手工设计奖励几乎不可能覆盖所有技能变体。
核心矛盾:运动学层面的模仿奖励(只看关节位置/速度是否匹配)对 HOI 来说不够——它无法区分"用手控球"和"用头控球",导致 humanoid 经常学到运动学上接近但物理上完全错误的局部最优解。
本文目标 设计一个统一的、不需要技能特定调参的 HOI 模仿学习框架,同时能学习多种篮球交互技能并组合完成复杂任务。
切入角度:引入接触图(Contact Graph)来显式建模交互中的接触关系,将接触信息作为模仿奖励的核心组成部分。同时采用乘法而非加法组合各子奖励,避免不平衡学习。
核心 idea:用接触图奖励显式约束接触模式 + 乘法组合多维奖励,实现统一的 HOI 模仿学习。
方法详解¶
整体框架¶
系统分三个部分:(1)HOI 数据采集——包括基于视觉的 BallPlay-V(8种基础技能)和基于动捕的 BallPlay-M(35分钟多样篮球交互,120fps);(2)交互技能(IS)策略训练——通过 RL 模仿 HOI 数据,输入是 HOI 状态+技能标签(one-hot),输出是关节目标角度,用 PD 控制器驱动;(3)高层控制器(HLC)——输入当前状态+任务观测(如篮筐位置),输出技能选择标签,驱动冻结的 IS 策略完成复杂任务。
关键设计¶
-
接触图(Contact Graph, CG)奖励:
- 功能:显式建模交互中的接触关系,确保 humanoid 用正确的身体部位与物体接触
- 核心思路:将交互场景中的物体/身体部位定义为图的节点(如:双手/非手身体/篮球),边表示两节点间的接触状态(0/1)。每帧计算接触图的边集合 \(\mathcal{E}\),用 \(r_t^{cg} = \exp(-\sum_j \lambda^{cg}[j] \cdot |s_t^{cg}[j] - \hat{s}_t^{cg}[j]|)\) 衡量接触模式与参考的匹配程度
- 设计动机:没有接触图奖励时,humanoid 经常陷入运动学局部最优——用头顶球、用手腕碰球、无法抓住物体等。接触图显式惩罚错误的接触模式,消融实验显示加入 CG 奖励后准确率从 7.5% 跃升至 82.4%
-
乘法组合的统一 HOI 模仿奖励:
- 功能:将多维度模仿信号整合为单一奖励,避免奖励不均衡导致的学习失败
- 核心思路:总奖励 \(r_t = r_t^b \times r_t^o \times r_t^{rel} \times r_t^{reg} \times r_t^{cg}\),分别对应身体运动学、物体运动学、相对运动、速度正则化和接触图。每个子奖励形式为 \(\exp(-\lambda \cdot \text{MSE})\),乘法组合确保任一维度不匹配都会显著拉低总奖励
- 设计动机:加法组合允许单一维度(如身体运动)的高分掩盖其他维度(如接触)的低分,导致不平衡学习。消融显示乘法准确率 95.4% vs 加法 38.6%
-
层次控制器(HLC)用于技能组合:
- 功能:在已学到的交互技能之上训练高层策略,实现连续得分等复杂长程任务
- 核心思路:冻结 IS 策略,HLC 输入当前 HOI 状态和任务特定观测(如篮筐位置),输出离散的技能嵌入向量选择执行哪个技能。用任务特定奖励训练 HLC(如距离篮筐距离、投掷高度等)
- 设计动机:将技能获取和任务规划解耦,IS 策略负责"怎么做",HLC 负责"做什么"
损失函数 / 训练策略¶
使用 PPO 算法训练。IS 策略是 3 层 MLP [1024, 512, 512],输出高斯分布(固定方差)。Humanoid 模型有 52-53 个关节、156 个自由度(包括手部 30×3 DOF)。训练时从参考片段随机初始化,用统一 HOI 模仿奖励优化。支持混合训练多个技能(同一策略同时学运球、上篮等),通过 one-hot 技能标签区分。
实验关键数据¶
主实验¶
技能学习成功率对比(BallPlay-M):
| 方法 | 捡球 | 向前运球 | 上篮 | 投篮 |
|---|---|---|---|---|
| DeepMimic* | 19.6% | 68.5% | 98.9% | 97.8% |
| AMP* | 0.0% | 13.6% | 0.0% | 1.6% |
| SkillMimic | 86.7% | 79.6% | 99.1% | 97.9% |
高层任务成功率对比:
| 方法 | 带球前进 | 绕圈运球 | 投掷 | 得分 |
|---|---|---|---|---|
| PPO (从头训) | 0.70% | 11.14% | 0.00% | 0.00% |
| ASE* (有交互先验) | 0.31% | 7.21% | 0.00% | 0.00% |
| SkillMimic + HLC | 93.04% | 79.92% | 93.40% | 80.25% |
消融实验¶
| 配置 | 准确率 | 接触误差 \(E_{cg}\) | 说明 |
|---|---|---|---|
| 完整模型 | 82.4% | 0.087 | — |
| 无接触图奖励 | 7.5% | 0.306 | 接触完全错误 |
| 加法组合奖励 | 38.6% | — | 不平衡学习 |
| 乘法组合 | 95.4% | — | GRAB 数据集 |
关键发现¶
- 接触图奖励是最关键的创新:没有它准确率只有 7.5%,humanoid 会用头、手腕等错误部位接触物体
- 数据量正比于性能:捡球技能从 1 个片段 0.5% 成功率增长到 131 个片段 85.6%,体现了数据驱动方法的可扩展性
- 混合训练提升单技能:同时训练 4 种技能比单独训练单技能效果更好(运球左:4.1%→67.9%),且支持零样本技能切换
- 对物理属性鲁棒:球半径 0.5-1.5 倍、密度 0.1-6 倍变化时成功率保持稳定
亮点与洞察¶
- 接触图的简洁通用性:篮球场景只需 3 个节点(双手/身体/球)就能建模所有技能的接触模式,这个抽象足够简洁又足够有效。可以迁移到其他 HOI 场景(如厨房操作、工具使用)
- 乘法组合奖励的深意:从信息论角度看,乘法相当于 log 空间的加法,对每个维度施加了更严格的"一票否决"约束——任何一个维度接近 0 都会拉低总奖励,避免"虚假成功"
- 数据驱动的可扩展性:不需要针对新技能设计奖励,只需要增加数据就能学习新技能,这使得人物交互动画的规模化成为可能
- 层次架构的解耦设计:IS 策略和 HLC 分层训练,IS 负责"怎么执行技能",HLC 负责"选哪个技能"
局限与展望¶
- 仅限篮球场景:虽然接触图是通用设计,但实验仅在篮球上验证,更复杂的多物体交互(如烹饪、装配)需要更多节点和边
- 单物体限制:当前只处理一个球的交互,多物体同时操作是更大的挑战
- 数据采集成本高:BallPlay-M 需要光学动捕+惯性传感器,限制了数据规模的进一步扩展
- 无 sim-to-real 验证:所有实验在 Isaac Gym 仿真中完成,真实机器人转移需要解决域差距
- HLC 仍需任务奖励:高层控制器仍然需要为每个任务设计奖励函数(如得分、带球等)
相关工作与启发¶
- vs DeepMimic: DeepMimic 的运动学模仿奖励在 HOI 场景下失败——捡球成功率仅 19.6%,因为它不建模接触。SkillMimic 的接触图奖励填补了这个空白
- vs AMP/ASE: 对抗式模仿奖励(AMP)在 HOI 中表现极差(0-13.6%),说明 GAN 式奖励的粒度不够细致,无法引导精确的接触学习
- vs 交互图方法: 之前的 InteractionGraph 只考虑运动学关系(距离/速度),不考虑物理接触,导致学习不稳定
评分¶
- 新颖性: ⭐⭐⭐⭐ 接触图和乘法奖励组合是简洁有效的创新,首次实现统一的多技能 HOI 模仿
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、多种技能、丰富的消融和对比、物理属性鲁棒性测试
- 写作质量: ⭐⭐⭐⭐ 图示清晰、结构完整,但符号较多需要反复对照
- 价值: ⭐⭐⭐⭐ 为 HOI 模仿学习提供了一个简洁统一的基线,数据驱动的可扩展性是关键优势
相关论文¶
- [NeurIPS 2025] Learning from Demonstrations via Capability-Aware Goal Sampling
- [ICML 2025] Learning Utilities from Demonstrations in Markov Decision Processes
- [ICML 2025] Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
- [AAAI 2026] ManiLong-Shot: Interaction-Aware One-Shot Imitation Learning for Long-Horizon Manipulation
- [AAAI 2026] Thinker: Training LLMs in Hierarchical Thinking for Deep Search via Multi-Turn Interaction