跳转至

Action-Constrained Imitation Learning

会议: ICML2025
arXiv: 2508.14379
代码: GitHub - ACRL-Baselines
领域: reinforcement_learning
关键词: 模仿学习, 动作约束, 动态时间规整, 轨迹对齐, MPC

一句话总结

形式化了"动作约束模仿学习(ACIL)"新问题——受限Agent从无约束专家学习,提出DTWIL通过MPC+DTW距离生成替代性约束轨迹来消除占用度量失配,在多种机器人任务上显著优于基线。

研究背景与动机

新问题定义

传统模仿学习假设专家和模仿者有相同的动作空间。但现实中常见能力差距:如学习控制低功率机器臂(受限扭矩)模仿高功率机器臂(无约束)的演示。

占用度量失配的根本挑战

当专家动作超出模仿者可行集时,动作投影会导致轨迹严重偏离——称为"占用度量扭曲"。例如迷宫导航中,约束Agent无法及时转弯导致碰撞。

已有方法的不适用性

  • ACRL方法用投影层保证约束,但在IL中投影会导致轨迹偏离
  • LfO方法忽视能力差距,尝试复制不可行的轨迹

方法详解

DTWIL框架(两阶段)

阶段1:生成约束替代演示 - 对每条专家轨迹,用MPC生成遵守约束且状态序列相似的替代轨迹 - 关键:替代轨迹可能比专家轨迹更长(需更多步完成相同动作)

阶段2:用任意IL方法学习替代演示 - BC或逆RL均可,框架解耦了约束满足和学习方法

MPC轨迹对齐

将轨迹对齐重构为规划问题: - 每步用MPC求解有限视野子问题 - 用学习的动力学模型生成候选滚出 - 选择DTW距离最小的滚出方案 - 只执行第一个动作,逐步自适应

DTW作为对齐准则

DTW天然处理不同长度序列,通过时间"弯曲"对齐状态序列。递推求解: $\(d_{DTW}(\sigma_{0:i}, \sigma'_{0:j}) = ||\sigma_i - \sigma'_j||_2 + \min\{d_{DTW}(\sigma_{0:i-1}, \sigma'_{0:j}), ...\}\)$

进度参数追踪

引入进度参数t_pg追踪当前对齐到专家轨迹的哪个位置,允许Agent用更多步来完成相同状态转移。

实验关键数据

MuJoCo运动任务

任务 BC GAIL BCO DTWIL-BC DTWIL-GAIL
HalfCheetah 32.1 45.3 38.7 78.5 82.3
Walker2d 28.4 41.2 35.6 72.8 76.1
Hopper 35.2 48.7 42.3 81.4 85.2

Maze2d导航任务

约束强度 BC投影 LfO DTWIL
轻度(80%动作范围) 85.2% 72.3% 95.1%
中度(50%) 52.1% 45.6% 82.4%
重度(20%) 12.3% 18.7% 61.5%

关键发现

  1. 约束越紧,DTWIL相对优势越大
  2. DTWIL对下游IL方法不敏感(BC和GAIL都受益)
  3. 替代轨迹通常比专家长20-50%但状态序列高度相似
  4. MPC的动力学模型质量影响上限

亮点与洞察

  1. ACIL是一个清晰且实际的新问题定义。
  2. 将轨迹对齐建模为规划问题是优雅的思路转化。
  3. DTW自然处理了"用更多步完成相同动作"的需求。
  4. 两阶段解耦设计使框架与任意IL方法兼容。
  5. 在所有约束强度下都一致优于投影方法,特别是重度约束。

局限与展望

  1. 需要学习动力学模型,数据效率和模型准确度是瓶颈。
  2. MPC的候选滚出生成在高维动作空间上可能效率不高。
  3. DTW距离只考虑状态相似,未显式约束动作平滑性。
  4. 最优替代轨迹长度K*的自适应确定仍需更好策略。
  5. 连续控制场景验证充分,离散动作空间待测试。

相关工作与启发

  • 与ACRL的本质区别:ACRL有奖励函数,可通过试错学习;ACIL只有演示,且存在能力差距。
  • 与LfO的区别:LfO不考虑轨迹不可行性。
  • 启发:可将DTW对齐扩展到跨形态模仿学习(cross-morphology IL)。

评分

  • 新颖性: 5.0/5 — 新问题+新框架
  • 实验充分度: 4.5/5 — 多任务多约束强度
  • 写作质量: 4.5/5 — 问题定义清晰
  • 价值: 4.5/5 — 对机器人安全部署有直接意义

补充技术细节

CEM优化器在MPC中的应用

MPC生成候选滚出时采用交叉熵方法(CEM)迭代优化动作序列分布。每轮采样N条候选,选择DTW距离最小的top-K更新采样分布,结合拒绝采样保证所有候选动作满足约束。

进度参数自适应更新

每步MPC选择最优轨迹后,通过DTW对齐矩阵反向追踪对齐到专家轨迹的位置,自动更新进度参数,允许Agent在困难段落用更多步骤。

相关论文