跳转至

Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism

会议: ICML2025
arXiv: 2506.09176
代码: metadriverse/AIM
领域: 模仿学习 / 交互式模仿学习
关键词: Interactive Imitation Learning, Robot-Gated Intervention, Proxy Q-function, Adaptive Mechanism, Human-in-the-Loop

一句话总结

提出自适应干预机制 AIM,通过学习代理 Q 函数模拟人类干预决策,让机器人主动请求专家帮助,相比不确定性基线 Thrifty-DAgger 在人类接管成本和学习效率上提升 40%。

研究背景与动机

交互式模仿学习 (IIL) 允许智能体在训练中获得人类在线纠正示范,分两类:

  • Human-gated IIL:人类全程监控并主动干预(如 HG-DAgger、PVP),认知负担极高
  • Robot-gated IIL:机器人根据某种准则自主请求帮助(如 Ensemble-DAgger、Thrifty-DAgger),减轻人类监控压力

现有 robot-gated 方法的核心问题:

不确定性估计与人类干预意图不对齐:基于动作方差的不确定性在安全关键状态可能很低(漏报),在智能体已熟练的状态可能很高(误报)

固定阈值无法适应策略演化:智能体逐渐学会后,干预率不会自动下降

计算开销大:需要训练策略网络集成来计算动作方差

AIM 的动机:设计一个能模拟人类干预决策随策略改进自动降低干预率的自适应机制。

方法详解

核心思路

训练一个代理 Q 函数 \(Q_\theta^I(s, a_r)\) 来近似人类的干预判断:

  • \(Q_\theta^I(s, a_r)\) 值越高 → 人类越可能在该状态干预
  • 当智能体动作 \(a_r\) 偏离专家动作 \(a_h\) 时,Q 值趋向 +1
  • 当智能体已对齐专家时,Q 值趋向 −1,自动减少请求

AIM 损失函数

\[J^{\text{AIM}}(\theta) = \mathbb{E}_{(s,a_h)\sim\mathcal{B}_h}\left[|Q_\theta^I(s,a_h)+1|^2\right] + \mathbb{E}_{(s,a_h)\sim\mathcal{B}_h, a_r\sim\pi_r(s)}\left[f(a_r,a_h)\cdot|Q_\theta^I(s,a_r)-1|^2\right]\]

其中 \(f(a_r, a_h) = \mathbb{I}[\|a_r - a_h\|^2 > \epsilon]\) 判断动作差异是否超过阈值。

直觉:第一项将专家动作的 Q 值拉向 −1(无需干预);第二项在智能体动作偏离时将 Q 值推向 +1(需要干预)。

时序差分 (TD) 损失

为将 Q 值泛化到智能体自行探索但专家未覆盖的状态,加入 TD 损失:

\[J^{\text{TD}}(\theta) = \mathbb{E}_{(s,a,s')\sim\mathcal{B}_h\cup\mathcal{B}_r}\left[|Q_\theta(s,a) - \gamma\max_{a'}Q_{\hat{\theta}}(s',a')|^2\right]\]

总损失:\(J(\theta) = J^{\text{AIM}}(\theta) + J^{\text{TD}}(\theta)\)

干预触发与停止

  • Switch-to-human:当 \(Q_\theta^I(s, a_r) > \beta\) 时请求专家,阈值 \(\beta\) 为 Q 值分布的 \((1-\delta)\) 分位数(\(\delta=0.05\)
  • Continue-with-human:专家介入后,若 \(\|a_r - a_h\|^2 \leq \epsilon\) 则停止请求
  • \(\epsilon\) 设为当前策略与专家动作差异的均值,随训练自适应更新

算法流程

  1. \(n=2\) 条轨迹由人类全程监控 (human-gated warm-up)
  2. 用收集的数据初始化 \(Q_\theta^I\) 和阈值 \(\beta\)\(\epsilon\)
  3. Robot-gated 阶段:智能体自主探索,仅当 \(Q_\theta^I > \beta\) 时请求帮助
  4. 持续更新策略 \(\pi_r\)、Q 函数 \(Q_\theta^I\) 和阈值

实验关键数据

MetaDrive 自动驾驶(连续动作空间,2000 步专家预算)

方法 Robot-Gated 专家数据量 (干预率) 总数据量 成功率 回报 路线完成率
BC 2K 2K 0.33±0.04 243.0±46.7 0.62±0.08
HG-DAgger 0.9K (0.45) 2K 0.61±0.07 310.8±16.7 0.78±0.07
PVP 0.4K (0.19) 2K 0.62±0.06 270.4±28.6 0.77±0.04
Ensemble-DAgger 2K (0.55) 3.6K 0.60±0.09 267.4±9.9 0.54±0.10
Thrifty-DAgger 2K (0.21) 9.5K 0.58±0.03 250.0±23.9 0.73±0.03
AIM (本文) 1.9K (0.24) 7.7K 0.82±0.06 328.4±20.4 0.91±0.03
Neural Expert 0.84±0.05 336.5±17.1 0.93±0.01

关键发现

  • AIM 成功率 0.82 接近 Neural Expert 的 0.84,超越所有基线
  • 相比 Thrifty-DAgger,成功率提升 41%(0.58→0.82),路线完成率提升 25%
  • AIM 用更少的专家数据 (1.9K vs 2K) 达到更优性能
  • 在 MiniGrid 离散动作空间任务中同样优于所有基线

亮点与洞察

  1. 自适应干预率:Q 函数天然随策略改进而降低干预请求,无需手工调节衰减计划
  2. 与人类意图对齐:直接学习人类干预决策的代理模型,而非依赖启发式不确定性估计
  3. 精确定位安全关键状态:AIM 仅在交通锥和路障附近请求帮助,而 Thrifty-DAgger 在直道上也频繁请求
  4. TD 传播前瞻能力:通过时序差分将 Q 值泛化到未见状态,可预判未来错误
  5. 极简 warm-up:仅需前 2 条轨迹的人类监控即可启动 robot-gated 模式

局限与展望

  1. 实验使用 neural expert 替代真人:虽是标准做法,但与真实人类交互的差异未被充分验证
  2. 任务复杂度有限:仅在 MetaDrive 和 MiniGrid 两个相对简单的环境中测试
  3. 高维视觉观测未涉及:当前使用 259 维传感器向量,图像输入场景下效果未知
  4. Q 函数泛化性:当环境分布发生较大变化时,代理 Q 函数是否仍能可靠判断干预需求
  5. 离线到在线的冷启:warm-up 阶段仍需人类全程监控,在极高成本场景中可能不够友好

评分

  • 新颖性: ⭐⭐⭐⭐ — 代理 Q 函数模拟人类干预决策是优雅且原创的思路
  • 实验充分度: ⭐⭐⭐ — 连续/离散双场景覆盖,但环境多样性不足
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰、图示直观,公式推导完整
  • 价值: ⭐⭐⭐⭐ — 对降低 human-in-the-loop 成本有实际意义,40% 效率提升显著

相关论文