Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism¶

会议: ICML2025
arXiv: 2506.09176
代码: metadriverse/AIM
领域: 模仿学习 / 交互式模仿学习
关键词: Interactive Imitation Learning, Robot-Gated Intervention, Proxy Q-function, Adaptive Mechanism, Human-in-the-Loop

一句话总结¶

提出自适应干预机制 AIM，通过学习代理 Q 函数模拟人类干预决策，让机器人主动请求专家帮助，相比不确定性基线 Thrifty-DAgger 在人类接管成本和学习效率上提升 40%。

研究背景与动机¶

交互式模仿学习 (IIL) 允许智能体在训练中获得人类在线纠正示范，分两类：

Human-gated IIL：人类全程监控并主动干预（如 HG-DAgger、PVP），认知负担极高
Robot-gated IIL：机器人根据某种准则自主请求帮助（如 Ensemble-DAgger、Thrifty-DAgger），减轻人类监控压力

现有 robot-gated 方法的核心问题：

不确定性估计与人类干预意图不对齐：基于动作方差的不确定性在安全关键状态可能很低（漏报），在智能体已熟练的状态可能很高（误报）

固定阈值无法适应策略演化：智能体逐渐学会后，干预率不会自动下降

计算开销大：需要训练策略网络集成来计算动作方差

AIM 的动机：设计一个能模拟人类干预决策、随策略改进自动降低干预率的自适应机制。

方法详解¶

核心思路¶

训练一个代理 Q 函数 \(Q_\theta^I(s, a_r)\) 来近似人类的干预判断：

\(Q_\theta^I(s, a_r)\) 值越高 → 人类越可能在该状态干预
当智能体动作 \(a_r\) 偏离专家动作 \(a_h\) 时，Q 值趋向 +1
当智能体已对齐专家时，Q 值趋向 −1，自动减少请求

AIM 损失函数¶

\[J^{\text{AIM}}(\theta) = \mathbb{E}_{(s,a_h)\sim\mathcal{B}_h}\left[|Q_\theta^I(s,a_h)+1|^2\right] + \mathbb{E}_{(s,a_h)\sim\mathcal{B}_h, a_r\sim\pi_r(s)}\left[f(a_r,a_h)\cdot|Q_\theta^I(s,a_r)-1|^2\right]\]

其中 \(f(a_r, a_h) = \mathbb{I}[\|a_r - a_h\|^2 > \epsilon]\) 判断动作差异是否超过阈值。

直觉：第一项将专家动作的 Q 值拉向 −1（无需干预）；第二项在智能体动作偏离时将 Q 值推向 +1（需要干预）。

时序差分 (TD) 损失¶

为将 Q 值泛化到智能体自行探索但专家未覆盖的状态，加入 TD 损失：

\[J^{\text{TD}}(\theta) = \mathbb{E}_{(s,a,s')\sim\mathcal{B}_h\cup\mathcal{B}_r}\left[|Q_\theta(s,a) - \gamma\max_{a'}Q_{\hat{\theta}}(s',a')|^2\right]\]

总损失：\(J(\theta) = J^{\text{AIM}}(\theta) + J^{\text{TD}}(\theta)\)

干预触发与停止¶

Switch-to-human：当 \(Q_\theta^I(s, a_r) > \beta\) 时请求专家，阈值 \(\beta\) 为 Q 值分布的 \((1-\delta)\) 分位数（\(\delta=0.05\)）
Continue-with-human：专家介入后，若 \(\|a_r - a_h\|^2 \leq \epsilon\) 则停止请求
\(\epsilon\) 设为当前策略与专家动作差异的均值，随训练自适应更新

算法流程¶

前 \(n=2\) 条轨迹由人类全程监控 (human-gated warm-up)
用收集的数据初始化 \(Q_\theta^I\) 和阈值 \(\beta\)、\(\epsilon\)
Robot-gated 阶段：智能体自主探索，仅当 \(Q_\theta^I > \beta\) 时请求帮助
持续更新策略 \(\pi_r\)、Q 函数 \(Q_\theta^I\) 和阈值

实验关键数据¶

MetaDrive 自动驾驶（连续动作空间，2000 步专家预算）¶

方法	Robot-Gated	专家数据量 (干预率)	总数据量	成功率	回报	路线完成率
BC	—	2K	2K	0.33±0.04	243.0±46.7	0.62±0.08
HG-DAgger	✗	0.9K (0.45)	2K	0.61±0.07	310.8±16.7	0.78±0.07
PVP	✗	0.4K (0.19)	2K	0.62±0.06	270.4±28.6	0.77±0.04
Ensemble-DAgger	✓	2K (0.55)	3.6K	0.60±0.09	267.4±9.9	0.54±0.10
Thrifty-DAgger	✓	2K (0.21)	9.5K	0.58±0.03	250.0±23.9	0.73±0.03
AIM (本文)	✓	1.9K (0.24)	7.7K	0.82±0.06	328.4±20.4	0.91±0.03
Neural Expert	—	—	—	0.84±0.05	336.5±17.1	0.93±0.01

关键发现：

AIM 成功率 0.82 接近 Neural Expert 的 0.84，超越所有基线
相比 Thrifty-DAgger，成功率提升 41%（0.58→0.82），路线完成率提升 25%
AIM 用更少的专家数据 (1.9K vs 2K) 达到更优性能
在 MiniGrid 离散动作空间任务中同样优于所有基线

亮点与洞察¶

自适应干预率：Q 函数天然随策略改进而降低干预请求，无需手工调节衰减计划
与人类意图对齐：直接学习人类干预决策的代理模型，而非依赖启发式不确定性估计
精确定位安全关键状态：AIM 仅在交通锥和路障附近请求帮助，而 Thrifty-DAgger 在直道上也频繁请求
TD 传播前瞻能力：通过时序差分将 Q 值泛化到未见状态，可预判未来错误
极简 warm-up：仅需前 2 条轨迹的人类监控即可启动 robot-gated 模式

局限与展望¶

实验使用 neural expert 替代真人：虽是标准做法，但与真实人类交互的差异未被充分验证
任务复杂度有限：仅在 MetaDrive 和 MiniGrid 两个相对简单的环境中测试
高维视觉观测未涉及：当前使用 259 维传感器向量，图像输入场景下效果未知
Q 函数泛化性：当环境分布发生较大变化时，代理 Q 函数是否仍能可靠判断干预需求
离线到在线的冷启：warm-up 阶段仍需人类全程监控，在极高成本场景中可能不够友好

评分¶

新颖性: ⭐⭐⭐⭐ — 代理 Q 函数模拟人类干预决策是优雅且原创的思路
实验充分度: ⭐⭐⭐ — 连续/离散双场景覆盖，但环境多样性不足
写作质量: ⭐⭐⭐⭐ — 动机清晰、图示直观，公式推导完整
价值: ⭐⭐⭐⭐ — 对降低 human-in-the-loop 成本有实际意义，40% 效率提升显著