跳转至

Automaton Constrained Q-Learning

会议: NeurIPS 2025
arXiv: 2510.05061
代码: 有
领域: 强化学习 / 形式化方法
关键词: 时序逻辑, 安全RL, 目标条件, 自动机, 机器人控制

一句话总结

ACQL 将安全 RL 和目标条件 RL 提升到 LTL(线性时序逻辑)任务类——用自动机编码时序目标进展和非平稳安全约束,结合目标条件值学习(+HER密集化奖励)和基于 Hamilton-Jacobi 可达性的安全约束,在连续控制任务上显著超越现有 LTL RL 方法,并在 6-DOF 机械臂上成功部署。

研究背景与动机

  1. 领域现状:真实机器人任务需要完成目标序列(如仓储机器人依次补货)同时遵守安全约束(避障、电量限制)。标准 GCRL 和 Safe RL 各解决一半问题。
  2. 现有痛点:(a) LTL+RL 方法用稀疏布尔奖励,在复杂连续环境中学不动;(b) 安全约束通常被假设为静态的,但 LTL 任务中安全约束随阶段变化(非平稳);(c) 层次化方法需要为每个自动机边训练不同技能,不实用。
  3. 核心矛盾:LTL 表达力强但奖励信号稀疏且非马尔可夫;Safe RL 能处理安全但只支持静态约束。
  4. 切入角度:将 LTL 转换为自动机,用自动机状态编码目标进展,结合 GCRL(目标条件+HER)和 Safe RL(HJ可达性)。
  5. 核心idea一句话:自动机编码目标序列给 GCRL,HJ可达性处理自动机中的非平稳安全约束。

方法详解

关键设计

  1. 自动机引导的目标条件学习
  2. 将 LTL 公式转换为自动机,每个边对应一个子目标
  3. 用单一目标条件策略处理所有子目标(而非每个子目标一个策略)
  4. HER 将稀疏的"到达自动机下一状态"奖励密集化

  5. 最小安全值约束(HJ可达性)

  6. 将非平稳安全约束编码到乘积CMDP中
  7. 安全值函数表示"到最近违安全边界的最小距离"
  8. 策略必须保持安全值>0

  9. 统一框架

  10. 单个策略同时学习目标到达和安全维持
  11. 自动机状态作为附加观测输入

实验关键数据

方法 目标完成率 安全违反率 适用LTL范围
Reward Machines 低(稀疏奖励) 广
LOF (层次化) 中等 中等 受限
ACQL recurrence类

关键发现

  • ACQL 在所有连续控制任务上显著优于Reward Machines和LOF
  • 在6-DOF机械臂柜体内目标到达任务中成功部署
  • HER对密集化LTL奖励的效果很好

亮点与洞察

  • 将形式化方法的表达力与深度RL的可扩展性桥接
  • 单一策略处理所有子目标+非平稳安全是关键实用化设计
  • 对安全关键的机器人任务有直接部署价值

局限性 / 可改进方向

  • 仅支持recurrence类LTL(非完整LTL)
  • 自动机状态空间可能随LTL复杂度指数增长

评分

  • 新颖性: ⭐⭐⭐⭐ GCRL+Safe RL+LTL的系统性整合
  • 实验充分度: ⭐⭐⭐⭐⭐ 多环境+消融+真实机器人部署
  • 写作质量: ⭐⭐⭐⭐ 问题定义严谨
  • 价值: ⭐⭐⭐⭐⭐ 对安全机器人学习有直接实用价值