Automaton Constrained Q-Learning¶
会议: NeurIPS 2025
arXiv: 2510.05061
代码: 有
领域: 强化学习 / 形式化方法
关键词: 时序逻辑, 安全RL, 目标条件, 自动机, 机器人控制
一句话总结¶
ACQL 将安全 RL 和目标条件 RL 提升到 LTL(线性时序逻辑)任务类——用自动机编码时序目标进展和非平稳安全约束,结合目标条件值学习(+HER密集化奖励)和基于 Hamilton-Jacobi 可达性的安全约束,在连续控制任务上显著超越现有 LTL RL 方法,并在 6-DOF 机械臂上成功部署。
研究背景与动机¶
- 领域现状:真实机器人任务需要完成目标序列(如仓储机器人依次补货)同时遵守安全约束(避障、电量限制)。标准 GCRL 和 Safe RL 各解决一半问题。
- 现有痛点:(a) LTL+RL 方法用稀疏布尔奖励,在复杂连续环境中学不动;(b) 安全约束通常被假设为静态的,但 LTL 任务中安全约束随阶段变化(非平稳);(c) 层次化方法需要为每个自动机边训练不同技能,不实用。
- 核心矛盾:LTL 表达力强但奖励信号稀疏且非马尔可夫;Safe RL 能处理安全但只支持静态约束。
- 切入角度:将 LTL 转换为自动机,用自动机状态编码目标进展,结合 GCRL(目标条件+HER)和 Safe RL(HJ可达性)。
- 核心idea一句话:自动机编码目标序列给 GCRL,HJ可达性处理自动机中的非平稳安全约束。
方法详解¶
关键设计¶
- 自动机引导的目标条件学习:
- 将 LTL 公式转换为自动机,每个边对应一个子目标
- 用单一目标条件策略处理所有子目标(而非每个子目标一个策略)
-
HER 将稀疏的"到达自动机下一状态"奖励密集化
-
最小安全值约束(HJ可达性):
- 将非平稳安全约束编码到乘积CMDP中
- 安全值函数表示"到最近违安全边界的最小距离"
-
策略必须保持安全值>0
-
统一框架:
- 单个策略同时学习目标到达和安全维持
- 自动机状态作为附加观测输入
实验关键数据¶
| 方法 | 目标完成率 | 安全违反率 | 适用LTL范围 |
|---|---|---|---|
| Reward Machines | 低(稀疏奖励) | 高 | 广 |
| LOF (层次化) | 中等 | 中等 | 受限 |
| ACQL | 高 | 低 | recurrence类 |
关键发现¶
- ACQL 在所有连续控制任务上显著优于Reward Machines和LOF
- 在6-DOF机械臂柜体内目标到达任务中成功部署
- HER对密集化LTL奖励的效果很好
亮点与洞察¶
- 将形式化方法的表达力与深度RL的可扩展性桥接
- 单一策略处理所有子目标+非平稳安全是关键实用化设计
- 对安全关键的机器人任务有直接部署价值
局限性 / 可改进方向¶
- 仅支持recurrence类LTL(非完整LTL)
- 自动机状态空间可能随LTL复杂度指数增长
评分¶
- 新颖性: ⭐⭐⭐⭐ GCRL+Safe RL+LTL的系统性整合
- 实验充分度: ⭐⭐⭐⭐⭐ 多环境+消融+真实机器人部署
- 写作质量: ⭐⭐⭐⭐ 问题定义严谨
- 价值: ⭐⭐⭐⭐⭐ 对安全机器人学习有直接实用价值