Automaton Constrained Q-Learning¶

会议: NeurIPS 2025
arXiv: 2510.05061
代码: 有
领域: 强化学习 / 形式化方法
关键词: 时序逻辑, 安全RL, 目标条件, 自动机, 机器人控制

一句话总结¶

ACQL 将安全 RL 和目标条件 RL 提升到 LTL（线性时序逻辑）任务类——用自动机编码时序目标进展和非平稳安全约束，结合目标条件值学习（+HER密集化奖励）和基于 Hamilton-Jacobi 可达性的安全约束，在连续控制任务上显著超越现有 LTL RL 方法，并在 6-DOF 机械臂上成功部署。

研究背景与动机¶

领域现状：真实机器人任务需要完成目标序列（如仓储机器人依次补货）同时遵守安全约束（避障、电量限制）。标准 GCRL 和 Safe RL 各解决一半问题。
现有痛点：(a) LTL+RL 方法用稀疏布尔奖励，在复杂连续环境中学不动；(b) 安全约束通常被假设为静态的，但 LTL 任务中安全约束随阶段变化（非平稳）；(c) 层次化方法需要为每个自动机边训练不同技能，不实用。
核心矛盾：LTL 表达力强但奖励信号稀疏且非马尔可夫；Safe RL 能处理安全但只支持静态约束。
切入角度：将 LTL 转换为自动机，用自动机状态编码目标进展，结合 GCRL（目标条件+HER）和 Safe RL（HJ可达性）。
核心idea一句话：自动机编码目标序列给 GCRL，HJ可达性处理自动机中的非平稳安全约束。

方法详解¶

关键设计¶

自动机引导的目标条件学习：
将 LTL 公式转换为自动机，每个边对应一个子目标
用单一目标条件策略处理所有子目标（而非每个子目标一个策略）
HER 将稀疏的"到达自动机下一状态"奖励密集化
最小安全值约束（HJ可达性）：
将非平稳安全约束编码到乘积CMDP中
安全值函数表示"到最近违安全边界的最小距离"
策略必须保持安全值>0
统一框架：
单个策略同时学习目标到达和安全维持
自动机状态作为附加观测输入

实验关键数据¶

方法	目标完成率	安全违反率	适用LTL范围
Reward Machines	低（稀疏奖励）	高	广
LOF (层次化)	中等	中等	受限
ACQL	高	低	recurrence类

关键发现¶

ACQL 在所有连续控制任务上显著优于Reward Machines和LOF
在6-DOF机械臂柜体内目标到达任务中成功部署
HER对密集化LTL奖励的效果很好

亮点与洞察¶

将形式化方法的表达力与深度RL的可扩展性桥接
单一策略处理所有子目标+非平稳安全是关键实用化设计
对安全关键的机器人任务有直接部署价值

局限性 / 可改进方向¶

仅支持recurrence类LTL（非完整LTL）
自动机状态空间可能随LTL复杂度指数增长

评分¶

新颖性: ⭐⭐⭐⭐ GCRL+Safe RL+LTL的系统性整合
实验充分度: ⭐⭐⭐⭐⭐ 多环境+消融+真实机器人部署
写作质量: ⭐⭐⭐⭐ 问题定义严谨
价值: ⭐⭐⭐⭐⭐ 对安全机器人学习有直接实用价值