跳转至

Actor-Free Continuous Control via Structurally Maximizable Q-Functions

会议: NeurIPS 2025
arXiv: 2510.18828
代码: GitHub
领域: 强化学习 / 连续控制
关键词: actor-free RL, Q-learning, control-point interpolation, wire-fitting, continuous action space

一句话总结

提出Q3C(Q-learning for Continuous Control with Control-points),一种无actor的纯基于值函数的连续控制方法,通过控制点插值逼近任意形状的Q函数,在复杂(非凸、受限)Q函数景观中显著优于actor-critic方法。

背景与动机

连续动作空间中的RL通常依赖actor-critic架构,但actor的梯度优化在非凸Q函数景观和受限动作空间中容易失败——梯度会陷入局部最优或违反约束。传统value-based方法(如NAF)使用二次函数逼近Q值,表达力不足。CEM等采样方法计算开销大。需要一种既能处理任意Q函数形状又不需要actor的方法。

核心问题

如何设计一个无需显式actor网络、能在连续动作空间中直接最大化Q值的RL方法,同时处理复杂Q函数景观和动作约束?

方法详解

整体框架

用一组可学习的"控制点"在动作空间中插值,构建可直接最大化的Q函数。不需要actor网络——动作直接从Q函数的最大值点获得。

关键设计

  1. 控制点插值(Wire-Fitting)
  2. 核心公式:\(Q(s,a) = \frac{\sum_i \hat{Q}_i(s) w_i(s,a)}{\sum_i w_i(s,a)}\)
  3. 权重:\(w_i(s,a) = \frac{1}{|a-\hat{a}_i(s)|^2 + c_i(\hat{Q}_{\max}-\hat{Q}_i(s))}\)
  4. 数学保证:Q函数的最大值必然出现在某个控制点上 → \(\arg\max_a Q(s,a) = \hat{a}_j\), \(j = \arg\max_i \hat{Q}_i\)
  5. 这使得连续动作空间的 argmax 变成了离散比较操作,完全避免了梯度优化

  6. 条件Q值生成 (CondQ)

  7. 两阶段架构:控制点生成器 \(g_\phi(s)\) → 以控制点位置为条件的 Q 估计器 \(h_\psi(s, \hat{a}_i)\)
  8. 设计动机:防止不一致性——相同动作在不同控制点索引下应获得相同Q值
  9. 消融影响:去掉后 Hopper 3206→2330 (-27%)

  10. 多样性损失

  11. \(L_{\text{sep}}(\phi) = \frac{1}{N(N-1)} \sum_{i \neq j} \frac{1}{\|\hat{a}_i(s)-\hat{a}_j(s)\|_2+\varepsilon}\)
  12. 防止控制点聚集到动作空间边界,确保均匀覆盖
  13. 最关键组件:去掉后 3206→1921 (-40%)

  14. 相关性过滤 (Top-k):只使用距离最近的 k 个控制点权重,去除远处点的虚假影响

  15. 尺度感知归一化:Q值归一化到 [0,1] 进行权重计算,指数退火平滑因子 \(c_i\),处理跨任务奖励尺度差异

训练策略

基于 TD3 框架:双Q网络 + 目标网络 + 高斯探索噪声 + 延迟更新。但不需要 actor 网络和策略梯度。

实验关键数据

标准 MuJoCo 环境

环境 Q3C TD3 NAF RBF-DQN
Hopper-v4 3206±407 3113±888 ~1500 ~2000
HalfCheetah-v4 9469±949 9985±1077 - -
Walker2d-v4 3828±1282 4124±925 - -
Ant-v4 3698±1314 5167±673 - -

受限动作空间(关键优势)

环境 Q3C TD3 Wire-Fitting
InvertedPendulumBox 1000±0 782±348 958±84
HopperBox 1974±1170 1406±1162 169±812
HalfCheetahBox 4357±1503 2276±2036 -90±147

TD3 的 actor 梯度在受限动作空间中被非凸 Q 景观困住;Q3C 通过直接比较控制点 Q 值避免局部最优。

消融实验要点

  • CondQ:去掉后3206→2329
  • 多样性损失:去掉后2329→1921
  • 控制点排序:去掉后3206→3036
  • 归一化:去掉后3206→2915
  • 每个组件都必要;最弱消融仍优于vanilla wire-fitting(1987)

亮点

  • 复活了控制点插值方法:通过4项关键改进解决了经典wire-fitting的缺陷
  • 无actor设计:天然适合受限动作空间,无需投影或裁剪违反约束的动作
  • actor-critic失败时的解决方案:在非凸Q函数景观中,梯度方法失败但Q3C成功
  • 高维兼容:26维动作空间上表现良好

局限性 / 可改进方向

  • 在某些标准环境中采样效率低于actor-critic
  • 探索策略继承自TD3的噪声方案,不确定性驱动的探索可能更好
  • 工程优化空间(插值计算开销)
  • 扩展方向:离线RL、随机策略

与相关工作的对比

  • vs TD3/SAC:在标准环境持平,在受限环境显著优越
  • vs NAF:NAF使用二次Q函数,表达力受限;Q3C用控制点插值逼近任意形状
  • vs RBF-DQN:径向基函数方法,Q3C的条件Q值和多样性损失带来额外优势

启发与关联

  • 在动作约束是自然存在的领域(机器人关节限制、安全RL),Q3C比actor-critic更合适
  • 控制点插值的思想可能推广到其他函数逼近场景

评分

  • 新颖性: ⭐⭐⭐⭐ 控制点插值的现代化改造,4项创新组件
  • 实验充分度: ⭐⭐⭐⭐ 标准+受限环境、高维、详细消融
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,消融设计好
  • 价值: ⭐⭐⭐⭐ 为连续控制RL提供了actor-critic之外的可行替代