Actor-Free Continuous Control via Structurally Maximizable Q-Functions¶

会议: NeurIPS 2025
arXiv: 2510.18828
代码: GitHub
领域: 强化学习 / 连续控制
关键词: actor-free RL, Q-learning, control-point interpolation, wire-fitting, continuous action space

一句话总结¶

提出Q3C（Q-learning for Continuous Control with Control-points），一种无actor的纯基于值函数的连续控制方法，通过控制点插值逼近任意形状的Q函数，在复杂（非凸、受限）Q函数景观中显著优于actor-critic方法。

背景与动机¶

连续动作空间中的RL通常依赖actor-critic架构，但actor的梯度优化在非凸Q函数景观和受限动作空间中容易失败——梯度会陷入局部最优或违反约束。传统value-based方法（如NAF）使用二次函数逼近Q值，表达力不足。CEM等采样方法计算开销大。需要一种既能处理任意Q函数形状又不需要actor的方法。

核心问题¶

如何设计一个无需显式actor网络、能在连续动作空间中直接最大化Q值的RL方法，同时处理复杂Q函数景观和动作约束？

方法详解¶

整体框架¶

用一组可学习的"控制点"在动作空间中插值，构建可直接最大化的Q函数。不需要actor网络——动作直接从Q函数的最大值点获得。

关键设计¶

控制点插值（Wire-Fitting）：
核心公式：\(Q(s,a) = \frac{\sum_i \hat{Q}_i(s) w_i(s,a)}{\sum_i w_i(s,a)}\)
权重：\(w_i(s,a) = \frac{1}{|a-\hat{a}_i(s)|^2 + c_i(\hat{Q}_{\max}-\hat{Q}_i(s))}\)
数学保证：Q函数的最大值必然出现在某个控制点上 → \(\arg\max_a Q(s,a) = \hat{a}_j\), \(j = \arg\max_i \hat{Q}_i\)
这使得连续动作空间的 argmax 变成了离散比较操作，完全避免了梯度优化
条件Q值生成 (CondQ)：
两阶段架构：控制点生成器 \(g_\phi(s)\) → 以控制点位置为条件的 Q 估计器 \(h_\psi(s, \hat{a}_i)\)
设计动机：防止不一致性——相同动作在不同控制点索引下应获得相同Q值
消融影响：去掉后 Hopper 3206→2330 (-27%)
多样性损失：
\(L_{\text{sep}}(\phi) = \frac{1}{N(N-1)} \sum_{i \neq j} \frac{1}{\|\hat{a}_i(s)-\hat{a}_j(s)\|_2+\varepsilon}\)
防止控制点聚集到动作空间边界，确保均匀覆盖
最关键组件：去掉后 3206→1921 (-40%)
相关性过滤 (Top-k)：只使用距离最近的 k 个控制点权重，去除远处点的虚假影响
尺度感知归一化：Q值归一化到 [0,1] 进行权重计算，指数退火平滑因子 \(c_i\)，处理跨任务奖励尺度差异

训练策略¶

基于 TD3 框架：双Q网络 + 目标网络 + 高斯探索噪声 + 延迟更新。但不需要 actor 网络和策略梯度。

实验关键数据¶

标准 MuJoCo 环境¶

环境	Q3C	TD3	NAF	RBF-DQN
Hopper-v4	3206±407	3113±888	~1500	~2000
HalfCheetah-v4	9469±949	9985±1077	-	-
Walker2d-v4	3828±1282	4124±925	-	-
Ant-v4	3698±1314	5167±673	-	-

受限动作空间（关键优势）¶

环境	Q3C	TD3	Wire-Fitting
InvertedPendulumBox	1000±0	782±348	958±84
HopperBox	1974±1170	1406±1162	169±812
HalfCheetahBox	4357±1503	2276±2036	-90±147

TD3 的 actor 梯度在受限动作空间中被非凸 Q 景观困住；Q3C 通过直接比较控制点 Q 值避免局部最优。

消融实验要点¶

CondQ：去掉后3206→2329
多样性损失：去掉后2329→1921
控制点排序：去掉后3206→3036
归一化：去掉后3206→2915
每个组件都必要；最弱消融仍优于vanilla wire-fitting(1987)

亮点¶

复活了控制点插值方法：通过4项关键改进解决了经典wire-fitting的缺陷
无actor设计：天然适合受限动作空间，无需投影或裁剪违反约束的动作
actor-critic失败时的解决方案：在非凸Q函数景观中，梯度方法失败但Q3C成功
高维兼容：26维动作空间上表现良好

局限性 / 可改进方向¶

在某些标准环境中采样效率低于actor-critic
探索策略继承自TD3的噪声方案，不确定性驱动的探索可能更好
工程优化空间（插值计算开销）
扩展方向：离线RL、随机策略

与相关工作的对比¶

vs TD3/SAC：在标准环境持平，在受限环境显著优越
vs NAF：NAF使用二次Q函数，表达力受限；Q3C用控制点插值逼近任意形状
vs RBF-DQN：径向基函数方法，Q3C的条件Q值和多样性损失带来额外优势

启发与关联¶

在动作约束是自然存在的领域（机器人关节限制、安全RL），Q3C比actor-critic更合适
控制点插值的思想可能推广到其他函数逼近场景

评分¶

新颖性: ⭐⭐⭐⭐ 控制点插值的现代化改造，4项创新组件
实验充分度: ⭐⭐⭐⭐ 标准+受限环境、高维、详细消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，消融设计好
价值: ⭐⭐⭐⭐ 为连续控制RL提供了actor-critic之外的可行替代