Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments¶

会议: ICLR 2026
arXiv: 2512.00915
代码: 项目页面
领域: 强化学习/等变性
关键词: 部分等变性, 对称性破缺, 群不变MDP, 门控策略, Bellman误差传播

一句话总结¶

提出部分群不变MDP (PI-MDP) 框架，通过可学习的门控函数 \(\lambda(s,a)\) 在状态-动作空间中逐点切换等变与标准Bellman更新，从理论上证明局部对称性破缺会经过折扣回溯放大 \(1/(1-\gamma)\) 倍产生全局值函数误差，而PI-MDP可将误差严格限制在破缺区域内；实例化为PE-DQN和PE-SAC两种算法，在Grid-World、MuJoCo运动、机械臂操作等任务上全面超越严格等变和近似等变基线。

研究背景与动机¶

领域现状：群等变性为强化学习提供了强大的归纳偏置——通过构建群不变MDP（要求奖励函数 \(R(s,a)=R(gs,ga)\) 和转移核 \(P(s'|s,a)=P(gs'|gs,ga)\) 对群 \(G\) 的所有元素 \(g\) 成立），等变网络可以在对称状态之间实现零样本泛化，大幅提升样本效率。现有的等变RL工作（如EMLP-based RPP、等变DQN等）都建立在环境完全满足群不变假设的前提上。

现有痛点：真实世界的控制任务几乎不可能完全满足群不变条件。以机器人控制为例，地面接触力破坏了上下对称、执行器力矩限制破坏了关节对称、障碍物的存在破坏了空间旋转对称。关键问题在于：即使对称性只在状态-动作空间的某个局部区域被打破，传统等变RL也会在该区域产生错误的值估计，而这个局部误差会通过Bellman回溯在整个空间中传播和放大，最终导致全局策略退化甚至训练失败。

核心矛盾：严格等变方法在破缺区域引入不可控误差；而现有的近似等变方法（如RPP通过残差路径全局松弛等变约束）虽然提供了一定的鲁棒性，但"全局均匀松弛"的策略要么在完全对称区域损失了采样效率，要么在破缺严重时仍然不稳定——因为它无法区分"哪里对称、哪里不对称"。

本文目标 (1) 量化局部对称性破缺如何通过Bellman算子传播为全局值函数误差；(2) 设计一种可以在状态-动作空间中逐点选择"用等变还是用标准"更新的框架；(3) 无需先验知识，数据驱动地自动检测对称性破缺区域。

切入角度：作者观察到群不变MDP \(\mathcal{M}_E\) 和真实MDP \(\mathcal{M}_N\) 的偏差可以用逐点奖励偏差 \(\epsilon_R(s,a)\) 和转移偏差 \(\epsilon_P(s,a)\) 精确描述。如果能在 \(\epsilon>0\) 的区域回退到标准更新，就能从源头阻断误差传播。

核心 idea：用一个可学习的二值门控函数 \(\lambda(s,a)\) 在每个状态-动作对上自动选择等变或标准Bellman更新，在保持对称区域采样效率的同时令破缺区域的误差不再向外传播。

方法详解¶

整体框架¶

PERL（Partially Equivariant RL）的整体流程是：维护两套并行的值函数/策略网络——一套是满足群等变约束的 \((Q_E, \pi_E)\)，一套是无约束的标准网络 \((Q_N, \pi_N)\)；同时训练一个门控函数 \(\lambda_\omega(s,a) \in \{0,1\}\) 来判断每个状态-动作对是否处于对称性破缺区域。最终的Q值和策略通过 \(\lambda\) 在两套网络之间做硬切换：对称区域用等变网络，破缺区域用标准网络。整个训练在真实环境 \(\mathcal{M}_N\) 中进行，门控函数通过两个one-step预测器的分歧来提供监督信号。

关键设计¶

局部→全局误差传播的理论分析:
- 功能：为"为什么需要选择性等变"提供理论基础
- 核心思路：定义真实MDP与群不变MDP之间的逐点偏差 \(\epsilon_R(s,a) = |R_N(s,a) - R_E(s,a)|\) 和 \(\epsilon_P(s,a) = \frac{1}{2}\int|P_N(s'|s,a) - P_E(s'|s,a)|ds'\)。Lemma 1证明单步Bellman误差 \(\leq \epsilon_R(s,a) + 2\gamma V_{\max}\epsilon_P(s,a)\)。Proposition 1进一步证明最优值函数的全局误差 \(\|Q_N^* - Q_E^*\|_\infty \leq \frac{1}{1-\gamma}\|\delta\|_\infty\)，即局部误差被折扣因子放大了 \((1-\gamma)^{-1}\) 倍后影响全局
- 设计动机：这个理论结果清楚地说明了严格等变RL在破缺环境中失败的根本原因——不是等变性本身不好，而是局部的MDP不匹配通过Bellman回溯被放大成了全局性问题
部分群不变MDP (PI-MDP) 框架:
- 功能：在MDP层面形式化"选择性等变"的概念
- 核心思路：引入门控函数 \(\lambda: \mathcal{S}\times\mathcal{A} \to [0,1]\)，定义混合的奖励 \(R_H = (1-\lambda)R_E + \lambda R_N\) 和转移核 \(P_H = (1-\lambda)P_E + \lambda P_N\)。Theorem 1证明PI-MDP的Bellman算子 \(\mathcal{T}_H\) 满足仿射分解（等变算子和标准算子的凸组合），且仍是 \(\gamma\)-收缩映射，因此有唯一不动点。Corollary 1给出关键界：\(\|Q_H^* - Q_N^*\|_\infty \leq \frac{1}{1-\gamma}\|(1-\lambda)\delta\|_\infty\)，当 \(\lambda\) 在破缺区域取1时该界为零
- 设计动机：将"哪里用等变、哪里用标准"从直觉提升为有严格理论保证的MDP框架；凸组合保持MDP合法性，\(\gamma\)-收缩保证收敛，误差界给出了 \(\lambda\) 应该怎样设计的指导
基于预测器分歧的对称性破缺检测:
- 功能：无需先验知识，自动判断每个 \((s,a)\) 是否处于对称性破缺区域
- 核心思路：训练两个one-step预测器——等变预测器 \(\hat{P}_E\) 受群约束，标准预测器 \(\hat{P}_N\) 无约束。在对称区域两者预测一致（分歧小），在破缺区域 \(\hat{P}_E\) 只能表示群平均的代理动力学，而 \(\hat{P}_N\) 能逼近真实动力学，因此分歧大。计算分歧分数 \(d(s,a) = D(\hat{P}_E, \hat{P}_N)\)，将高分歧样本视为异常值（上尾分布），生成伪标签 \(y \in \{0,1\}\)，用二元交叉熵损失训练门控网络 \(\lambda_\omega\)。门控网络在RL更新时frozen，不接收RL梯度
- 设计动机：直接测量 \(\epsilon_R, \epsilon_P\) 需要知道群不变MDP（通常不可得），而预测器分歧提供了一个间接但实用的代理信号；异常值检测避免了设置硬阈值

损失函数 / 训练策略¶

Critic损失：门控混合Q值 \(Q_\theta(s,a) = (1-\lambda_\omega)Q_{E,\theta}(s,a) + \lambda_\omega Q_{N,\theta}(s,a)\)，用标准TD目标训练（DQN用hard max，SAC用soft max）。\(\lambda_\omega\) 在计算TD目标时stop-gradient处理。

Actor损失（SAC版）：引入状态级门控 \(\lambda_\zeta(s)\)，策略采用乘积专家(PoE)形式 \(\pi_\phi \propto \pi_E^{1-\lambda_\zeta} \cdot \pi_N^{\lambda_\zeta}\)。\(\lambda_\zeta\) 通过expectile回归从 \(\lambda_\omega(s,a)\) 聚合而来——使用 \(\tau \to 1\) 的expectile损失逼近 \(\max_a \lambda_\omega(s,a)\)，确保只要某个动作在该状态下触发了破缺信号，整个策略就切换到标准模式（保守策略）。

预测器损失：\(\hat{P}_E\) 和 \(\hat{P}_N\) 分别用等变/标准网络拟合one-step转移，可选地加上奖励预测头 \(\hat{R}_i(s,a)\) 用于检测奖励层面的对称性破缺。

整体训练循环：每步先采集数据→更新预测器→计算分歧→更新门控→更新critic→更新actor→soft更新target网络。各组件（critic、actor、预测器、门控）使用独立trunk以保证训练稳定性。

实验关键数据¶

主实验：Grid-World离散控制（\(C_4\)旋转对称 + 障碍物破缺）¶

方法	0障碍物	10障碍物	20障碍物	30障碍物	40障碍物
Vanilla DQN	中等	中等	中等	中等	中等
Equivariant DQN	最高	快速下降	大幅退化	严重退化	接近失败
RPP-DQN (近似等变)	高	略高于Vanilla	略高于Vanilla	略高于Vanilla	略高于Vanilla
Approx. Equivariant DQN	高	略高于Vanilla	略高于Vanilla	中等	中等
PE-DQN	最高	最高	最高	最高	最高

随着障碍物增加，PE-DQN与第二名的差距持续扩大，验证了"破缺越严重→选择性等变越重要"的理论预测。

主实验：连续控制（MuJoCo + 机械臂）¶

环境	SAC	Equi-SAC	RPP-SAC	Approx-SAC	PE-SAC	对称破缺来源
Hopper	中等	中等	中等	中等	最高学习速度	地面接触
Ant	中等	中等	中等	中等	最高（效率+最终性能）	腿部非对称力矩
Swimmer	中等	最高	高	高	接近最高	几乎无破缺
Fetch Reach	中等	高	高	高	最高	地面约束
UR5e Reach	中等	不稳定/崩溃	不稳定	不稳定	最高且稳定	动力学+自由朝向

在UR5e Reach任务中效果最为显著：严格等变和近似等变SAC因真实机械臂动力学导致的大量对称性破缺而不稳定甚至崩溃，PE-SAC是唯一保持稳定高性能的方法。

消融实验¶

配置	Grid-World (30obs)	说明
PE-DQN (完整)	最高	硬门控 + 预测器分歧
软门控 (\(\lambda \in [0,1]\))	下降	训练不如硬门控稳定
共享trunk (critic)	略降	有时影响稳定性
共享trunk (actor)	下降	等变/标准网络相互干扰
去掉奖励头 (仅转移分歧)	奖励破缺场景下降	无法检测纯奖励层面的破缺
采样max (\(K=4\)) 替代 \(\lambda_\zeta\)	接近完整	轻量替代，在稀疏破缺时稍弱
采样max (\(K=8\)) 替代 \(\lambda_\zeta\)	接近完整	与学习的状态门控相当

关键发现¶

破缺程度-性能曲线：在Grid-World中系统地增加障碍物数量（0→40），PE-DQN的相对优势随破缺增大而单调增强。在完全对称环境中，\(\lambda\) 快速收敛到约0（纯等变模式），性能与严格等变DQN持平，不存在额外开销导致的性能损失
门控可视化：学习到的 \(\lambda\) 在Grid-World中与障碍物位置高度吻合——在远离障碍物的开阔区域 \(\lambda \approx 0\)（使用等变），在障碍物附近 \(\lambda = 1\)（使用标准），验证了检测机制的有效性
硬门控优于软门控：实验表明 \(\lambda \in \{0,1\}\) 的硬切换比 \(\lambda \in [0,1]\) 的软插值训练更稳定，原因可能是软门控引入了梯度耦合导致两套网络相互干扰
复杂动力学鲁棒性：在40障碍物+随机转移的Grid-World变体中，PE-DQN仍保持最优性能，说明预测器分歧检测在噪声动力学下依然有效
奖励层面破缺：在"部分障碍物可通过但产生负奖励"的变体中，加入奖励预测头的PE-DQN依然最优，能同时处理转移和奖励两个层面的对称性破缺

亮点与洞察¶

误差传播理论填补了认知空白：之前人们只是经验性地发现等变RL在真实环境中效果不稳定，本文首次严格证明了"局部对称性破缺→经Bellman回溯放大 \((1-\gamma)^{-1}\) 倍→全局值函数偏差"的传播机制。这个理论不仅解释了现象，还精确指出了解决方向——必须在局部层面阻断误差
门控设计兼顾理论和实用：PI-MDP的凸组合形式保证了MDP合法性和收缩性，而Corollary 1的误差界直接告诉我们 \(\lambda\) 应该在破缺区域取1——理论与算法设计之间的对应非常紧密。实际使用中不需要知道真实的 \(\epsilon_R, \epsilon_P\)，预测器分歧提供了可行的代理信号
可迁移的"选择性归纳偏置"范式：这个"在需要时应用先验、不需要时放松"的思路不仅限于等变性。任何利用结构性先验（如稀疏性、平滑性、因果结构）的方法，在先验部分失效的场景中，都可以借鉴这种门控切换思路

局限与展望¶

计算开销：需要维护双份网络（等变+标准）以及额外的预测器和门控网络，训练时间约为标准RL的2-3倍。对于参数量本就很大的任务（如高维视觉输入），这一开销可能难以接受
普遍破缺时退化：当对称性在整个空间中都被严重打破时（如强重力场下的全方向运动），\(\lambda\) 几乎处处为1，框架退化为标准RL，等变性带来的收益消失，但仍有额外的架构开销
仅支持状态级输入：目前的等变网络（基于EMLP）工作在状态向量上，尚未扩展到视觉观测（图像/点云）；将PI-MDP推广到视觉RL是作者提到的主要未来方向
门控精度依赖预测器质量：分歧检测的准确性取决于两个预测器的拟合质量。在高维复杂动力学中，预测器本身可能不够准确，导致门控信号有噪声。可以考虑集成多个预测器或使用更强的世界模型来提升检测可靠性

评分¶

新颖性: ⭐⭐⭐⭐⭐ PI-MDP框架+误差传播理论+门控检测机制三位一体，理论-算法-实验链条完整
实验充分度: ⭐⭐⭐⭐ 离散/连续/操作三大类任务覆盖面广，系统性破缺程度分析有说服力，但缺少视觉输入和真实机器人实验
写作质量: ⭐⭐⭐⭐⭐ 从理论到算法的推导逻辑清晰，定理-推论-算法的层次结构组织得很好
价值: ⭐⭐⭐⭐⭐ 对等变RL落地现实场景具有根本性推动作用，"选择性归纳偏置"的范式具有广泛迁移潜力