M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization¶

会议: NeurIPS 2025
arXiv: 2512.13070
代码: https://github.com/M_GRPO
领域: LLM推理
关键词: 自监督强化学习, 策略崩溃, 动量锚定, GRPO, 熵过滤, 伪标签

一句话总结¶

针对自监督强化学习（SS-RLVR）在长期训练中普遍出现的"策略崩溃"问题，提出 M-GRPO：通过动量模型提供稳定的伪标签目标 + 基于四分位距（IQR）的低熵轨迹过滤防止熵崩溃，在无标注 MATH 数据集上训练 Qwen3-4B-Base，最终 checkpoint 即超越 SRT 手动选取的最佳 checkpoint，AIME24 +2.92%、GPQA +5.05%。

研究背景与动机¶

领域现状：基于可验证奖励的强化学习（RLVR）是 LLM 后训练的核心手段，但依赖昂贵的人工标注数据和奖励模型基础设施。近期自监督 RLVR（SS-RLVR）方法（如 SRT、Intuitor、TTRL、CoReward）尝试通过模型自身的一致性信号（如 majority voting）构造伪奖励，免去真实标签。
现有痛点：
- 策略崩溃：作者复现 SRT 和 Intuitor 在 MATH 数据集上的自监督训练，发现训练奖励先升后骤降或渐降，验证集准确率同步退化——这是所有 SS-RLVR 方法的共性失败模式
- 扩大 rollout 数量只能延缓崩溃：将 rollout 数从 16 增大到 128 虽能提高峰值性能，但崩溃仍不可避免，只是延后发生
- 熵崩溃：训练初期策略熵急剧下降，导致模型过早自信、锁死在次优策略上
核心矛盾：自监督 RL 中伪标签来源于当前策略模型自身——策略快速变化导致伪标签不稳定，不稳定的伪标签又反过来加剧策略漂移，形成恶性循环。
本文要解决什么？ 打破"快速变化策略 → 不稳定伪标签 → 策略崩溃"的恶性循环，同时防止伴随的熵崩溃。
切入角度：从自监督视觉表示学习的动量对比（MoCo）获得灵感——用一个缓慢演化的动量模型作为稳定锚点。
核心 idea：双模型框架：当前策略模型 \(\pi_{\theta_q}\) 用于训练更新，动量模型 \(\pi_{\theta_k}\)（EMA 参数）提供稳定的 rollout，两者的输出共同投票生成伪标签；同时用 IQR 方法自适应过滤低熵轨迹保持探索多样性。

方法详解¶

整体框架¶

基于 GRPO（Group Relative Policy Optimization）改造。引入动量模型 \(\pi_{\theta_k}\)，其参数是当前策略 \(\pi_{\theta_q}\) 的指数移动平均。每个 prompt 同时从两个模型采样 rollout，汇总后 majority voting 得到伪标签，再用 GRPO 目标更新当前策略。

关键设计¶

动量锚定的自监督 RL（M-GRPO）
- 做什么：引入动量模型 \(\pi_{\theta_k}\) 参与伪标签生成，稳定训练目标
- 核心思路：
- 每个 prompt \(x\)，当前策略采样 \(M\) 个 rollout \(\{y_i^q\}\)，动量模型采样 \(N\) 个 rollout \(\{y_j^k\}\)，汇总为 \(G = M + N\) 个候选
- Majority voting 选出最高共识答案 \(y_v\) 作为伪真值
- 基于 \(y_v\) 为当前策略的 \(M\) 个 rollout 打二值奖励（一致=1，不一致=0）
- 按 GRPO 方式计算归一化优势函数 \(\hat{A}_i\) 并优化
- 动量更新规则：\(\pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1-m) \cdot \pi_{\theta_q}\)，\(m=0.99\)
- 设计动机：
- 动量模型演化缓慢，提供的 rollout 具有时间一致性，减少 majority voting 结果的波动
- 类比 MoCo 中动量编码器对对比学习的稳定作用
- 扩大了投票池的多样性（两个略微不同的策略视角），提高伪标签质量
基于 IQR 的轨迹熵过滤
- 做什么：自适应剔除低熵轨迹，防止策略过早收敛
- 核心思路：
- 对每个 prompt 的 \(G\) 条轨迹，计算各自的轨迹级熵
- 计算熵分布的 \(Q_1\)、\(Q_3\) 和 \(\text{IQR} = Q_3 - Q_1\)
- 将熵低于 \(Q_1 - k \cdot \text{IQR}\)（\(k=0.75\)）的轨迹标记为低熵异常值并剔除
- 仅用过滤后的轨迹参与 voting 和策略优化
- 设计动机：
- 低熵轨迹对应过度自信的策略输出，其伪标签质量差且会压制探索
- 比静态阈值（如固定去掉最低 10%）更灵活——训练初期大多数轨迹熵高，IQR 自动放宽；训练后期熵自然降低，IQR 自动收紧
- 保留高熵轨迹以维持策略多样性
训练流程整合
- 每轮迭代：采样 batch → 双模型 rollout → IQR 过滤 → majority voting → 计算优势 → 更新当前策略 → EMA 更新动量模型
- 动量模型的 rollout 数量 \(N = G/4\)（即当前模型贡献 3/4 的 rollout）

损失函数 / 训练策略¶

策略目标：\(\mathcal{J}(\theta_q) = \mathbb{E}\left[\sum_{i=1}^{M} \hat{A}_i \log \pi_{\theta_q}(y_i^q | x)\right]\)
KL 正则化系数：0.005
优化器：AdamW，学习率 \(10^{-6}\)，cosine warmup（0.1 ratio）
clip ratio：0.2
训练温度 1.1，评估温度 0.8
最大响应长度 3072

实验关键数据¶

主实验：Qwen3-4B-Base 在无标注 MATH 上训练¶

方法	MATH500	AIME24	AIME25	GPQA Dia	GPQA	LiveCode
原始模型	61.50%	0.83%	5.00%	34.41%	29.91%	9.61%
SRT_Best（手动选最优ckpt）	79.20%	12.50%	11.67%	38.26%	35.04%	19.69%
SRT_Final（最终ckpt）	47.50%	7.50%	8.75%	28.54%	25.89%	16.12%
M-GRPO+IQR_Final	79.75%	14.58%	14.17%	39.65%	35.49%	—

Rollout 缩放分析（M-GRPO+IQR）¶

G（rollout数）	MATH500	AIME24	AIME25	GPQA Dia	MMLU-pro	mbpp
8	77.60%	11.25%	10.42%	39.02%	56.05%	68.60%
16	79.75%	14.43%	10.00%	39.65%	57.05%	70.40%
32	79.75%	14.58%	14.17%	39.65%	55.47%	70.60%
256	79.50%	16.67%	14.17%	40.66%	55.08%	70.40%

关键发现¶

SRT 的策略崩溃是灾难性的：SRT_Final 在 MATH500 上从峰值 79.20% 跌至 47.50%，比原始模型（61.50%）还差——说明不受控的自监督训练会遗忘预训练能力
M-GRPO 彻底消除策略崩溃：最终 checkpoint 直接优于 SRT 手动挑选的最佳 checkpoint，无需人工干预
Rollout 缩放在 M-GRPO 中是稳定的：从 G=8 到 G=32 性能持续提升，但 G=256 后收益饱和，说明 M-GRPO 已充分利用 rollout 信息
IQR 过滤成功维持策略熵：对比 SRT 训练早期熵急剧下降，M-GRPO 的熵缓慢平稳下降，避免了过早收敛
跨任务泛化：仅在 MATH 上训练，但在 GPQA（科学推理）、AIME（竞赛数学）、LiveCode（代码）上均有提升

亮点与洞察¶

"策略崩溃"诊断深入且可复现：不仅指出问题存在，还通过系统性的 rollout 缩放实验揭示了"更多 rollout 延缓但不能阻止崩溃"的规律，为后续研究建立了清晰的 baseline
MoCo 到 RL 的类比精妙：自监督对比学习中动量编码器解决负样本一致性问题 → 自监督 RL 中动量策略解决伪标签一致性问题，跨领域迁移很自然
IQR 过滤的自适应性：相比静态阈值（如 EdgeGRPO），IQR 方法无需调超参即可适应训练过程中熵分布的动态变化，是一个简洁但有效的工程贡献
最终 checkpoint 即最优 checkpoint：消除了实际部署中"何时停止训练"的难题，显著降低了自监督 RL 的使用门槛

局限性 / 可改进方向¶

仅在 Qwen3-4B-Base 上验证，缺少更大规模模型（如 7B、14B 以上）的实验证据
动量系数 \(m=0.99\) 固定不变，自适应调整 \(m\)（如根据训练阶段或策略变化率动态调节）可能带来进一步提升
动量模型的 rollout 比例固定为 \(N = G/4\)，其最优比例可能随任务和模型规模变化
实验数据集仅限 MATH，未在其他自监督 RL 场景（如代码生成、对话优化）中验证方法的通用性
IQR 系数 \(k=0.75\) 的敏感性分析不足，缺少消融研究说明不同 \(k\) 值的影响
未与其他稳定训练方法（如 replay buffer、conservative policy update）进行对比
双模型架构引入额外的推理开销（动量模型需要额外采样 \(N\) 条轨迹），在资源受限场景下需要权衡

评分¶

新颖性: ⭐⭐⭐⭐ 将 MoCo 动量机制引入自监督 RL 是自然但有效的创新；IQR 过滤是较增量式的贡献
实验充分度: ⭐⭐⭐ 诊断性实验（崩溃复现、rollout 缩放）出色，但模型规模和数据集多样性不足
写作质量: ⭐⭐⭐⭐ 问题诊断清晰、方法动机充分，图表直观
价值: ⭐⭐⭐⭐ 为自监督 RL 训练的稳定性提供了原则性解决方案，有较好的实用意义