SERL: Self-Examining Reinforcement Learning on Open-Domain¶

会议: AAAI 2026
arXiv: 2511.07922
代码: GitHub
领域: LLM推理 / 自我改进
关键词: 自我改进, 强化学习, 成对比较, Copeland方法, 无外部奖励

一句话总结¶

提出SERL自我改进框架，LLM同时作为Actor（生成者）和Judge（评估者），用Copeland成对比较方法从自身判断中推导奖励信号，无需外部奖励模型或人工标注，使Qwen3-8B在AlpacaEval 2.0上从52.37%提升到59.90%（+7.53%），接近Qwen3-32B水平。

训练流程：对每个输入，Actor采样N个候选回复→Judge对所有回复对进行成对比较→Copeland聚合为双奖励→GRPO在线更新。

Copeland奖励推导（Actor奖励 \(\mathcal{R}_A\)）：
对每个输入采样N个候选回复，对所有 \(\binom{N}{2}\) 组合进行成对比较
每组比较采样K个独立判断，通过Copeland方法聚合为胜率排名
\(\mathcal{R}_A(G_n) = \sum_{i\neq j,k} \mathbf{1}(G_n = G^{Win}_{(i,j),k}) / (M \times K)\)
胜率直接反映回复在组内的相对质量排名，比逐条打分更鲁棒
Judge一致性奖励（\(\mathcal{R}_J\)）：
衡量单个成对判断与全局Copeland排序的一致性
\(\mathcal{R}_J(J_{(i,j),k}) = \text{sign}(\mathcal{R}_A(G^{Win}) - \mathcal{R}_A(G^{Lose}))\)
一致判断得+1、矛盾判断得-1，迫使Judge学习更连贯的评估标准
位置偏差缓解机制（PBMM）：
K次比较中一半以 \((q, G_i, G_j)\) 顺序呈现，另一半以 \((q, G_j, G_i)\) 呈现
消除LLM-as-Judge中常见的位置偏好（倾向选择靠前或靠后的回复）
长度控制模块（LCM）：
引入长度比例权重 \(\beta = |G^{Lose}|/|G^{Win}|\)，较短回复获胜时获更高奖励
通过超参数 \(\alpha=0.2\) 限制只比较长度相近的回复对
防止模型学习"越长越好"的虚假策略

基于GRPO框架，去掉KL惩罚项（开放域训练中模型分布偏移大，KL约束过强限制探索）
Actor和Judge的优势值均通过组内归一化计算：\(\hat{A}^{Actor} = (\mathcal{R}_A - \text{mean}) / \text{std}\)
联合优化目标 \(\mathcal{J}_{SERL} = \mathcal{J}_{Actor} + \mathcal{J}_{Judge}\)，每步同时更新生成和评估能力

方法	LC Win Rate	Win Rate	平均长度
Online-DPO	54.07%	59.74%	3429
Self-Rewarding	51.29%	53.69%	3074
Meta-Rewarding	54.73%	55.93%	3081
RLSC	52.11%	51.81%	2060
SERL(Ours)	59.90%	69.88%	3017

无外部依赖的真正自我改进：不需要奖励模型、不需要人工标注、不需要更强的LLM做评估——完全自我驱动的闭环训练。这解决了RLHF/RLAIF的核心瓶颈（外部依赖）
Copeland方法的引入创造性地解决了LLM自评中的偏好循环问题：投票理论中的Condorcet方法天然具有防操纵保证，将其引入LLM对齐是跨学科的巧妙迁移
Actor+Judge联合优化形成正反馈循环：更好的Judge产生更准确的奖励信号→训练出更好的Actor→更好的Actor生成更高质量的回复→为Judge提供更有区分度的比较样本→Judge进一步提升
位置偏差缓解机制(PBMM)和长度控制模块(LCM)是工程上的重要细节：前者通过交换回复位置消除LLM-as-Judge的位置偏差，后者通过长度比例加权 \(\beta = |G^{Lose}|/|G^{Win}|\) 防止模型偏向更长回复