References Improve LLM Alignment in Non-Verifiable Domains¶

会议: ICLR 2026
arXiv: 2602.16802

领域: LLM对齐/评估
关键词: 参考引导评估, 非可验证域, LLM-as-Judge, 自改进, DPO

一句话总结¶

提出参考引导的LLM-as-Judge方法(RefEval)，用高质量参考输出作为"软验证器"，使LLM-judge准确率提升6.8%；进而构建两阶段自改进流程(SFT蒸馏+参考引导DPO)，在AlpacaEval/Arena-Hard上分别超过SFT蒸馏+19.2/+16.5，匹配微调奖励模型ArmoRM的性能，证明无需人类偏好标注即可实现非可验证域的高效LLM对齐。

研究背景与动机¶

RLVR的局限：强化学习+可验证奖励(RLVR)在推理任务(数学/代码)上效果显著，但对齐任务(指令跟随/摘要/创意写作)缺少ground-truth验证器，无法直接应用RLVR。

RLHF/RLAIF的代价：当前对齐后训练依赖RLHF或RLAIF，需要训练专门的奖励模型(RM)或使用LLM-as-Judge，前者需要大量人类偏好标注，后者存在位置偏见和冗长偏见，准确度有限。

参考输出的可获得性：虽然偏好标注成本高，但高质量参考输出往往可以廉价获取——例如用前沿LLM生成(60K条DeepSeek-V3参考仅需约40美元)，这是一个未被充分利用的信号源。

Naive使用参考效果差：已有工作(LLMBar、HREF)尝试将参考拼入prompt，但未明确指导judge如何使用参考，仅带来微弱改善——说明需要精心设计的prompting策略。

自改进的潜力：如果能用参考引导LLM自己做judge提供偏好信号，就无需外部人类/AI反馈，实现"半自改进"——这将显著降低对齐训练的数据和标注需求。

核心研究问题：参考引导的LLM评估器能否作为软验证器，支持无外部监督的LLM对齐RL？ 论文从评估和训练两个维度系统回答。

方法详解¶

3.1 参考引导LLM评估 (RefEval & RefMatch)¶

核心思路：设计专门的prompting策略，明确指导LLM-judge如何利用参考输出进行pairwise比较。

RefEval：指示judge评估哪个候选输出与参考的质量和内容更一致，同时仍需回应原始指令。不是简单语义匹配，而是让参考作为质量标杆。
RefMatch：更强调参考的角色——指示judge作为"语义和风格匹配器"，判断哪个输出与参考更相似。明确指令："Your goal is to determine which output demonstrates closer similarity to the reference."
Ref-Free (Ours)：无参考基线，指示模型沿指令跟随质量、事实性、冗长度等方面进行评估。

3.2 两阶段自改进训练流程¶

阶段1: SFT蒸馏

在高质量参考输出上做监督微调。论文发现这优于直接从base模型做偏好优化。

阶段2: 参考引导DPO

DPO损失函数：

\[\mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]\]

其中偏好对 $(y_w, y_l)$ 的标注由参考引导的自LLM-judge完成： - 对每条指令采样5个候选输出(温度0.8) - 所有 $\binom{5}{2}=10$ 对进行pairwise比较→计算平均质量分→选最好和最差构成训练对 - 60K条指令→共600K次pairwise判断

关键设计选择¶

On-policy数据生成：候选输出由待微调模型自身生成，而非其他模型，此前研究证明这更有效。
参考来源：DeepSeek-V3生成，成本仅约40美元(60K条)。
先SFT再DPO：论文消融证明直接DPO不如先SFT蒸馏再DPO。
位置偏见缓解：所有pairwise评估取两次交换顺序的平均准确率。

实验结果¶

表1: LLM-Judge评估准确率(11个开源模型×5个数据集平均)¶

方法	Natural	Adversarial	MTBench	InstruSum	HREF	平均
LLMBar-Base	83.1	61.7	74.6	70.2	72.0	72.3
CoT	82.0	60.1	75.4	69.1	69.6	71.2
HREF-Ref	85.3	62.3	76.5	70.8	79.2	74.8
RefMatch	84.6	74.1	76.3	72.9	80.4	77.7
RefEval	86.8	74.9	76.7	74.5	82.7	79.1

→ RefEval比无参考基线LLMBar-Base高+6.8%，比已有参考方法HREF-Ref高+4.3%。

表2: 自改进训练结果(AlpacaEval / Arena-Hard)¶

方法	Llama-3 AE	Llama-3 AH	Qwen2.5 AE	Qwen2.5 AH
Base	25.0	27.1	14.4	23.4
DSV3-Distill (SFT)	53.9	42.2	48.8	56.5
ROUGE	56.4	52.1	50.9	67.4
BERTScore	58.8	53.0	55.3	64.5
RefFree	67.5	53.8	65.1	71.8
ArmoRM (微调RM)	73.9	58.6	66.8	72.2
RefEval	73.1	58.7	70.0	74.1

→ RefEval匹配甚至超越ArmoRM，但无需训练单独奖励模型。

表3: 参考质量消融(Llama-3-8B)¶

参考来源	Distill AE	RefFree AE	RefEval AE	RefEval AH
DeepSeek-V3 (强)	53.9	67.5	73.1	58.7
GPT-4o-mini (弱)	28.7	42.6	44.4	58.3

→ 弱参考下RefEval仍优于RefFree(+1.8/+16.6)，参考引导机制本身有结构性优势。

关键发现¶

小模型受益最大：Llama-3-8b用RefEval比LLMBar-Base提升+17.4%，强模型qwen-2.5-72b提升+5.2%——参考弥补了小模型的知识不足。
Inter-judge一致性提高：RefEval使不同judge之间的平均一致率从76.6%提升至81.4%——参考提供了共享的决策锚点，减少了判断方差。
SFT蒸馏>直接DPO：在高质量参考上SFT优于直接用ArmoRM的DPO(53.9 vs 49.2 AlpacaEval)——说明好参考本身就是强信号。
Coding&Math受益最大：按任务类别分析，参考引导在Coding&Math上改善最显著；创意任务上改善因模型而异——结构化任务更容易被参考锚定。
前沿judge也可增强：GPT-4o用人类编辑的Oracle参考在LLMBar-Adversarial上仍有提升——说明人类参考的信息量大于最强LLM。

亮点与创新¶

"参考=软验证器"的概念迁移：将RLVR的核心优势(有参考答案做验证)巧妙迁移到非可验证域，概念简洁但意义深远。
系统性大规模实验：11个judge × 5个数据集 × 2个基座模型 × 多种消融——实验覆盖度远超同类工作，可信度高。
prompt设计的工程洞察：证明"如何告诉judge使用参考"比"是否提供参考"更关键——简单拼接 vs 精心指导差距达4-5个百分点。
实用性强：60K参考仅需$40(DeepSeek-V3)→自改进无需人类标注→性能匹配微调RM→大幅降低对齐训练门槛。

局限性¶

参考质量依赖：方法效果与参考来源的质量强相关；弱参考(GPT-4o-mini)虽仍有收益，但显著低于强参考(DeepSeek-V3)——在缺乏前沿模型生成参考的场景下效果存疑。
仅验证了通用对齐任务：评估限于AlpacaEval/Arena-Hard等通用指令跟随基准，未测试医学/法律等需要领域专业知识的专业场景。
pairwise比较计算成本高：每条指令需要 $\binom{5}{2}=10$ 次pairwise比较，60K条指令共600K次judge调用——虽然用自身模型做judge，但推理成本不可忽视。
半自改进而非完全自改进：仍依赖外部前沿模型提供参考输出——不是真正的"自力更生"，更准确地说是"带外部参考的自评估"。
单轮训练：仅实验了一轮SFT+DPO，未探索迭代自改进(多轮SFT→DPO循环)是否能进一步提升。

评分¶

新颖性: ⭐⭐⭐⭐ 参考引导评估→自改进训练的系统链路是新的，但单个组件(LLM-judge/DPO/蒸馏)均为已有技术。
实验充分度: ⭐⭐⭐⭐⭐ 11个judge×5基准+两个基座模型+参考质量消融+任务类别分析+统计显著性检验——非常全面。
写作质量: ⭐⭐⭐⭐⭐ 动机链条清晰(RLVR→gap→参考引导→评估→训练)，实验逻辑层层递进，结论不过度外推。
实用价值: ⭐⭐⭐⭐⭐ $40参考+自改进=匹配微调RM——对资源有限的团队做LLM对齐具有直接指导意义。