跳转至

📚 AI Paper Notes

ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences

ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences¶

会议: AAAI 2026
arXiv: 2505.17691
代码: https://github.com/yy0525/ELSPR
领域: LLM效率 / 评估
关键词: LLM评估, 非传递偏好, 锦标赛图, 数据清洗, 结构熵

一句话总结¶

ELSPR 将 LLM 评估器的成对偏好建模为锦标赛图，通过强连通分量 (SCC) 识别非传递偏好，提出归一化有向图结构熵指标，并基于图重构过滤有问题的训练数据——过滤后的评估器非传递性降低 13.8%、结构熵降低 0.088，且丢弃数据的人类一致性仅 34.4%（vs 保留数据 52.6%）。

研究背景与动机¶

领域现状：LLM 作为评判者 (LLM-as-judge) 广泛用于评估其他模型。成对比较是常用方式，但可能出现非传递偏好(A>B, B>C, C>A)。
现有痛点：(1) 非传递偏好破坏排名可靠性；(2) 现有头对头评估忽略了传递性约束；(3) 非传递性的根源——来自低质量/模糊训练数据——未被系统解决。
核心矛盾：训练数据中的模糊比较对使评估器学到矛盾的偏好模式。
本文要解决什么？ 自动识别并清除导致非传递偏好的训练数据。
切入角度：将偏好建模为图论问题——锦标赛图+SCC分析。
核心 idea 一句话：通过锦标赛图的 SCC 识别非传递关系，重构为 DAG 后过滤不一致的训练样本。

方法详解¶

整体框架¶

(1) 对每个问题构建锦标赛图（位置交换去偏）；(2) Tarjan 算法找 SCC；(3) 按入度排序将 SCC 展开为 DAG→过滤不一致训练样本（"Cleaned" vs "Discarded"）；(4) 在清洗数据上 LoRA 微调评估器。

关键设计¶

非传递性检测：SCC 中 \(|S|>2\) 且存在无双向边的节点对→非传递 SCC
归一化结构熵：\(\tau(G) = H^2(G) / \log_2 n\)，衡量图的层次不确定性
SCC→DAG 重构：按入度排序（能力估计），去除 SCC 内部矛盾边
LoRA 微调：rank=8, 3 epochs, lr=1e-4, batch=16, 教师模型 Qwen2.5-Max

损失函数 / 训练策略¶

标准偏好学习损失。Qwen2.5-7B-Instruct 和 LLaMA3.1-8B-Instruct 为基座模型。

实验关键数据¶

主实验（交叉验证非传递率，5个测试集平均）¶

数据类型	\(\rho_{\text{non-trans}}\)↓	\(\tau_{\text{avg}}\)↓
Raw	64.3%	0.811
Cleaned	50.5%	0.723
Δ	-13.8%	-0.088

人类验证¶

指标	Cleaned	Discarded
人类一致性	52.6%	34.4%
模型-人类一致	80.6%	51.2%

消融实验¶

随机过滤（去除等量数据）→非传递性反而更高，确认定向过滤必要
跨模型验证：LLaMA3.1 上同样有效（Helpful_Base: 40.2% vs 59.0%）
~80% 训练数据保留——最小数据损失获得最大质量提升

关键发现¶

丢弃数据的人类一致性仅 34.4%——这些确实是低质量数据
非传递偏好多发生在质量差异低于"恰可辨差"的响应对上（Self-BLEU 更高）
Cleaned 模型在 MT-bench 上区分度更强（SD 提升 2-4%）

亮点与洞察¶

图论视角处理偏好数据是优雅的设计——SCC 精确捕获"互相矛盾的评价圈"
丢弃数据质量验证很有说服力——34.4% 人类一致性证明不是误伤好数据，且模型-人类一致性从 80.6% 降到 51.2%（接近随机）
结构熵指标为偏好评估提供了新的量化工具，可以推广到任何需要评估偏好一致性的场景
从图论角度看，非传递偏好本质上是"评价循环"——SCC 正好是捕获循环的标准工具，方法选择非常自然

局限性 / 可改进方向¶

需要在多个温度下反复推理以构建图（计算成本），对于大规模偏好数据集可能不实际
教师模型质量上限了 Cleaned 数据的质量——如果教师模型本身偏好不一致，清洗效果会打折
仅处理二元偏好，未扩展到评分制或多候选排序场景——但实际 LLM 评估中 K-wise 比较越来越常见
SCC→DAG 重构时按入度排序作为能力估计，这个启发式在极端不平衡的图上可能不准确
假设非传递性主要来自数据质量而非评估任务本身的固有复杂性——某些主观任务可能确实不存在全序关系
过滤掉 ~20% 数据后训练数据量减少——对于本身数据就稀缺的场景可能造成过度过滤

相关工作与启发¶

对 RLHF 数据清洗有直接启示——偏好数据的非传递性可能是 reward hacking 的来源之一，清洗偏好数据可能从根本上改善奖励模型质量
vs Xu et al. (2025)：他们发现 GPT-4 评估中存在非传递性但未提出解决方案，ELSPR 给出了系统的图论解法
vs 传统数据去噪方法：通用方法缺乏偏好数据的结构先验，ELSPR 利用锦标赛图的数学特性进行有针对性的过滤
vs Canoe (AAAI 2026)：Canoe 解决的是忠实度问题（模型不遵循上下文），ELSPR 解决的是评估器自身的一致性问题——两者互补，前者改善被评估模型、后者改善评估器

评分¶

新颖性: ⭐⭐⭐⭐⭐ 图论+结构熵+偏好数据清洗的组合高度原创，SCC 分析精确捕获非传递偏好
实验充分度: ⭐⭐⭐⭐ 5个测试集交叉验证、人类验证、跨模型验证，设计严谨
写作质量: ⭐⭐⭐⭐ 形式化严谨，锦标赛图到 DAG 的推导清晰
价值: ⭐⭐⭐⭐⭐ 对LLM评估系统可靠性和RLHF数据质量有直接实践意义