跳转至

ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences

会议: AAAI 2026
arXiv: 2505.17691
代码: https://github.com/yy0525/ELSPR
领域: LLM效率 / 评估
关键词: LLM评估, 非传递偏好, 锦标赛图, 数据清洗, 结构熵

一句话总结

ELSPR 将 LLM 评估器的成对偏好建模为锦标赛图,通过强连通分量 (SCC) 识别非传递偏好,提出归一化有向图结构熵指标,并基于图重构过滤有问题的训练数据——过滤后的评估器非传递性降低 13.8%、结构熵降低 0.088,且丢弃数据的人类一致性仅 34.4%(vs 保留数据 52.6%)。

研究背景与动机

  1. 领域现状:LLM 作为评判者 (LLM-as-judge) 广泛用于评估其他模型。成对比较是常用方式,但可能出现非传递偏好(A>B, B>C, C>A)。

  2. 现有痛点:(1) 非传递偏好破坏排名可靠性;(2) 现有头对头评估忽略了传递性约束;(3) 非传递性的根源——来自低质量/模糊训练数据——未被系统解决。

  3. 核心矛盾:训练数据中的模糊比较对使评估器学到矛盾的偏好模式。

  4. 本文要解决什么? 自动识别并清除导致非传递偏好的训练数据。

  5. 切入角度:将偏好建模为图论问题——锦标赛图+SCC分析。

  6. 核心 idea 一句话:通过锦标赛图的 SCC 识别非传递关系,重构为 DAG 后过滤不一致的训练样本。

方法详解

整体框架

(1) 对每个问题构建锦标赛图(位置交换去偏);(2) Tarjan 算法找 SCC;(3) 按入度排序将 SCC 展开为 DAG→过滤不一致训练样本("Cleaned" vs "Discarded");(4) 在清洗数据上 LoRA 微调评估器。

关键设计

  1. 非传递性检测:SCC 中 \(|S|>2\) 且存在无双向边的节点对→非传递 SCC
  2. 归一化结构熵\(\tau(G) = H^2(G) / \log_2 n\),衡量图的层次不确定性
  3. SCC→DAG 重构:按入度排序(能力估计),去除 SCC 内部矛盾边
  4. LoRA 微调:rank=8, 3 epochs, lr=1e-4, batch=16, 教师模型 Qwen2.5-Max

损失函数 / 训练策略

标准偏好学习损失。Qwen2.5-7B-Instruct 和 LLaMA3.1-8B-Instruct 为基座模型。

实验关键数据

主实验(交叉验证非传递率,5个测试集平均)

数据类型 \(\rho_{\text{non-trans}}\) \(\tau_{\text{avg}}\)
Raw 64.3% 0.811
Cleaned 50.5% 0.723
Δ -13.8% -0.088

人类验证

指标 Cleaned Discarded
人类一致性 52.6% 34.4%
模型-人类一致 80.6% 51.2%

消融实验

  • 随机过滤(去除等量数据)→非传递性反而更高,确认定向过滤必要
  • 跨模型验证:LLaMA3.1 上同样有效(Helpful_Base: 40.2% vs 59.0%)
  • ~80% 训练数据保留——最小数据损失获得最大质量提升

关键发现

  • 丢弃数据的人类一致性仅 34.4%——这些确实是低质量数据
  • 非传递偏好多发生在质量差异低于"恰可辨差"的响应对上(Self-BLEU 更高)
  • Cleaned 模型在 MT-bench 上区分度更强(SD 提升 2-4%)

亮点与洞察

  • 图论视角处理偏好数据是优雅的设计——SCC 精确捕获"互相矛盾的评价圈"
  • 丢弃数据质量验证很有说服力——34.4% 人类一致性证明不是误伤好数据,且模型-人类一致性从 80.6% 降到 51.2%(接近随机)
  • 结构熵指标为偏好评估提供了新的量化工具,可以推广到任何需要评估偏好一致性的场景
  • 从图论角度看,非传递偏好本质上是"评价循环"——SCC 正好是捕获循环的标准工具,方法选择非常自然

局限性 / 可改进方向

  • 需要在多个温度下反复推理以构建图(计算成本),对于大规模偏好数据集可能不实际
  • 教师模型质量上限了 Cleaned 数据的质量——如果教师模型本身偏好不一致,清洗效果会打折
  • 仅处理二元偏好,未扩展到评分制或多候选排序场景——但实际 LLM 评估中 K-wise 比较越来越常见
  • SCC→DAG 重构时按入度排序作为能力估计,这个启发式在极端不平衡的图上可能不准确
  • 假设非传递性主要来自数据质量而非评估任务本身的固有复杂性——某些主观任务可能确实不存在全序关系
  • 过滤掉 ~20% 数据后训练数据量减少——对于本身数据就稀缺的场景可能造成过度过滤

相关工作与启发

  • 对 RLHF 数据清洗有直接启示——偏好数据的非传递性可能是 reward hacking 的来源之一,清洗偏好数据可能从根本上改善奖励模型质量
  • vs Xu et al. (2025):他们发现 GPT-4 评估中存在非传递性但未提出解决方案,ELSPR 给出了系统的图论解法
  • vs 传统数据去噪方法:通用方法缺乏偏好数据的结构先验,ELSPR 利用锦标赛图的数学特性进行有针对性的过滤
  • vs Canoe (AAAI 2026):Canoe 解决的是忠实度问题(模型不遵循上下文),ELSPR 解决的是评估器自身的一致性问题——两者互补,前者改善被评估模型、后者改善评估器

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 图论+结构熵+偏好数据清洗的组合高度原创,SCC 分析精确捕获非传递偏好
  • 实验充分度: ⭐⭐⭐⭐ 5个测试集交叉验证、人类验证、跨模型验证,设计严谨
  • 写作质量: ⭐⭐⭐⭐ 形式化严谨,锦标赛图到 DAG 的推导清晰
  • 价值: ⭐⭐⭐⭐⭐ 对LLM评估系统可靠性和RLHF数据质量有直接实践意义