Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?¶

会议: ACL 2025 arXiv: 2507.17015 代码: GitHub 领域: LLM / 评估 关键词: LLM-as-a-Judge, 工具增强, 事实验证, 代码执行, 标注质量, agentic evaluation

一句话总结¶

提出 Evaluation Agent，一个工具增强的 LLM-as-a-Judge 框架，通过集成网络搜索（事实核查）、代码执行和数学验证工具，在长文本事实验证上将与人类一致性从 63% 提升到 81%，在编程评估上从 31% 提升到 71%，且对无关领域几乎无退化。

领域现状：成对偏好标注（给定 prompt + 两个回复，选择更好的）是 LLM 评估和 RLHF 反馈收集的标准方法。AI 标注器（LLM-as-a-Judge）正在替代昂贵的人类标注。
现有痛点：AI 标注存在已知偏差——长度偏差（偏好冗长回复）、位置偏差（受顺序影响）、自增强偏差（偏好自己生成的内容）。更关键的是，在事实性、代码正确性和数学准确性上，LLM 评判不够可靠——"用不够可靠的模型评估模型"是根本问题。
核心矛盾：LLM 判断缺乏外部验证手段。评判代码质量时不运行代码，评判事实时不查证——像没有计算器和搜索引擎的考官。
本文要解决什么？ 给 LLM-as-a-Judge 配备外部验证工具来提升标注质量，同时不损害域外任务性能。
切入角度：设计 agentic 框架——LLM 先评估回复领域然后选择合适工具，工具验证结果反馈给 LLM 做最终判断。如果没有合适工具，则回退到原始基线标注器。
核心 idea 一句话：LLM 评判 + 网络搜索事实核查 + 代码执行验证 + 数学计算 = 更可靠的标注。

三步 pipeline：(1) 初始领域评估——LLM 判断回复是否属于工具可帮助的领域；(2) 工具使用——运行选中的工具对两个回复进行外部验证；(3) 最终判断——LLM 综合所有工具输出做成对偏好判断。如果没有工具适用，直接回退到基线标注器（如 AlpacaEval 2.0）。

初始领域评估（Step 1）：
做什么：为每个回复评估哪些工具有用
核心思路：对每个工具设计一组关于回复特征的问题（如"文本是否包含可执行代码？"），用 LLM 回答这些问题来决定工具是否激活
设计动机：避免在不适用的领域运行工具（如对创意写作运行事实核查），减少域外退化。使用结构化 JSON 输出减少解析错误
工具 A — 事实核查（基于 SAFE）：
做什么：对长文本回复中的事实声明进行网络搜索验证
核心思路：(1) 分离原子事实 → (2) 使事实自包含 → (3) 用网络搜索验证每个事实。基于 Wei et al. (2024) 的 SAFE 算法，但省略了相关性检查——在成对偏好设置中所有事实的真实性都相关
工具 B — 代码执行：
做什么：对编程回复执行代码并获取反馈
核心思路：基于 OpenAI 代码解释器 API，可以创建额外单元测试、执行多步骤并得出结论
工具 C — 数学验证：
做什么：用代码执行验证数学推导和算术计算
设计动机：独立于通用代码执行工具——测试发现通用代码解释器在数学场景效果不佳，需要专门 prompt 约束
域外安全机制：
当领域评估认为没有工具有用时，回退到基线标注器，而非强行使用工具
平局处理：只有一个回复适用工具时，50% 概率使用 agent、50% 回退基线

领域	基线最佳	Agent 最佳	提升
长文本事实 (LongFact)	78% (ArenaHard)	81%	+3%
高级编程 (APPS)	42% (ArenaHard)	72%	+30%
数学 (GSM8k-hard)	~54% (ArenaHard)	~56%	+2%
简单事实 (pick-best GPT-4o)	63%	81%	+18%

领域	基线	Agent	退化
RewardBench 域外（Chat/Safety）	~85%	~83%	<2%

编程领域提升最大（+30%）：代码执行是最可靠的验证手段——基线标注器在 APPS 上甚至低于随机（偏好 GPT-4 生成的错误代码），agent 彻底扭转
基线标注器在 APPS 上表现反常：所有基线偏好率仅 26-42%（低于 50% 随机基准），表现出对 GPT-4 风格的自增强偏差
域外退化极小（<2%）：域外 73.9% 的数据点 agent 回退到基线——领域评估准确识别了不适用场景
简单配置变化影响巨大：同一个 GPT-4o，pick-best 和 ArenaHard prompt 差异造成 63% vs 78%（仅因 prompt 和解析方式不同）
Agent 超越非专家人类：在长文本事实核查上，agent (81%) 一致性高于人类标注者 (76.8%)

"让评判者有工具"的直觉简单但效果惊人——像给考官配了计算器和搜索引擎，尤其代码执行领域提升巨大
编程领域 31%→71% 说明 LLM 判断代码质量时严重依赖风格而非正确性——运行代码是不可替代的验证手段
prompt 敏感性的警示：同一 LLM 仅因 prompt 配置不同就 63% vs 78%——在部署 AI 标注器时需要像调 hyperparameter 一样仔细调 prompt