跳转至

YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

会议: ACL 2025
arXiv: 2505.14279
代码: https://github.com/sciknoworg/YESciEval
领域: LLM/NLP
关键词: LLM-as-a-Judge, 科学问答评估, 乐观偏差, 对抗测试, 强化学习

一句话总结

提出YESciEval框架,结合九维细粒度评估准则和SFT+RL对齐策略来缓解LLM评估者的乐观偏差(optimism bias),在科学问答场景下构建鲁棒的开源LLM-as-a-Judge系统,无需人类标注和闭源模型。

研究背景与动机

  1. 领域现状:科学搜索引擎(Elicit、ORKG Ask等)日益依赖LLM做科学问答(scienceQ&A),但生成答案的质量评估仍缺乏系统方案。
  2. 现有痛点:(a) n-gram指标(BLEU/ROUGE)无法捕捉领域特定推理质量;(b) 人工评估成本高难以规模化;(c) LLM-as-a-Judge存在严重的乐观偏差——倾向于给出高分而非批判性评价。
  3. 核心矛盾:需要可靠的自动评估来支撑科学问答的迭代优化,但现有LLM评估者在面对启发式对抗攻击时表现出令人意外的脆弱性。
  4. 本文要解决什么? (a) 如何定义全面的科学问答评估维度?(b) 如何缓解LLM评估者的乐观偏差?(c) 如何用零人工标注成本构建可靠评估系统?
  5. 切入角度:设计九维评估准则 + 构建对抗数据集(subtle/extreme两级)作为偏差检测信号 + 用CPO强化学习对齐评估行为。
  6. 核心idea一句话:用对抗样本暴露LLM评估者的乐观偏差,再用SFT+RL让8B开源模型学会批判性评价科学问答。

方法详解

整体框架

两阶段流程:(1) LLMgen生成科学问答——4个LLM(Llama 8B/70B、Qwen 72B、Mistral 128B)从论文摘要合成回答,形成良性数据集;(2) LLMeval评估——九维准则评分(1-5 Likert),构建对抗变体(subtle/extreme),用SFT+RL对齐LLaMA 3.1 8B为鲁棒评估者。总计48种评估配置(4生成×4评估×3数据变体)。

关键设计

  1. 九维评估准则体系:
  2. 做什么:定义科学问答评估的完整维度空间
  3. 核心思路:三大类九个维度——语言与风格质量(连贯性Cohesion、简洁性Conciseness、可读性Readability)、逻辑与结构完整性(一致性Coherence、整合性Integration、相关性Relevancy)、内容准确性与信息量(正确性Correctness、完整性Completeness、信息性Informativeness)。每个维度有1-5分的标准化评分指南
  4. 设计动机:现有评估工作(G-Eval、FLASK等)各自只覆盖部分维度且定义不一致,需要一个统一的全面框架

  5. 双级对抗数据集构建:

  6. 做什么:为每个评估维度设计特定的启发式文本扰动来检测评估者偏差
  7. 核心思路:对每篇良性回答,分别生成subtle和extreme两种对抗变体。每个维度有对应的扰动策略——如Relevancy的subtle版附加相关领域句子、extreme版注入不相关体育新闻;Cohesion的subtle版交换最后两句、extreme版随机打乱所有句子;Conciseness的subtle版在最后一句后加LLM生成的冗余版本、extreme版每句话后都插入冗余
  8. 设计动机:如果LLM评估者无法区分良性和对抗样本的质量差异(不降分),说明其评估不可靠。对抗测试间接衡量评估可靠性,无需人工标注

  9. SFT + CPO强化学习对齐:

  10. 做什么:将LLaMA 3.1 8B训练为鲁棒的LLM-as-a-Judge
  11. 核心思路:两步对齐——(i) SFT:用4个LLM的良性评估数据做QLoRA微调,学习基本评估格式和维度理解;(ii) RL:构建偏好数据对\((x, y_{good}, y_{bad})\),用Contrastive Preference Optimization (CPO)对齐。CPO loss:\(\min_\theta \mathcal{L}_{prefer} - \mathbb{E}_{(x,y_{good})\sim D}[\log \pi_\theta(y_{good}|x)]\),其中\(\mathcal{L}_{prefer}\)是偏好对齐项,\(\mathcal{L}_{NLL}\)惩罚生成低质量评估
  12. 设计动机:单纯SFT只能模仿,无法学会"什么是差的评估"。通过对抗样本中"该给低分但给了高分"的案例作为\(y_{bad}\),让模型学会批判性评估

损失函数 / 训练策略

SFT阶段用QLoRA(高效微调),RL阶段用CPO(DPO扩展)进行偏好对齐。全过程零人工标注成本——良性评估由多个LLM互评生成,对抗评估中的good/bad标签由规则判定(extreme应得1分、subtle应≤3分)。

实验关键数据

主实验

4个LLM互评的良性数据平均分(跨9维,1-5分):

LLMeval \ LLMgen Llama-8B Llama-70B Qwen-72B Mistral-128B
Llama-8B ~4.2 ~4.3 ~4.5 ~4.4
Llama-70B ~4.1 ~4.2 ~4.4 ~4.3
Qwen-72B ~4.0 ~4.1 ~4.3 ~4.2
Mistral-128B ~4.1 ~4.2 ~4.4 ~4.3

消融实验(对齐策略对比)

LLaMA 3.1 8B不同训练策略在对抗样本上的效果:

配置 良性评分(正常) Extreme对抗(应低分) Subtle对抗(应适度降分)
Vanilla (无训练) 仍然高(乐观偏差) 几乎不变
+ SFT only 略有下降 几乎不变
+ SFT + RL (CPO) 显著下降 适度下降

关键发现

  • 无自我偏好:LLM评估者没有偏向给自己生成的回答更高分,反而所有评估者一致更偏好Qwen生成的回答(可能因为Qwen是最大模型,生成质量最高)
  • 乐观偏差普遍存在:未对齐的LLM评估者对extreme对抗样本仍给出较高分数,说明缺乏批判性评估能力
  • CPO强化学习有效缓解偏差:SFT+RL后的8B模型能正确区分良性和对抗样本,在对抗测试中给出更合理的低分
  • BioASQ得分高于ORKGSyn:跨学科数据集比专业生医数据集更挑战LLM生成能力
  • 零成本可行性:整个评估框架不依赖闭源模型和人工标注,与使用GPT相比节省超过1000欧元
  • 每维度对抗扰动设计的精确性:不同维度的扰动策略差异大,说明细粒度评估需要精细的测试设计

亮点与洞察

  • 对抗测试作为评估可靠性的proxy:用"应该被扣分的文本"来检测评估者是否真的会扣分,这是一种巧妙的间接验证方法,无需人类ground truth
  • 九维准则的可复用性:这套评估准则不仅适用于科学问答,可以扩展到任何生成式AI评估场景
  • 完全开源的成本优势:证明了用开源LLM+智能训练策略可以替代昂贵的GPT-4评估

局限性 / 可改进方向

  • 对抗扰动是启发式设计的:可能不覆盖所有真实场景的质量问题类型
  • 仅在LLaMA 3.1 8B上做了对齐实验:更大模型的对齐效果未验证
  • 缺乏人工评估验证:对齐后的评估者与人类判断的一致性未直接衡量
  • 数据集规模有限:ORKGSyn仅348个问题,BioASQ仅73个
  • 可改进方向:加入人工评估对比验证;扩展到更多科学领域和更多LLM

相关工作与启发

  • vs G-Eval: G-Eval用GPT-4做评估但依赖闭源模型且仅4个维度;YESciEval完全开源+9个维度+对抗鲁棒性
  • vs FLASK: FLASK有12个评估技能但不专注科学领域、无对抗测试;YESciEval的对抗+RL对齐是关键创新
  • vs JudgeLM: JudgeLM用人类偏好数据训练judge但成本高;YESciEval用对抗样本的规则标签替代人类偏好,实现零标注成本

评分

  • 新颖性: ⭐⭐⭐⭐ 对抗测试+RL缓解LLM评估者乐观偏差是新颖组合
  • 实验充分度: ⭐⭐⭐⭐ 48种评估配置+两个数据集+消融分析
  • 写作质量: ⭐⭐⭐ 内容丰富但有些冗长
  • 价值: ⭐⭐⭐⭐ 对开源LLM-as-a-Judge和科学问答评估有重要贡献