YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering¶

会议: ACL 2025
arXiv: 2505.14279
代码: https://github.com/sciknoworg/YESciEval
领域: LLM/NLP
关键词: LLM-as-a-Judge, 科学问答评估, 乐观偏差, 对抗测试, 强化学习

一句话总结¶

提出YESciEval框架，结合九维细粒度评估准则和SFT+RL对齐策略来缓解LLM评估者的乐观偏差(optimism bias)，在科学问答场景下构建鲁棒的开源LLM-as-a-Judge系统，无需人类标注和闭源模型。

研究背景与动机¶

领域现状：科学搜索引擎（Elicit、ORKG Ask等）日益依赖LLM做科学问答(scienceQ&A)，但生成答案的质量评估仍缺乏系统方案。
现有痛点：(a) n-gram指标（BLEU/ROUGE）无法捕捉领域特定推理质量；(b) 人工评估成本高难以规模化；(c) LLM-as-a-Judge存在严重的乐观偏差——倾向于给出高分而非批判性评价。
核心矛盾：需要可靠的自动评估来支撑科学问答的迭代优化，但现有LLM评估者在面对启发式对抗攻击时表现出令人意外的脆弱性。
本文要解决什么？ (a) 如何定义全面的科学问答评估维度？(b) 如何缓解LLM评估者的乐观偏差？(c) 如何用零人工标注成本构建可靠评估系统？
切入角度：设计九维评估准则 + 构建对抗数据集（subtle/extreme两级）作为偏差检测信号 + 用CPO强化学习对齐评估行为。
核心idea一句话：用对抗样本暴露LLM评估者的乐观偏差，再用SFT+RL让8B开源模型学会批判性评价科学问答。

方法详解¶

整体框架¶

两阶段流程：(1) LLMgen生成科学问答——4个LLM（Llama 8B/70B、Qwen 72B、Mistral 128B）从论文摘要合成回答，形成良性数据集；(2) LLMeval评估——九维准则评分（1-5 Likert），构建对抗变体（subtle/extreme），用SFT+RL对齐LLaMA 3.1 8B为鲁棒评估者。总计48种评估配置（4生成×4评估×3数据变体）。

关键设计¶

九维评估准则体系:
做什么：定义科学问答评估的完整维度空间
核心思路：三大类九个维度——语言与风格质量（连贯性Cohesion、简洁性Conciseness、可读性Readability）、逻辑与结构完整性（一致性Coherence、整合性Integration、相关性Relevancy）、内容准确性与信息量（正确性Correctness、完整性Completeness、信息性Informativeness）。每个维度有1-5分的标准化评分指南
设计动机：现有评估工作（G-Eval、FLASK等）各自只覆盖部分维度且定义不一致，需要一个统一的全面框架
双级对抗数据集构建:
做什么：为每个评估维度设计特定的启发式文本扰动来检测评估者偏差
核心思路：对每篇良性回答，分别生成subtle和extreme两种对抗变体。每个维度有对应的扰动策略——如Relevancy的subtle版附加相关领域句子、extreme版注入不相关体育新闻；Cohesion的subtle版交换最后两句、extreme版随机打乱所有句子；Conciseness的subtle版在最后一句后加LLM生成的冗余版本、extreme版每句话后都插入冗余
设计动机：如果LLM评估者无法区分良性和对抗样本的质量差异（不降分），说明其评估不可靠。对抗测试间接衡量评估可靠性，无需人工标注
SFT + CPO强化学习对齐:
做什么：将LLaMA 3.1 8B训练为鲁棒的LLM-as-a-Judge
核心思路：两步对齐——(i) SFT：用4个LLM的良性评估数据做QLoRA微调，学习基本评估格式和维度理解；(ii) RL：构建偏好数据对\((x, y_{good}, y_{bad})\)，用Contrastive Preference Optimization (CPO)对齐。CPO loss：\(\min_\theta \mathcal{L}_{prefer} - \mathbb{E}_{(x,y_{good})\sim D}[\log \pi_\theta(y_{good}|x)]\)，其中\(\mathcal{L}_{prefer}\)是偏好对齐项，\(\mathcal{L}_{NLL}\)惩罚生成低质量评估
设计动机：单纯SFT只能模仿，无法学会"什么是差的评估"。通过对抗样本中"该给低分但给了高分"的案例作为\(y_{bad}\)，让模型学会批判性评估

损失函数 / 训练策略¶

SFT阶段用QLoRA（高效微调），RL阶段用CPO（DPO扩展）进行偏好对齐。全过程零人工标注成本——良性评估由多个LLM互评生成，对抗评估中的good/bad标签由规则判定（extreme应得1分、subtle应≤3分）。

实验关键数据¶

主实验¶

4个LLM互评的良性数据平均分（跨9维，1-5分）：

LLMeval \ LLMgen	Llama-8B	Llama-70B	Qwen-72B	Mistral-128B
Llama-8B	~4.2	~4.3	~4.5	~4.4
Llama-70B	~4.1	~4.2	~4.4	~4.3
Qwen-72B	~4.0	~4.1	~4.3	~4.2
Mistral-128B	~4.1	~4.2	~4.4	~4.3

消融实验（对齐策略对比）¶

LLaMA 3.1 8B不同训练策略在对抗样本上的效果：

配置	良性评分(正常)	Extreme对抗(应低分)	Subtle对抗(应适度降分)
Vanilla (无训练)	高	仍然高（乐观偏差）	几乎不变
+ SFT only	高	略有下降	几乎不变
+ SFT + RL (CPO)	高	显著下降	适度下降

关键发现¶

无自我偏好：LLM评估者没有偏向给自己生成的回答更高分，反而所有评估者一致更偏好Qwen生成的回答（可能因为Qwen是最大模型，生成质量最高）
乐观偏差普遍存在：未对齐的LLM评估者对extreme对抗样本仍给出较高分数，说明缺乏批判性评估能力
CPO强化学习有效缓解偏差：SFT+RL后的8B模型能正确区分良性和对抗样本，在对抗测试中给出更合理的低分
BioASQ得分高于ORKGSyn：跨学科数据集比专业生医数据集更挑战LLM生成能力
零成本可行性：整个评估框架不依赖闭源模型和人工标注，与使用GPT相比节省超过1000欧元
每维度对抗扰动设计的精确性：不同维度的扰动策略差异大，说明细粒度评估需要精细的测试设计

亮点与洞察¶

对抗测试作为评估可靠性的proxy：用"应该被扣分的文本"来检测评估者是否真的会扣分，这是一种巧妙的间接验证方法，无需人类ground truth
九维准则的可复用性：这套评估准则不仅适用于科学问答，可以扩展到任何生成式AI评估场景
完全开源的成本优势：证明了用开源LLM+智能训练策略可以替代昂贵的GPT-4评估

局限性 / 可改进方向¶

对抗扰动是启发式设计的：可能不覆盖所有真实场景的质量问题类型
仅在LLaMA 3.1 8B上做了对齐实验：更大模型的对齐效果未验证
缺乏人工评估验证：对齐后的评估者与人类判断的一致性未直接衡量
数据集规模有限：ORKGSyn仅348个问题，BioASQ仅73个
可改进方向：加入人工评估对比验证；扩展到更多科学领域和更多LLM

评分¶

新颖性: ⭐⭐⭐⭐ 对抗测试+RL缓解LLM评估者乐观偏差是新颖组合
实验充分度: ⭐⭐⭐⭐ 48种评估配置+两个数据集+消融分析
写作质量: ⭐⭐⭐ 内容丰富但有些冗长
价值: ⭐⭐⭐⭐ 对开源LLM-as-a-Judge和科学问答评估有重要贡献