A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability¶

会议: ACL 2025
arXiv: 2502.12052
代码: GitHub
领域: NLG评估 / 元评估
关键词: NLG元评估, LLM-as-Judge, 双视角评估, 自动基准构建, 序数分类, 成对比较

一句话总结¶

揭示传统 NLG 元评估的局限（人工评分平均聚合不合理、相关系数选择模糊），提出双视角元评估框架：全局视角（序数分类，评估粗粒度评级能力）+ 局部视角（相邻成对比较，评估细粒度区分能力），并引入基于可控错误注入的自动基准构建方法，在 16 个 LLM 上验证不同模型在两个视角上的能力分布差异显著。

NLG 元评估——评估评估指标本身的性能——通常通过计算指标与人工评分的一致性来实现。但存在三个问题：

人工评分聚合不合理：多标注者的 Likert 评分直接取平均，但评分间隔不均匀（4和3的差距可能大于3和2），且平均后产生的新评分等级不反映真实质量差异（实验验证仅42%一致率）
相关系数选择模糊：Pearson / Spearman / Kendall 等不同相关系数导致不同指标排名，缺乏选择指导
基准数据过时/污染：现有 NLG 基准使用旧生成系统，且可能被 LLM 训练数据污染

如何设计更可解释、更可靠的 NLG 元评估框架，同时避免昂贵的新人工标注和数据污染风险？

全局视角（Global）：将元评估建模为序数分类任务——评估指标能否正确判断目标的粗粒度质量等级。使用 CEM（Closeness Evaluation Measure）不需要假设相邻等级间距相等。仅保留标注者一致的样本，消除聚合噪声。
局部视角（Local）：建模为相邻成对比较任务——给定质量递增的目标序列，评估指标能否正确区分相邻对的质量差异。这奖励细粒度区分能力，补充全局视角。

评估维度分解：将粗粒度评估维度（如 coherence）分解为细粒度子维度（logical flow, thematic consistency 等），用 o1 生成候选+人工精选
可控错误注入：在高质量参考文本上注入不同类型/程度的错误，自动生成不同质量等级的目标
全局基准：注入不同程度错误 → 不同粗粒度评分类别
局部基准：注入梯度错误 → 高密度质量递增序列

16 个 LLM（含通用和专门微调的评估模型），在 SummEval + Topical-Chat 上双视角评估。

LLM	CEM（全局）↑	Acc（局部）↑	Spearman ρ↑
GPT-4 Turbo	0.741(1)	0.839(3)	0.513(3)
Phi-4-14B	0.680(2)	0.815(5)	0.532(1)
GPT-4o	0.580(3)	0.835(4)	0.522(2)
Gemma-2-27B	0.527(4)	0.842(1)	0.490(6)