跳转至

Identifying Reliable Evaluation Metrics for Scientific Text Revision

会议: ACL 2025
arXiv: 2506.04772
领域: LLM NLP
关键词: 文本修订, 评估指标, LLM-as-Judge, 科学写作, 人工评估

一句话总结

系统分析了传统相似度指标(ROUGE、BERTScore 等)在科学文本修订评估中的局限性,发现它们强相关于编辑距离且惩罚深度修改,并证明结合 LLM-as-Judge 和任务特定指标的混合方法最能对齐人类评判。

研究背景与动机

科学论文的修订是写作过程中的关键环节,涉及可读性、风格和清晰度的提升。然而,修订质量的自动评估一直是难题: 1. 传统指标的根本缺陷:ROUGE、BERTScore 等主要衡量与参考文本的相似度,而非修订是否真正改善了原文 2. 人工评估代价高昂:耗时且无法扩展到大规模或迭代评估 3. 不改等于最优的悖论:实验发现"不做任何修改"在大多数指标下反而获得最高分,这显然不合理

文本修订涵盖多种子任务(改述、简化、语法纠错等),单一指标可能无法全面评估。作者同时探索了跨领域指标和 LLM-as-Judge 方法,寻找更可靠的评估方案。

方法详解

整体框架

研究分为四个阶段: 1. 修订生成:使用 6 个模型(CoEdIT-XL、Llama-3-8B/70B、Mistral-7B、GPT-4o-mini、GPT-4o)为每个段落+指令对生成修订版本 2. 人工标注:10 位标注者(3 教授 + 7 博士生)对修订对进行成对比较,评估相关性、正确性和偏好 3. 传统指标分析:计算 BLEU、ROUGE-L、METEOR、GLEU、SARI、BERTScore 等指标的互相关性及与编辑距离的关系 4. 替代评估方法探索:测试跨域指标(BETS、BLANC、ParaPLUIE)和 LLM-as-Judge 方法

关键设计

人工标注体系: - Q1A/Q1B(相关性):模型是否遵循了修订指令?{严格 Yes / Yes+额外修改 / No} - Q2(正确性):哪个修订版本可接受?{两者 / 仅A / 仅B / 都不行} - Q3(偏好):你倾向将哪个版本放入论文? - 类别特定评估:根据修订类型(轻度/中度/重度改写、精简)使用不同的评估问题

修订类型分类: - 轻度改写(light):措辞微调 - 中度改写(medium):句子完全重述 - 重度改写(heavy):影响至少一半段落的重大修改 - 精简(concision):移除不必要细节 - 内容删除(deletion):通过删除某个观点来修改内容

LLM-as-Judge 方法: - LLM-Choice:成对比较 + Yes/No 问题 - LLM-Likert:单独评分(量表制) - 分别在有/无 gold reference 条件下测试

实验关键数据

主实验

传统指标下的修订模型排名(ParaRev 数据集,258 对修订段落): | 修订模型 | BLEU | ROUGE-L | SARI | BERTScore | |---------|------|---------|------|-----------| | no edits(不修改) | 66.00 | 78.30 | 60.63 | 95.95 | | CoEdIT-XL | 50.24 | 67.46 | 39.60 | 93.90 | | GPT-4o-mini | 51.68 | 69.54 | 45.06 | 94.80 | | Llama-3-70B | 46.78 | 65.61 | 42.74 | 93.90 | | GPT-4o | 49.34 | 68.20 | 43.54 | 94.45 |

核心发现:除 GLEU 外,所有传统指标均认为"不做修改"是最佳方案!

人工评估结果: - GPT-4o 被严格偏好率:58.33% - Llama-3-70B 被严格偏好率:53.68% - 与 GPT-4o 在成对比较中持平

标注者间一致性(Cohen's Kappa): | 问题 | κ | 一致性水平 | |------|---------|----------| | 相关性 | 0.54 | 中等 | | 正确性 | 0.55 | 中等 | | 偏好 | 0.33 | 尚可 | | 精简 | 0.22 | 尚可 |

关键发现

  1. 传统指标高度冗余:大多数相似度指标强相关,提供重复信息;仅 SARI 因考虑原文而有所不同
  2. 传统指标与编辑距离高度相关:修改越多得分越低,本质上惩罚了深度修订
  3. 跨域指标表现更佳:BETS 和 ParaPLUIE 与编辑距离低相关(≤0.52),能正确将 CoEdIT-XL 排在末位
  4. LLM-as-Judge 有效评估指令遵循:LLM-Choice 方法在无 gold reference 时也能较好评估 Relatedness
  5. LLM-as-Judge 的短板:在评估 Correctness 时性能下降,有时不如简单方法
  6. 混合方法最优:结合 LLM-as-Judge(评估指令遵循)+ BETS/ParaPLUIE(评估语义保持)是最可靠方案

亮点与洞察

  1. 揭示评估悖论:用实验数据证明"不修改 > 任何修改"这一指标层面的荒谬结论,有力论证了传统指标的根本缺陷
  2. 释放人工标注数据集:开源 ParaReval 数据集供后续研究使用
  3. 实用指导意义:为科学写作辅助系统的评估提供了具体的指标选择建议
  4. 系统性对比:首次在科学文本修订任务上系统比较了传统指标、跨域指标和 LLM-as-Judge 三类方法

局限性

  1. 标注者均为非母语英语者(NLP 领域研究者),可能引入语言偏差
  2. ParaRev 数据集规模有限(258 对段落),可能不足以代表所有修订场景
  3. LLM-as-Judge 的成本仍然较高(GPT-4o 实验仅运行一次)
  4. 未考虑非英语科学写作的修订评估
  5. 修订类型分类较为粗略,未覆盖内容新增等其他修订操作

相关工作

  • 文本修订: Du et al. (2022) 段落级修订任务定义;Raheja et al. (2023) CoEdIT 模型
  • 评估指标: SARI (Xu et al., 2016)、GLEU (Napoles et al., 2015) 考虑源文本
  • LLM-as-Judge: Zheng et al. (2023) 提出三种评估变体;Doostmohammadi et al. (2024) 三维度评估
  • 语义保持评估: ParaPLUIE (Lemesle et al., 2025)、BETS (Zhao et al., 2023)

评分

维度 分数 (1-10)
创新性 7
实验完整性 9
实用价值 8
写作质量 8
总体评价 8