LazyReview: A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews¶

会议: ACL 2025
arXiv: 2504.11042
代码: https://github.com/UKPLab/acl2025-lazy-review
领域: LLM 推理
关键词: 同行评审, 懒惰思维, 启发式偏差, 评审质量, 数据集

一句话总结¶

构建首个标注"懒惰思维"细粒度类别的同行评审数据集 LazyReview——发现 LLM 在零样本下难以检测评审中的懒惰思维启发式，但在 LazyReview 上指令微调后性能提升 10-20 个点，且经懒惰思维反馈修改的评审显著更全面和可操作。

领域现状：同行评审是学术质量控制的基石，但随着论文投稿量激增，评审者工作量大增，可能不自觉地使用"快速启发式"（懒惰思维）来简化评审——如不给出具体证据的笼统批评、仅关注表面错误忽视核心贡献等。
现有痛点：(a) 目前没有标注懒惰思维类型的真实评审数据集；(b) LLM 在零样本下无法有效检测这些启发式；(c) 缺乏帮助初级评审者避免懒惰思维的训练工具。
核心矛盾：评审质量对学术界至关重要，但评审者的懒惰思维难以自动检测——因为这些启发式表面上看起来像合理的评论。
本文要解决什么？ 定义懒惰思维的细粒度分类，构建标注数据集，并验证 LLM 检测懒惰思维的能力及反馈的改进效果。
切入角度：将认知心理学中的"启发式偏差"（Kahneman System 1）系统化地应用于评审质量分析。
核心idea一句话：定义+标注+检测+反馈——评审中的懒惰思维可以被系统性地识别和改进。

(1) 定义评审中的懒惰思维细粒度类别体系（如笼统批评、缺乏证据、表面关注等）；(2) 标注真实 NLP 会议评审数据构建 LazyReview 数据集；(3) 评估 LLM 在零样本和微调设定下的检测能力；(4) 受控实验验证懒惰思维反馈对评审改进的效果。

懒惰思维分类体系:
做什么：系统化定义评审中的懒惰思维类型
核心类别示例：笼统评价（"写作需要改进"但不说哪里）、缺乏理由（"方法不够新颖"但不解释为什么）、过度依赖表面特征（只看格式不看内容）、锚定偏差（被第一印象固化）等
设计动机：细粒度分类使检测和反馈更具可操作性
LazyReview 数据集:
做什么：评审句子级别的懒惰思维标注
标注方式：多位标注者对评审句子标注是否含有懒惰思维及其类型
设计动机：为检测和训练提供 ground truth
检测与反馈实验:
做什么：验证 LLM 检测懒惰思维的能力及反馈的改进效果
零样本 vs 微调：零样本 LLM 检测效果差（难以区分"正常简洁"和"懒惰简洁"），LazyReview 微调后显著提升
反馈效果：评审者收到懒惰思维反馈后的修改版评审显著更全面

方法	懒惰思维检测 F1	说明
LLM 零样本	低	无法区分正常和懒惰
LLM + LazyReview 微调	+10-20pp	高质量数据的价值