Automatic Benchmark Generation from Scientific Papers via Retrieval-Augmented LLMs¶

会议: ACL 2025
arXiv: 无公开预印本
代码: 无
领域: LLM应用 / 基准构建
关键词: 自动基准生成, 科学论文, 检索增强, LLM, 评估数据集

一句话总结¶

本文提出一种基于检索增强LLM的自动基准生成方法，从科学论文中自动抽取可测试的知识点并生成高质量的评估题目，在NLP、机器学习、生物信息学等领域验证了方法的有效性，为领域特定LLM评估基准的快速构建提供了新范式。

研究背景与动机¶

领域现状：评估基准（Benchmark）是衡量LLM能力的核心工具。现有的LLM评估基准（如MMLU、BIG-Bench、GPQA等）主要由人工编写或从已有考试题目收集。科学领域的专业基准（如SciQ、PubMedQA）也依赖人工标注，构建周期长，更新频率低，覆盖范围有限。

现有痛点：科学知识更新速度远超基准更新速度——每年数百万篇论文发表，但评估基准可能数年才更新一次。这导致两个问题：（1）训练数据污染（Data Contamination）——LLM可能在预训练中见过旧基准的题目，导致评估虚高；（2）知识覆盖偏差——基准倾向于覆盖经典和热门知识点，对前沿和冷门方向覆盖不足。人工构建基准的成本极高，每道题目需要领域专家编写和验证。

核心矛盾：高质量的评估基准需要领域专业性和多样性的结合，而人工编写难以同时满足两者——专家数量有限，他们倾向于出自己熟悉领域的题，导致覆盖偏差。自动化方法可以解决规模和多样性问题，但如何保证题目的质量和正确性是核心挑战。

本文目标：开发一种可以从学术论文中自动、规模化地生成高质量评估题目的系统，并确保题目的正确性、多样性和难度覆盖。

切入角度：作者将论文视为知识的结构化载体，不同章节（如Method、Results、Related Work）包含不同类型的可测试知识，可以分别设计不同类型的题目。

核心 idea：通过检索增强的方式，让LLM在阅读完整论文上下文的基础上生成题目，并用多轮质量过滤确保题目的正确性和诊断性。

方法详解¶

整体框架¶

系统分为四个阶段：（1）知识点抽取——从科学论文中识别可测试的知识点（事实、概念、关系、推理链）；（2）题目生成——基于知识点生成多种类型的题目（选择题、判断题、简答题）；（3）质量过滤——通过多维度的自动化质量控制过滤低质量题目；（4）难度校准——通过多个LLM的作答情况估计题目难度并确保难度分布均衡。整个流程可以看作一条从论文到基准的自动化流水线。

关键设计¶

层次化知识点抽取（Hierarchical Knowledge Extraction, HKE）:
- 功能：从论文中系统性地抽取不同类型和层次的可测试知识点
- 核心思路：将论文按章节分段后，对每个段落使用LLM进行三个层次的知识点抽取——（a）事实层：直接可从文本中获得的事实（如"方法A在数据集B上达到了X%的准确率"）；（b）概念层：需要理解才能回答的概念关系（如"为什么方法A使用注意力机制而不是循环网络"）；（c）推理层：需要跨章节整合信息才能回答的推理问题（如"方法A与方法B的核心区别是什么？为什么这一区别在数据集C上更重要？"）。每个知识点附带其来源段落的定位信息和置信度评分。使用重叠滑动窗口的方式处理跨段落的知识点。
- 设计动机：不同层次的知识点对应不同难度的题目，分层抽取可以确保最终基准在难度分布上的均衡性
检索增强的题目生成（Retrieval-Augmented Question Generation, RAQG）:
- 功能：基于知识点和论文上下文生成高质量的评估题目
- 核心思路：对每个知识点，使用检索增强的方式获取完整的上下文信息——不仅检索知识点所在段落，还检索论文中其他相关段落（通过关键词和语义相似度匹配）以及相关论文的段落（从同会议/同方向的论文库中检索）。LLM在这个丰富的上下文下生成题目。对于选择题，关键在于干扰项（distractor）的质量——要求干扰项是"看上去合理但实际不正确"的选项。采用"对比生成"策略：先让LLM生成正确答案，再基于正确答案的语义邻域生成干扰项（如将正确的数值改变10-30%、将正确的方法替换为同类但不同的方法）。每个题目附带正确答案的详细解释和在原论文中的证据位置。
- 设计动机：仅依赖单个段落的上下文容易生成过于简单或脱离实际的题目；检索增强提供了更完整的知识背景，使题目更具诊断性
多维质量过滤管线（Multi-Dimensional Quality Filter Pipeline, MDQF）:
- 功能：自动过滤低质量题目，确保最终基准的整体质量
- 核心思路：设计了四道过滤关卡——（a）正确性验证：使用另一个LLM（作为"解题者"）独立解答生成的题目，如果解题者的答案与标注的正确答案不符，触发人工审查或直接过滤；（b）唯一性检查：计算题目之间的语义相似度，过滤掉与已有题目过于相似的重复题；（c）可解答性验证：确保题目所需的信息在论文中确实存在（而非LLM凭空编造），通过将题目和论文作为上下文输入LLM并检查其推理过程中是否引用了具体段落来验证；（d）歧义性检测：检查选择题的选项是否存在多个正确答案或所有选项都不正确的情况。通过这四道关卡的题目约占生成题目总量的65%。
- 设计动机：LLM生成的题目中约35%存在各种质量问题（事实错误、歧义、重复），直接使用会严重影响基准的可靠性

损失函数 / 训练策略¶

本文方法不涉及模型训练。知识点抽取和题目生成使用GPT-4的零样本/少样本能力。质量过滤中的"解题者"使用不同于"出题者"的模型（如出题用GPT-4，解题用Claude-3），以减少系统性的LLM一致性偏差。难度校准通过让5个不同规模的LLM（从7B到70B）作答每道题目，将通过率作为难度估计。

实验关键数据¶

主实验¶

领域	生成题目数	过滤后数量	人类正确性评估	人类编写对照	LLM区分度
NLP	2,850	1,812	91.3%	94.7%	0.82
ML	2,400	1,536	89.7%	93.2%	0.79
生物信息学	1,800	1,098	87.2%	92.1%	0.75
物理学	1,500	945	85.8%	91.5%	0.73
综合	8,550	5,391	88.5%	92.9%	0.77

消融实验¶

配置	人类正确性评估	题目多样性	说明
Full MDQF	91.3%	0.78	完整质量过滤
w/o 正确性验证	82.1%	0.78	正确性下降-9.2%
w/o 唯一性检查	91.0%	0.52	正确性不变但多样性骤降
w/o 可解答性验证	86.5%	0.76	部分题目没有论文依据
w/o 检索增强	84.7%	0.71	题目质量和多样性均下降
仅事实层知识点	90.8%	0.45	正确性高但题目简单单一

关键发现¶

人类正确性评估（91.3%）与人工编写题目（94.7%）的差距仅3.4个百分点，说明自动生成的质量已经接近人工水平
正确性验证是最关键的过滤步骤（去掉后正确性下降9.2%），而唯一性检查主要影响多样性而非正确性
LLM区分度随领域专业性增加而下降（NLP: 0.82 → 物理学: 0.73），说明LLM在高度专业领域的知识不足影响了题目的鉴别力
层次化知识点抽取（包含事实+概念+推理三层）相比仅抽取事实层知识点，多样性提升了73%（0.45→0.78），这对基准的诊断价值至关重要
过滤通过率约63%（5391/8550），意味着大规模生成+严格过滤是可行的自动化策略

亮点与洞察¶

将论文视为"可测试知识的结构化容器"这一视角很有创意——不同章节对应不同类型的知识点，这种结构化的信息利用比简单地让LLM"出题"要精细得多。这一思路可以扩展到教育领域（从教科书自动生成考题）
"出题者和解题者使用不同模型"的设计有效缓解了LLM的一致性偏差——同一个模型可能出的题自己都能答对但对其他模型无效。交叉验证策略值得借鉴
难度校准方法很实用：用多个不同规模LLM的通过率作为难度代理，这比人类评估难度更加标准化和可复现

局限与展望¶

当前方法主要适用于英文科学论文，跨语言和非英文论文的处理需要额外适配
推理层知识点的题目正确性（85%）低于事实层（93%），说明复杂推理题的自动生成仍有改进空间
生成题目可能存在"论文特异性"问题——太过依赖特定论文细节的题目可能对评估通用能力帮助有限
未来可以结合持续学习，随着新论文发表自动更新和扩展基准，解决基准老化问题

评分¶

新颖性: ⭐⭐⭐⭐ 从论文自动生成评估基准的思路新颖，层次化抽取和质量过滤设计精巧
实验充分度: ⭐⭐⭐⭐ 多领域评估，含人类评估对照，消融分析完整
写作质量: ⭐⭐⭐⭐ 流水线描述清晰，各模块动机论述充分
价值: ⭐⭐⭐⭐⭐ 对解决基准老化和构建成本问题有重要意义，方法可直接落地