Benchmarking Agentic Systems in Automated Scientific Information Extraction with ChemX¶
会议: NeurIPS 2025
arXiv: 2510.00795
代码: ChemX (有)
领域: Agent / 科学信息提取
关键词: 化学信息提取, 多模态Benchmark, Agent评估, 纳米材料, 小分子
一句话总结¶
构建 ChemX——10 个由领域专家手工标注和验证的多模态化学数据提取基准数据集,涵盖纳米材料和小分子两大领域,系统评估了 ChatGPT Agent、SLM-Matrix、FutureHouse、nanoMINER 等 SOTA Agent 系统以及 GPT-5/GPT-5 Thinking 等前沿 LLM;提出的单 Agent 方法通过结构化文档预处理(marker-pdf → Markdown → LLM 提取)在纳米酶数据集上达到 F1=0.61,超越所有通用多 Agent 系统,同时揭示了化学信息提取仍存在 SMILES 解析失败、术语歧义等系统性挑战。
研究背景与动机¶
-
领域现状:机器学习在化学发现中取得了显著进展,但高度依赖结构化数据。现有的化学数据集(如 PubChem、CSD)主要面向属性预测和结构分析,不适用于评估自动化信息提取系统。近年来,基于 Agent 的自动化数据提取方法(如 nanoMINER、SLM-Matrix)已经出现,但各自局限于特定子领域。
-
现有痛点:(a) 缺乏覆盖多模态(文本+表格+图片)的化学信息提取统一基准——现有系统各自用不同数据集评估,无法横向比较;(b) 专用 Agent 系统(如 nanoMINER)虽然在单一数据集上效果好,但完全无法泛化到其他化学领域;(c) 通用 Agent 框架(ChatGPT Agent、FutureHouse)在处理化学专用术语和 SMILES 表示时错误率极高。
-
核心矛盾:化学数据的异质性(纳米材料需要合成条件/物化性质/结构参数,小分子需要 SMILES/生物活性/分子描述符)使得通用方法难以精确提取,而专用方法又无法跨域泛化——这个矛盾在没有统一基准的情况下甚至无法被量化。
-
本文要解决什么? 构建首个系统化、多领域、多模态的化学信息提取基准,并在此基础上公平评估现有 Agent 系统和 LLM 的实际提取能力,找到当前技术的瓶颈。
-
切入角度:从"化学数据的本质异质性"出发,而不是从某种特定方法出发。作者认为只有先建立一个覆盖多样化化学领域、不同难度级别的基准,才能真正推动自动化提取技术的进步。
-
核心idea一句话:用 10 个专家验证的多模态数据集统一评估通用和专用 Agent,揭示化学信息提取中 SMILES 解析、术语标准化、上下文依赖解析的系统性瓶颈。
方法详解¶
整体框架¶
ChemX 包含两个层面:(1) 基准数据集层——10 个手工标注数据集,覆盖纳米材料(纳米酶、碳点、金属有机框架等)和小分子(螯合配合物、MIC/IC50 生物活性等),每个数据集含标准化 schema 和元数据;(2) 评估实验层——选取代表性数据集(最低复杂度的纳米酶和螯合配合物),统一评估通用 LLM、ChatGPT Agent、专用多 Agent 系统,以及作者提出的单 Agent 方法。
关键设计¶
- ChemX 数据集体系:
- 做什么:提供 10 个覆盖纳米材料和小分子两大领域的标注数据集
- 核心思路:小分子数据集聚焦分子描述符(SMILES、生物活性指标 MIC/IC50、化合物元数据);纳米材料数据集覆盖更广泛的参数(物化性质、合成条件、结构特征、应用效果)。所有数据集由领域专家手工标注并交叉验证
-
设计动机:化学信息提取的核心难点在于数据异质性——不同领域的提取目标完全不同,需要覆盖这种多样性才能真正评估系统能力。每个数据集标注了复杂度等级,方便选择不同难度进行评估
-
单 Agent 方法(本文提出):
- 做什么:在 LLM 提取之前先做结构化文档预处理,解决 OpenAI 黑盒 PDF 处理不可控的问题
- 核心思路:使用 marker-pdf SDK 将论文 PDF 拆解为文本块、表格和图片三类元素,保持文档结构语义完整性。文本和表格转为 Markdown,图片替换为本地路径后由 GPT-4o 生成描述性文本,插入
<DESCRIPTION_FROM_IMAGE>标签。最终的结构化 Markdown 文件交由 GPT-4.1/GPT-5/GPT-OSS-20b 进行提取,结果汇总为 CSV -
设计动机:ChatGPT Agent 等系统直接处理 PDF/截图,但预处理过程不透明、不可重复——论文图表被截图后 OCR 质量不稳定,导致提取结果波动。通过显式控制预处理流程,可以确保可复现性和语义完整性
-
系统化评估体系:
- 做什么:从五个维度(PDF 输入支持、输出格式可控、泛化性、端到端提取能力、多模态支持)定性比较所有系统
- 核心思路:不仅用 Precision/Recall/F1 数值对比,还从系统能力角度分析。对于无法完成端到端提取任务的系统(如 OpenChemIE 只能提取分子 ID 和 SMILES、Eunomia 无法生成正确输出格式)直接排除
- 设计动机:不同 Agent 系统的设计目标差异很大(有些只做分子识别,有些只做材料数据),需要先界定"完成完整提取任务"的标准,才能公平比较
评估指标¶
- 按数据集各列的 Precision / Recall / F1 分别计算,取列平均作为整体指标
- 同一 prompt 模板统一用于所有方法,确保可比性
实验关键数据¶
主实验(按列平均提取指标)¶
| 方法 | 纳米酶 Precision | 纳米酶 Recall | 纳米酶 F1 | 螯合配合物 Precision | 螯合配合物 Recall | 螯合配合物 F1 |
|---|---|---|---|---|---|---|
| GPT-5 | 0.33 | 0.53 | 0.37 | 0.45 | 0.18 | 0.23 |
| GPT-5 Thinking | 0.01 | 0.04 | 0.02 | 0.22 | 0.18 | 0.19 |
| Single-agent (GPT-4.1) | 0.41 | 0.73 | 0.52 | 0.35 | 0.21 | 0.27 |
| Single-agent (GPT-5) | 0.47 | 0.75 | 0.58 | 0.32 | 0.39 | 0.35 |
| Single-agent (GPT-OSS) | 0.56 | 0.67 | 0.61 | 0.36 | 0.31 | 0.33 |
| ChatGPT Agent | - | - | -(违规) | 0.50 | 0.42 | 0.46 |
| SLM-Matrix | 0.14 | 0.55 | 0.22 | 0.40 | 0.38 | 0.39 |
| FutureHouse | 0.05 | 0.31 | 0.09 | 0.12 | 0.06 | 0.06 |
| nanoMINER** | 0.90 | 0.74 | 0.80 | - | - | - |
ChatGPT Agent 在纳米酶数据集上因"违规"而无法完成提取任务
*nanoMINER 仅支持纳米酶数据集,无法泛化
系统能力对比¶
| 方法 | PDF输入 | 输出格式可控 | 泛化性 | 端到端 | 多模态 |
|---|---|---|---|---|---|
| Single-agent (本文) | ✓ | ✓ | ✓ | ✓ | ✓ |
| ChatGPT Agent | ✓ | ✗ | ✗ | ✓ | ✓ |
| SLM-Matrix | ✓ | ✓ | ✓ | ✓ | ✓ |
| nanoMINER | ✓ | ✓ | ✗ | ✓ | ✓ |
| FutureHouse | ✗ | ✓ | ✓ | ✓ | ✓ |
关键发现¶
- 文档预处理是提升关键:GPT-5 直接处理 PDF 的 F1 为 0.37,加了 marker-pdf 预处理后提升到 0.58(+21pp),Recall 从 0.53 跳到 0.75——说明结构化输入对提取质量有决定性影响
- GPT-5 Thinking 反而更差:在纳米酶上 F1 仅 0.02,"深度推理"模式在结构化提取任务上适得其反,模型倾向于过度推理而偏离提取指令
- 专用系统泛化性为零:nanoMINER 在纳米酶上 F1=0.80 遥遥领先,但完全无法处理小分子数据集——这证实了构建统一基准的必要性
- SMILES 解析是系统性瓶颈:所有通用方法在小分子数据集上表现系统性偏低,核心原因是缺乏将分子结构图像转换为 SMILES 字符串的工具能力
- ChatGPT Agent 的安全限制问题:在纳米酶数据集上因"政策违规"拒绝提取——化学术语(如催化反应条件)触发了安全过滤
亮点与洞察¶
- 首个化学信息提取 Agent 基准——ChemX 填补了化学领域自动化提取评估的空白,10 个数据集覆盖不同难度和领域,为社区提供了标准化评估框架。数据集托管在 HuggingFace 上可直接使用,降低了复现门槛。
- "预处理 > 模型能力"的发现——单 Agent 方法通过简单的 marker-pdf 结构化预处理就超越了复杂的多 Agent 系统,说明在信息提取任务中,输入质量比推理深度更重要。这个洞察可推广到其他科学文献处理任务。
- 揭示了 LLM 安全机制的意外副作用——ChatGPT Agent 因化学术语触发安全过滤而无法完成合法的科学数据提取,暴露了当前 LLM 安全对齐在科学应用场景中的误报问题。
局限性 / 可改进方向¶
- 仅评估了 2 个数据集(纳米酶 + 螯合配合物),虽然 ChemX 有 10 个数据集,但实际 benchmark 实验的覆盖范围有限
- 闭源文章占绝大多数,实际实验只用了开放获取论文(每个数据集 2 篇),数据量偏小
- 缺乏对 Agent 编排策略的深入分析——仅比较了系统级结果,没有分析不同 Agent 架构(单 Agent vs 多 Agent、工具调用策略、上下文管理)对提取质量的具体影响
- SMILES 转换问题未给出解决方案——识别了瓶颈但没有提出缓解方法,可以集成 OSRA/MolScribe 等分子图像识别工具
- 可改进方向:扩大评估数据集覆盖、集成分子图像识别工具、分析不同 Agent 编排策略的影响
相关工作与启发¶
- vs nanoMINER:nanoMINER 是专为纳米酶设计的多 Agent 系统,在纳米酶上 F1=0.80 远超通用方法,但泛化能力为零——专用 vs 通用是化学 AI 的核心矛盾
- vs FutureHouse:FutureHouse 作为通用科学 Agent 平台,在化学提取上表现最差(F1=0.09),说明通用科学推理能力不能直接迁移到结构化信息提取
- vs SLM-Matrix:使用小语言模型的多 Agent 系统在两个数据集上表现中等,但在纳米酶上 Recall 较高(0.55),说明小模型也有潜力——关键是 Agent 编排策略
- 本文对 AI for Science 领域的 Agent 系统建设有直接参考价值——化学提取可作为评估 Agent 工具使用能力和领域适应能力的试金石
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统化化学信息提取 Agent 基准,填补重要空白;方法层面创新有限(预处理+LLM提取)
- 实验充分度: ⭐⭐⭐⭐ 10 个数据集构建完善,6 个系统横向对比,但实际评估仅覆盖 2 个数据集
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验对比全面,系统能力定性分析有价值
- 价值: ⭐⭐⭐⭐⭐ 对 AI for Science 中的自动化信息提取有直接推动,ChemX 可成为社区标准基准