STEM-PoM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing¶

会议: ACL2025 arXiv: 2411.00387 代码: jiaruzouu/STEM-PoM 领域: llm_nlp 关键词: 数学符号分类, Part-of-Math Tagging, Benchmark, 文档解析, 数学推理

一句话总结¶

提出 STEM-PoM 基准数据集（2K+ 数学符号实例），将 Part-of-Math Tagging 与文档解析结合，系统评估 LLM 对数学符号上下文多义性的分类能力，并证明符号分类能力的提升可迁移增强下游数学推理表现。

数学符号的上下文多义性：同一数学符号（如 \(y\)）在不同公式和上下文中可能分别是变量、常量或算子，LLM 难以仅凭符号本身判断其语义角色。
Part-of-Math Tagging 数据匮乏：类比 Part-of-Speech Tagging，数学领域的符号标注任务长期缺乏大规模、多学科、多分类的基准数据集。
现有数据集局限：已有工作（如 DLMF 上的标注）仅来自单一文献，符号分类类型单一且自洽，无法反映真实文献中跨学科的符号多义问题。
文档解析中的数学理解瓶颈：传统方法（如 LaTeXML）和先进 LLM 在处理数学密集文档时，对抽象符号的模式匹配和语义理解均存在显著不足。
数学推理的基础能力：准确分类数学符号是 LLM 进行更复杂数学推理（如解题、证明）的前置能力，但这一环节尚未被系统评估。
多学科覆盖需求：真实 STEM 文献横跨数学、物理、化学、计算机等领域，需要一个覆盖广泛且标注层次丰富的评估基准。

做什么：从 arXiv 数学密集文档中提取数学符号，构建包含 2,109 个标注实例的两级分层分类基准，并在此基准上系统评估多种 LLM。
为什么：填补 Part-of-Math Tagging 在大规模多学科场景下的数据空白，为评估和提升 LLM 的数学符号理解能力提供标准化工具。
怎么做：从 10,000 篇 arXiv 论文中随机采样，结合 MTDE 预过滤符号集，由 33 位领域专家使用自研 STEM-PoM Labeler 工具进行标注。最终从 453 篇文章中提取 2,109 个符号实例，平均每篇 4.7 个符号。

做什么：定义第一级4类主属性（Variable / Constant / Operator / Unit Descriptor）和第二级6类子属性（Scalar/Vector/Matrix 用于变量；Local/Global/Discipline-Specific 用于常量和算子）。
为什么：数学符号的语义不仅取决于"是什么类型"，还取决于更细粒度的维度/作用域信息。两级分类可以更全面地评估模型的理解深度。
怎么做：每个符号首先由专家标注主属性，再根据上下文标注子属性。标注过程经过一致性检查和互标注者一致性验证（Cohen's Kappa 平均 0.903）。

做什么：在 STEM-PoM 上 LoRA 微调后，评估模型在 GSM8K、MATH、OlympiadBench 上的推理表现变化。
为什么：验证"数学符号分类能力的提升能否迁移到数学推理任务"，从而证明 STEM-PoM 的实际价值。
怎么做：对 Llama2-13B、Mixtral-8x7B、Llama3.1-70B、GPT-4o 先在 STEM-PoM 上 LoRA 微调，再用 3-shot CoT 在下游任务上评估 pass@1。

发现：SOTA 模型（GPT-4o）在全文上下文下仅达 68.5%，远未解决该任务。GPT-4o 在三种上下文长度下均稳定领先 Llama3.1-70B 约 16%，说明预训练知识量是决定性因素。小模型从长上下文中获益更大。

模型	GSM8K	MATH	OlympiadBench	平均
Llama2-13B	42.5%	29.1%	11.5%	27.7%
+ LoRA (STEM-PoM)	44.6% (+2.1)	31.3% (+2.2)	13.4% (+1.9)	29.8% (+2.1)
Mixtral-8x7B	72.4%	32.6%	13.7%	39.6%
+ LoRA (STEM-PoM)	74.1% (+1.7)	34.1% (+1.5)	16.4% (+2.7)	41.5% (+1.9)
Llama3.1-70B	91.6%	47.1%	26.4%	55.0%
+ LoRA (STEM-PoM)	93.2% (+1.6)	48.8% (+1.7)	28.2% (+1.8)	56.7% (+1.7)
GPT-4o	94.3%	88.7%	39.6%	74.2%
+ LoRA (STEM-PoM)	95.2% (+0.9)	88.9% (+0.2)	41.2% (+1.6)	75.1% (+0.9)

发现：所有模型在 STEM-PoM 微调后下游推理均有提升（平均 +0.9~+2.1），在高难度任务 OlympiadBench 上提升尤为明显（最高 +2.7），说明符号分类能力确实可正向迁移到数学推理。

DLMF 基于单一文献（Digital Library of Mathematical Functions），符号分类自洽且无多义性。STEM-PoM 来自 10,000 篇多学科 arXiv 论文，充分反映真实文献中的上下文多义性和跨学科变异，更贴近实际应用场景。

MTDE 聚焦符号定义提取（NER 式任务），不涉及符号属性的分层分类。STEM-PoM 复用 MTDE 的预过滤符号集，但在此基础上设计了两级分类体系，任务更深入——要求模型不仅识别符号，还要理解其在特定上下文中的数学角色。

这些 Benchmark 评估的是端到端解题能力，而 STEM-PoM 关注的是更基础的符号理解能力。两者互补：本文实验证明 STEM-PoM 上的能力提升可正向迁移到这些下游推理任务。