MisMatched: A Benchmark for Scientific Natural Language Inference¶
会议: ACL 2025
arXiv: 2506.04603
代码: GitHub
领域: NLI / 科学文本理解
关键词: 科学NLI, 领域外评估, 跨领域泛化, 心理学, 工程, 公共卫生, 隐式关系
一句话总结¶
引入 MisMatched——首个覆盖非 CS 领域(心理学、工程、公共卫生)的科学 NLI 评估基准,2700 对人工标注句子对,最佳基线 Macro F1 仅 78.17%,且发现训练时加入隐式关系句子对可提升性能。
背景与动机¶
科学 NLI 将研究论文句子对分为蕴含/推理/对比/中性四类。现有数据集仅覆盖 CS 领域,训练集通过远程监督构建仅捕获显式关系。
核心问题¶
现有科学 NLI 模型在非 CS 领域的域外泛化如何?隐式关系能否提升模型?
方法详解¶
MisMatched 构建¶
- 三个非 CS 领域:心理学、工程、公共卫生
- 仅 dev(300)+test(2400),四类标签,人工标注
- 类似 MNLI mismatched 设计理念
基线¶
- 4 SLM(BERT/SciBERT/RoBERTa/XLNet)微调 + 4 LLM(Llama/Mistral/Phi-3)提示
- 在 CS 领域训练集训练,MisMatched 上测试
隐式关系增强¶
通过加入无链接短语但有 NLI 关系的相邻句子对扩充训练集。
实验关键数据¶
| 模型 | 类型 | MisMatched F1↑ |
|---|---|---|
| SciBERT | SLM | 78.17% |
| Phi-3 | LLM | 57.16% |
- SLM 远超 LLM——微调仍有显著优势
- 加入隐式关系 → 性能提升
亮点¶
- 首个非 CS 科学 NLI 基准
- OOD 测试设计评估真正泛化
- 隐式关系是被忽略的有价值资源
局限性 / 可改进方向¶
- 仅 3 个非 CS 领域
- 无训练集,标注规模相对小(2700对)
- 远程监督标签可能不准确
与相关工作的对比¶
- vs SciNLI/MSciNLI:仍在 CS 内;MisMatched 真正跨领域
- vs MNLI mismatched:设计理念一致
启发与关联¶
- 科学 NLI 跨领域泛化仍是开放挑战
- LLM 在精确分类科学语义任务上不如微调模型
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个非CS科学NLI基准
- 实验充分度: ⭐⭐⭐⭐ 4 SLM + 4 LLM 基线
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ 重要评估资源