跳转至

MisMatched: A Benchmark for Scientific Natural Language Inference

会议: ACL 2025
arXiv: 2506.04603
代码: GitHub
领域: NLI / 科学文本理解
关键词: 科学NLI, 领域外评估, 跨领域泛化, 心理学, 工程, 公共卫生, 隐式关系

一句话总结

引入 MisMatched——首个覆盖非 CS 领域(心理学、工程、公共卫生)的科学 NLI 评估基准,2700 对人工标注句子对,最佳基线 Macro F1 仅 78.17%,且发现训练时加入隐式关系句子对可提升性能。

背景与动机

科学 NLI 将研究论文句子对分为蕴含/推理/对比/中性四类。现有数据集仅覆盖 CS 领域,训练集通过远程监督构建仅捕获显式关系。

核心问题

现有科学 NLI 模型在非 CS 领域的域外泛化如何?隐式关系能否提升模型?

方法详解

MisMatched 构建

  • 三个非 CS 领域:心理学、工程、公共卫生
  • 仅 dev(300)+test(2400),四类标签,人工标注
  • 类似 MNLI mismatched 设计理念

基线

  • 4 SLM(BERT/SciBERT/RoBERTa/XLNet)微调 + 4 LLM(Llama/Mistral/Phi-3)提示
  • 在 CS 领域训练集训练,MisMatched 上测试

隐式关系增强

通过加入无链接短语但有 NLI 关系的相邻句子对扩充训练集。

实验关键数据

模型 类型 MisMatched F1↑
SciBERT SLM 78.17%
Phi-3 LLM 57.16%
  • SLM 远超 LLM——微调仍有显著优势
  • 加入隐式关系 → 性能提升

亮点

  • 首个非 CS 科学 NLI 基准
  • OOD 测试设计评估真正泛化
  • 隐式关系是被忽略的有价值资源

局限性 / 可改进方向

  • 仅 3 个非 CS 领域
  • 无训练集,标注规模相对小(2700对)
  • 远程监督标签可能不准确

与相关工作的对比

  • vs SciNLI/MSciNLI:仍在 CS 内;MisMatched 真正跨领域
  • vs MNLI mismatched:设计理念一致

启发与关联

  • 科学 NLI 跨领域泛化仍是开放挑战
  • LLM 在精确分类科学语义任务上不如微调模型

评分

  • 新颖性: ⭐⭐⭐⭐ 首个非CS科学NLI基准
  • 实验充分度: ⭐⭐⭐⭐ 4 SLM + 4 LLM 基线
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐⭐ 重要评估资源