SciImpact: A Multi-Dimensional, Multi-Field Benchmark for Scientific Impact Prediction¶

会议: ACL 2026
arXiv: 2604.17141
代码: 项目主页
领域: LLM评估 / 科学计量学
关键词: 科学影响力预测, 多维度基准, 引用预测, 学术奖项, 多任务指令微调

一句话总结¶

本文构建 SciImpact——首个跨 19 个学科领域、涵盖 7 个影响力维度（引用、奖项、专利、媒体、代码、数据集、模型）的大规模科学影响力预测基准，包含 215,928 个对比论文对，通过多任务微调使 4B 模型超越 o4-mini 等大模型。

领域现状：科学文献指数级增长，需要自动化方法评估和预测研究影响力。现有工作主要关注引用数预测。

现有痛点：(1) 引用数仅是影响力的一个代理指标，无法捕捉奖项认可、公众关注、技术转化等其他维度；(2) 现有数据集通常只覆盖计算机科学和生物医学，缺乏跨学科覆盖；(3) 没有统一基准支持多维度、多领域的系统性比较。

核心矛盾：科学影响力是多维度的，但评估基准是单维度的。

本文目标：构建覆盖 7 个影响力维度和 19 个学科领域的统一预测基准。

切入角度：将影响力预测建模为对比对分类（给定两篇论文/工件，判断哪个影响力更大），整合异构数据源（OpenAlex、Papers with Code、HuggingFace、SciSciNet）。

核心 idea：通过多任务指令微调在所有维度上联合训练，使小模型在多维度影响力预测上超越大模型。

SciImpact 构建分三阶段：(1) 候选检索——从各数据源获取论文和工件；(2) 影响力标注与对比对生成——按维度特定规则构建有意义的对比对；(3) 过滤与质量控制——确保文本完整性和领域平衡。

七维度影响力体系:
- 功能：全面覆盖学术影响力的各个方面
- 核心思路：引用（学术引用次数）、奖项（最佳论文奖/诺贝尔奖/MDPI奖）、专利（被专利引用数）、媒体（新闻和社交媒体提及数）、代码（GitHub 星标数）、数据集（HuggingFace 下载数）、模型（HuggingFace 下载数）
- 设计动机：不同维度反映不同类型的影响——学术影响(引用)、荣誉认可(奖项)、技术转化(专利)、公众关注(媒体)、实践采用(代码/数据/模型)
对比对构建规则:
- 功能：确保对比对反映有意义的影响力差异
- 核心思路：计数类维度要求两篇论文都超过最小阈值（如引用≥10）且比率≥2；奖项维度是二元对比（获奖 vs 未获奖同venue论文）。同年/同venue/同作者等约束确保可比性
- 设计动机：避免琐碎的对比（如 0 引用 vs 100 引用）和不可比的对比（如不同年份论文的引用数）
多任务指令微调:
- 功能：训练统一的影响力预测模型
- 核心思路：聚合所有维度的训练数据，用指令格式统一表示不同维度的预测任务，在 Qwen3-4B 和 LLaMA-3.2-3B 上微调
- 设计动机：不同维度之间可能存在迁移学习效应，联合训练比分维度训练更高效

标准指令微调（SFT），交叉熵损失。评估使用二元分类准确率。