AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark¶
会议: ACL 2025
arXiv: 2412.13102
代码: GitHub
领域: 信息检索 / 基准评测
关键词: 信息检索基准, 自动生成, 异构, 动态更新, LLM生成数据, 多语言多领域
一句话总结¶
提出 AIR-Bench——首个自动化、异构、动态的信息检索评测基准,通过 LLM 自动从真实语料生成高质量测试数据(三阶段管线:语料准备→候选生成→质量控制),覆盖 2 类任务、9 个领域、13 种语言共 69 个数据集,与人工标注数据高度一致,且持续动态更新避免数据泄露。
背景与动机¶
IR 评测面临三大限制:(1) 现有基准限于预定义领域和人工标注,无法高效覆盖新兴领域;(2) 人工标注成本高且不可扩展;(3) 固定测试集可能被检索模型训练数据覆盖(数据泄露)。MS MARCO/NQ 限于英语 QA,Mr.TyDi/MIRACL 限于特定语言数量,BEIR/MTEB 聚合已有数据集但不可动态扩展。
核心问题¶
如何构建一个成本高效、可动态扩展到新领域的 IR 评测基准,同时避免数据泄露?
方法详解¶
三阶段数据生成管线¶
- 语料准备:收集真实世界领域语料(新闻/金融/医学/法律等多个领域,多种语言)
- 候选生成:
- LLM 从文档中生成查询(确保查询与文档的相关性)
- 使用检索模型获取候选文档列表
- LLM 对查询-文档对进行相关性标注
- 质量控制:
- 过滤低质量查询(过于通用/过于具体)
- 校验标注一致性
- 与人工标注对比验证生成数据可靠性
三大特性¶
- 自动化:全流程 LLM 驱动,可即时支持新领域
- 异构性:2 任务(QA + 长文档检索)× 9 领域 × 13 语言 = 69 数据集
- 动态性:定期更新版本(已有 24.04 和 24.05),持续增加领域和语言
验证¶
- 生成测试数据与人工标注高度一致(检索模型在两种标注上排名一致)
- 公开排行榜和评估工具
实验关键数据¶
| 维度 | 覆盖 |
|---|---|
| 任务 | 2(QA检索 + 长文档检索) |
| 领域 | 9(新闻/金融/医学/法律/科技等) |
| 语言 | 13(含中英日韩法德等) |
| 数据集总数 | 69 |
| 版本 | 24.04, 24.05(持续更新) |
- 生成数据与人工标注的模型排名相关性高
- 测试数据几乎不可能被现有检索器训练集覆盖
亮点¶
- 完全自动化生成可靠的 IR 标注:LLM 生成 + 质量控制达到人工标注水平
- 动态版本避免数据泄露:持续更新使"刷榜"无意义
- 覆盖面广:13 语言 × 9 领域远超现有基准
- 公开工具和排行榜:社区友好,可评估任何 IR 模型
局限性 / 可改进方向¶
- 生成质量依赖 LLM:不同 LLM 生成的数据质量可能不一致
- 自动标注可能有盲区:某些领域 LLM 知识不足可能导致标注偏差
- 语料选择偏差:收集的语料可能不代表领域全貌
- 仅文本检索:多模态检索未覆盖
与相关工作的对比¶
- vs BEIR/MTEB:聚合已有数据集,不可动态更新;AIR-Bench 自动生成+持续更新
- vs MS MARCO/NQ:限于英语 QA;AIR-Bench 多语言多领域
- vs RAG 评测:RAG 评测关注生成质量;AIR-Bench 关注纯检索质量
启发与关联¶
- LLM 自动生成 IR 评测数据是评测范式转变——从昂贵人工标注到可扩展自动生成
- 动态更新基准是对抗数据泄露和过拟合的有力武器
- 可推广到其他需要大规模标注的评测任务(如摘要/翻译评测)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 自动化+异构+动态的三合一创新
- 实验充分度: ⭐⭐⭐⭐ 69 数据集 + 与人工标注的一致性验证
- 写作质量: ⭐⭐⭐⭐ 管线描述清晰,表格丰富
- 价值: ⭐⭐⭐⭐⭐ 对 IR 社区有基础设施级贡献