跳转至

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark

会议: ACL 2025
arXiv: 2412.13102
代码: GitHub
领域: 信息检索 / 基准评测
关键词: 信息检索基准, 自动生成, 异构, 动态更新, LLM生成数据, 多语言多领域

一句话总结

提出 AIR-Bench——首个自动化、异构、动态的信息检索评测基准,通过 LLM 自动从真实语料生成高质量测试数据(三阶段管线:语料准备→候选生成→质量控制),覆盖 2 类任务、9 个领域、13 种语言共 69 个数据集,与人工标注数据高度一致,且持续动态更新避免数据泄露。

背景与动机

IR 评测面临三大限制:(1) 现有基准限于预定义领域和人工标注,无法高效覆盖新兴领域;(2) 人工标注成本高且不可扩展;(3) 固定测试集可能被检索模型训练数据覆盖(数据泄露)。MS MARCO/NQ 限于英语 QA,Mr.TyDi/MIRACL 限于特定语言数量,BEIR/MTEB 聚合已有数据集但不可动态扩展。

核心问题

如何构建一个成本高效、可动态扩展到新领域的 IR 评测基准,同时避免数据泄露?

方法详解

三阶段数据生成管线

  1. 语料准备:收集真实世界领域语料(新闻/金融/医学/法律等多个领域,多种语言)
  2. 候选生成
  3. LLM 从文档中生成查询(确保查询与文档的相关性)
  4. 使用检索模型获取候选文档列表
  5. LLM 对查询-文档对进行相关性标注
  6. 质量控制
  7. 过滤低质量查询(过于通用/过于具体)
  8. 校验标注一致性
  9. 与人工标注对比验证生成数据可靠性

三大特性

  • 自动化:全流程 LLM 驱动,可即时支持新领域
  • 异构性:2 任务(QA + 长文档检索)× 9 领域 × 13 语言 = 69 数据集
  • 动态性:定期更新版本(已有 24.04 和 24.05),持续增加领域和语言

验证

  • 生成测试数据与人工标注高度一致(检索模型在两种标注上排名一致)
  • 公开排行榜和评估工具

实验关键数据

维度 覆盖
任务 2(QA检索 + 长文档检索)
领域 9(新闻/金融/医学/法律/科技等)
语言 13(含中英日韩法德等)
数据集总数 69
版本 24.04, 24.05(持续更新)
  • 生成数据与人工标注的模型排名相关性高
  • 测试数据几乎不可能被现有检索器训练集覆盖

亮点

  • 完全自动化生成可靠的 IR 标注:LLM 生成 + 质量控制达到人工标注水平
  • 动态版本避免数据泄露:持续更新使"刷榜"无意义
  • 覆盖面广:13 语言 × 9 领域远超现有基准
  • 公开工具和排行榜:社区友好,可评估任何 IR 模型

局限性 / 可改进方向

  • 生成质量依赖 LLM:不同 LLM 生成的数据质量可能不一致
  • 自动标注可能有盲区:某些领域 LLM 知识不足可能导致标注偏差
  • 语料选择偏差:收集的语料可能不代表领域全貌
  • 仅文本检索:多模态检索未覆盖

与相关工作的对比

  • vs BEIR/MTEB:聚合已有数据集,不可动态更新;AIR-Bench 自动生成+持续更新
  • vs MS MARCO/NQ:限于英语 QA;AIR-Bench 多语言多领域
  • vs RAG 评测:RAG 评测关注生成质量;AIR-Bench 关注纯检索质量

启发与关联

  • LLM 自动生成 IR 评测数据是评测范式转变——从昂贵人工标注到可扩展自动生成
  • 动态更新基准是对抗数据泄露和过拟合的有力武器
  • 可推广到其他需要大规模标注的评测任务(如摘要/翻译评测)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 自动化+异构+动态的三合一创新
  • 实验充分度: ⭐⭐⭐⭐ 69 数据集 + 与人工标注的一致性验证
  • 写作质量: ⭐⭐⭐⭐ 管线描述清晰,表格丰富
  • 价值: ⭐⭐⭐⭐⭐ 对 IR 社区有基础设施级贡献