AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark¶

会议: ACL 2025
arXiv: 2412.13102
代码: GitHub
领域: 信息检索 / 基准评测
关键词: 信息检索基准, 自动生成, 异构, 动态更新, LLM生成数据, 多语言多领域

一句话总结¶

提出 AIR-Bench——首个自动化、异构、动态的信息检索评测基准，通过 LLM 自动从真实语料生成高质量测试数据（三阶段管线：语料准备→候选生成→质量控制），覆盖 2 类任务、9 个领域、13 种语言共 69 个数据集，与人工标注数据高度一致，且持续动态更新避免数据泄露。

背景与动机¶

IR 评测面临三大限制：(1) 现有基准限于预定义领域和人工标注，无法高效覆盖新兴领域；(2) 人工标注成本高且不可扩展；(3) 固定测试集可能被检索模型训练数据覆盖（数据泄露）。MS MARCO/NQ 限于英语 QA，Mr.TyDi/MIRACL 限于特定语言数量，BEIR/MTEB 聚合已有数据集但不可动态扩展。

核心问题¶

如何构建一个成本高效、可动态扩展到新领域的 IR 评测基准，同时避免数据泄露？

方法详解¶

三阶段数据生成管线¶

语料准备：收集真实世界领域语料（新闻/金融/医学/法律等多个领域，多种语言）
候选生成：
LLM 从文档中生成查询（确保查询与文档的相关性）
使用检索模型获取候选文档列表
LLM 对查询-文档对进行相关性标注
质量控制：
过滤低质量查询（过于通用/过于具体）
校验标注一致性
与人工标注对比验证生成数据可靠性

三大特性¶

自动化：全流程 LLM 驱动，可即时支持新领域
异构性：2 任务（QA + 长文档检索）× 9 领域 × 13 语言 = 69 数据集
动态性：定期更新版本（已有 24.04 和 24.05），持续增加领域和语言

验证¶

生成测试数据与人工标注高度一致（检索模型在两种标注上排名一致）
公开排行榜和评估工具

实验关键数据¶

维度	覆盖
任务	2（QA检索 + 长文档检索）
领域	9（新闻/金融/医学/法律/科技等）
语言	13（含中英日韩法德等）
数据集总数	69
版本	24.04, 24.05（持续更新）

生成数据与人工标注的模型排名相关性高
测试数据几乎不可能被现有检索器训练集覆盖

亮点¶

完全自动化生成可靠的 IR 标注：LLM 生成 + 质量控制达到人工标注水平
动态版本避免数据泄露：持续更新使"刷榜"无意义
覆盖面广：13 语言 × 9 领域远超现有基准
公开工具和排行榜：社区友好，可评估任何 IR 模型

局限性 / 可改进方向¶

生成质量依赖 LLM：不同 LLM 生成的数据质量可能不一致
自动标注可能有盲区：某些领域 LLM 知识不足可能导致标注偏差
语料选择偏差：收集的语料可能不代表领域全貌
仅文本检索：多模态检索未覆盖

与相关工作的对比¶

vs BEIR/MTEB：聚合已有数据集，不可动态更新；AIR-Bench 自动生成+持续更新
vs MS MARCO/NQ：限于英语 QA；AIR-Bench 多语言多领域
vs RAG 评测：RAG 评测关注生成质量；AIR-Bench 关注纯检索质量

启发与关联¶

LLM 自动生成 IR 评测数据是评测范式转变——从昂贵人工标注到可扩展自动生成
动态更新基准是对抗数据泄露和过拟合的有力武器
可推广到其他需要大规模标注的评测任务（如摘要/翻译评测）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 自动化+异构+动态的三合一创新
实验充分度: ⭐⭐⭐⭐ 69 数据集 + 与人工标注的一致性验证
写作质量: ⭐⭐⭐⭐ 管线描述清晰，表格丰富
价值: ⭐⭐⭐⭐⭐ 对 IR 社区有基础设施级贡献