LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in RAG¶

日期: 2026-03-06
arXiv: 2603.06198
代码: https://github.com/Koki-Itai/LIT-RAGBench
领域: LLM推理
关键词: RAG, benchmark, LLM evaluation, generator capabilities, abstention

一句话总结¶

提出 LIT-RAGBench，一个系统评估 RAG 中 Generator 五大能力（Integration/Reasoning/Logic/Table/Abstention）的 benchmark——通过虚构实体防止知识泄漏、支持跨类别组合评估，实验发现即使 GPT-5 也无法超过 90% 总体准确率。

研究背景与动机¶

领域现状：RAG 已成为缓解 LLM 幻觉、知识过时等问题的主流框架。现有 RAG benchmark（FRAMES、RAGBench、RGB 等）主要评估 Retriever 或孤立地测试 Generator 的某个能力维度。
现有痛点：(a) 现有 benchmark 覆盖面有限——FRAMES 关注端到端评估但不分离 Generator 能力；RGB 测试了噪声鲁棒性和信息整合但缺少表格理解；RAGTruth 专注幻觉检测但不测推理能力；(b) 实际 RAG 场景中 Generator 需要同时具备多种能力（如：从多文档表格中做数值推理），但没有 benchmark 系统评估这种能力组合。
核心矛盾：实际 RAG 应用要求 Generator 同时处理多种复杂场景（多源整合 + 表格解析 + 数值推理 + 适时拒答），但现有评估只测单一维度，导致模型选型缺乏可靠依据。
切入角度：将 Generator 需要的能力系统化为 5 大类别 × 14 个细分方面，构建支持跨类别组合的评估数据集，用虚构实体确保模型无法靠预训练知识作弊。
核心 idea：构建一个"组合式"RAG Generator benchmark，每个问题可同时涉及 1-2 个类别的能力，实现对 Generator 多维能力的联合评估。

方法详解¶

整体框架¶

LIT-RAGBench 定义了 5 个评估类别（Integration、Reasoning、Logic、Table、Abstention），每个类别下有 2-4 个评估方面。数据集包含 114 个人工构造的日语问题 + 对应英语翻译版本。每个问题配有相关文档集 \(C^+\) 和无关文档集 \(C^-\)（\(|C^+ \cup C^-| \geq 8\)），评估时随机打乱文档顺序消除位置偏差。

关键设计¶

五大评估类别:
- Integration: 多源信息整合（\(|C^+| \geq 2\)），需从分散在多个文档中的证据提取并整合信息
- Reasoning: 包含 multi-hop reasoning（跨文档推理得出未明确陈述的结论）和 numerical calculation（需要常识运算如利润率、增长率）
- Logic: 处理 query 与文档之间的语义/逻辑偏差——同义词解读（"1万元" vs "10,000元"）、数值包含判断（35岁是否满足"20以上40以下"）、概念包含解读（"降噪耳机"是否属于"电子设备"）
- Table: 表格理解——HTML 表格、带合并单元格的 HTML、Markdown 表格、CSV 数据
- Abstention: 适时拒答——证据不足（\(C^+\) 为空）、矛盾证据、不完整 chunk
- 设计动机：前四个为"主能力"（Main），Abstention 为独立的"异常处理"能力
跨类别组合评估:
- 做什么：每个问题可关联 1-2 个类别的评估方面（如同时测试 Reasoning + Table）
- 核心思路：形式化为 \(\Psi(q) \subseteq \Phi\)，约束 \(1 \leq |\Psi(q)| \leq 2\) 且同一类别不重复
- 设计动机：实际 RAG 场景中能力是组合出现的——比如需要从 HTML 表格中做数值计算。只测单一能力无法反映真实难度
虚构实体防知识泄漏:
- 做什么：所有 QA 场景使用虚构的公司名、产品名、人名
- 设计动机：防止 LLM 利用预训练知识直接回答，确保必须依赖提供的外部文档

评估方法¶

使用 LLM-as-a-Judge（GPT-4.1）做二元判断：生成答案是否与参考答案语义一致
按类别计算准确率 \(\text{Accuracy}(\theta)\)，总体准确率取各类别平均 \(\overline{\text{Accuracy}}\)

实验关键数据¶

主实验（日语/英语总体准确率）¶

模型	日语 Acc	英语 Acc	类型
GPT-5	0.872	0.872	API reasoning
o3	0.857	0.844	API reasoning
o4-mini	0.852	0.864	API reasoning
Gemini-2.5-Flash	0.823	0.878	API
Qwen3-235B-A22B	0.865	0.806	Open
Claude-Sonnet-4	0.821	0.791	API
Llama-3.1-8B	0.396	0.582	Open

类别级分析（日语）¶

模型	Integration	Reasoning	Logic	Table	Abstention
GPT-5	0.833	0.870	0.867	0.839	0.900
o3	0.833	0.957	0.900	0.839	0.817
o4-mini	0.917	0.913	0.900	0.871	0.783
Claude-Sonnet-4	0.750	0.783	0.700	0.677	0.950

关键发现¶

没有模型超过 90%：即使 GPT-5 总体也只有 0.872，说明 RAG Generator 能力仍有显著提升空间
Reasoning 类别区分度最大：最强的 o3 达 0.957，最弱的 Llama-3.1-8B 仅 0.130（日语），差距 83 个点
Claude-Sonnet-4 在 Abstention 上最强（0.950）但 Main 类最弱——说明"知道自己不知道"和"知道答案"是不同维度的能力
日语 vs 英语差异显著：多数模型英语表现更好（尤其开源模型），但 GPT-5 在两种语言上持平

亮点与洞察¶

组合评估的设计思路值得借鉴：通过跨类别组合，一个 114 题的小数据集就能有效评估多种复杂场景，数据效率很高
虚构实体策略简单有效：避免知识泄漏问题，比 counterfactual 修改真实事实更自然，可迁移到其他 benchmark 构建
Claude 的"拒答能力强但主能力弱"现象很有意思：提示 alignment 过度可能导致模型过于保守，在需要做答的场景也倾向拒答

局限性 / 可改进方向¶

数据集规模偏小（114 题），统计置信度有限
只覆盖日语和英语两种语言，缺少多语言泛化验证
Abstention 中"矛盾证据"和"不完整 chunk"各只有 3 题，样本量不足以得出可靠结论
LLM-as-a-Judge 的评估可靠性依赖 GPT-4.1，可能引入系统性偏差
没有评估模型在不同 chunk 数量和文档长度下的性能变化

评分¶

新颖性: ⭐⭐⭐ 评估框架设计合理但 benchmark 构建本身创新有限
实验充分度: ⭐⭐⭐⭐ 覆盖 15 个模型（API + 开源），双语评估
写作质量: ⭐⭐⭐⭐ 形式化定义清晰，分类体系完整
价值: ⭐⭐⭐⭐ 对 RAG 系统中 Generator 选型有实际指导意义