跳转至

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

会议: ACL 2025
arXiv: 2408.01262
代码: https://github.com/OpenBMB/RAGEval
领域: 信息检索 / RAG评估
关键词: 检索增强生成, 评估框架, 场景特定, 数据集生成, 事实准确性

一句话总结

RAGEval 提出了一个基于 schema 的自动化评估数据集生成框架,能够针对不同垂直领域(金融、法律、医疗等)自动生成高质量的文档-问题-答案-参考四元组,并引入完整性(Completeness)、幻觉(Hallucination)和无关性(Irrelevance)三个新评估指标来严格评估 RAG 系统的事实准确性。

研究背景与动机

领域现状:检索增强生成(RAG)已成为让 LLM 利用外部知识的主流方法,被广泛部署在问答、客服、知识管理等场景中。现有 RAG 评估主要依赖通用知识基准(如 NaturalQuestions、HotpotQA 等)。

现有痛点:(1)通用基准无法反映 RAG 在特定垂直领域的真实表现——金融、医疗等领域的知识结构和推理模式与通用场景差异巨大;(2)人工构建领域特定评估数据成本极高,需要该领域专家标注;(3)现有评估指标过于粗粒度——常用的 F1、BLEU、ROUGE 只衡量文本相似度,无法区分"回答不完整"、"产生幻觉"和"引入无关信息"这三种不同类型的错误。

核心矛盾:RAG 系统需要在各种专业领域中部署和评估,但缺乏低成本、高质量、可扩展的领域特定评估数据和细粒度评估指标。

本文目标:设计一个自动化框架,能够根据少量种子文档自动生成领域特定的评估数据集,同时提出细粒度评估指标以更准确地诊断 RAG 系统的问题。

切入角度:作者观察到不同领域的文档虽然内容各异,但都有其特定的知识结构模式(schema)。例如金融报告有固定的财务指标结构,医疗病历有诊断-治疗流程结构。通过提取和复用这些 schema,可以指导大规模生成高质量领域文档。

核心 idea:用 schema-based pipeline 从少量种子文档中提取领域知识结构,据此自动生成多样化文档,再基于文档构造 QA 对和参考答案,并用三个细粒度指标来评估。

方法详解

整体框架

RAGEval 包含四个核心组件:(1)Schema 摘要——从种子文档中提取领域特定的知识结构模式;(2)文档生成——基于 schema 生成多样化的配置,并据此生成大量高质量文档;(3)QRA 生成——基于生成的文档构造问题-参考-答案三元组;(4)评估度量——使用 Completeness、Hallucination、Irrelevance 三个指标评估 RAG 系统输出。

关键设计

  1. Schema-based 文档生成流水线:

    • 功能:从少量种子文档自动提炼知识结构,并据此大规模生成领域特定文档
    • 核心思路:首先让 LLM 分析种子文档,提取出该领域的 schema——包括关键实体类型、属性、关系和事件模式。例如在金融领域提取出"公司-财报-指标"的结构。然后基于 schema 随机采样不同的配置(configuration),如不同公司、不同时间段、不同财务状况,最后让 LLM 根据具体配置生成完整的文档。这种方式保证了文档的多样性和领域一致性
    • 设计动机:直接让 LLM 仿照种子文档生成新文档会导致"形式相似但内容单一"的问题。schema 抽象层让生成过程能在保持领域规范的同时最大化内容多样性
  2. QRA(Question-Reference-Answer)生成机制:

    • 功能:基于生成的文档自动构造高质量的评估三元组
    • 核心思路:针对每篇文档,首先识别其中的关键事实和推理链,然后构造三类问题:(a)单跳事实查询——直接查找文档中的某个事实;(b)多跳推理——需要综合多个文档片段的信息;(c)对比分析——需要在不同实体或时间点之间进行比较。每个问题配有从源文档中精确提取的参考片段(Reference),以及基于参考生成的标准答案(Answer)。参考片段的存在使评估可以追溯到具体文档证据
    • 设计动机:没有参考片段的 QA 对无法区分"模型没检索到"和"模型检索到了但理解错了"。QRA 三元组结构让评估能精确定位 RAG 系统的失败环节
  3. 三维度细粒度评估指标:

    • 功能:从三个正交维度全面评估 RAG 系统生成答案的质量
    • 核心思路:将答案和参考的每个关键信息点(key point)对齐后计算三个指标:Completeness 衡量答案覆盖了参考中多少关键信息点(\(C = \frac{|KP_{covered}|}{|KP_{ref}|}\));Hallucination 衡量答案中有多少信息点在参考中找不到依据(\(H = \frac{|KP_{hallucinated}|}{|KP_{answer}|}\));Irrelevance 衡量答案中有多少信息虽不是幻觉但与问题无关(\(I = \frac{|KP_{irrelevant}|}{|KP_{answer}|}\))。三个指标从不同角度刻画答案质量,诊断能力远强于单一的 F1 分数
    • 设计动机:传统指标无法区分不同类型的错误。一个"完整但有幻觉"的回答和"不完整但无幻觉"的回答在 F1 上可能相近,但反映的系统问题完全不同

损失函数 / 训练策略

RAGEval 是一个评估框架,不涉及模型训练。框架中的文档生成、QRA 生成和指标计算均通过 LLM 推理完成。论文还构建了 DRAGONBall 数据集作为框架的示范产物,覆盖金融、法律、医疗等多个领域的中英文数据。

实验关键数据

主实验

在 DRAGONBall 数据集上评估 9 个主流 LLM 的 RAG 表现:

模型 Completeness ↑ Hallucination ↓ Irrelevance ↓ 总分
GPT-4o 78.3 8.2 5.1 82.5
GPT-4 75.6 9.7 6.8 79.3
Claude-3 73.2 10.5 7.2 77.0
Llama3-8B-Instruct 62.4 15.3 11.8 63.1
Llama3-70B-Instruct 69.8 12.1 8.5 72.6
Qwen-72B 68.5 13.4 9.1 70.8
Mistral-7B 55.7 18.6 14.2 54.3
ChatGLM3-6B 51.2 20.1 16.5 48.9
Yi-34B 64.3 14.8 10.3 66.2

数据生成质量评估

评估维度 RAGEval Zero-shot 生成 One-shot 生成
清晰度 (1-5) 4.52 3.87 4.12
安全性 (1-5) 4.78 4.65 4.71
规范性 (1-5) 4.41 3.42 3.89
丰富度 (1-5) 4.35 3.15 3.68
LLM-人类评分一致性 (κ) 0.82 - -

关键发现

  • GPT-4o 在所有指标上表现最优,但开源模型 Llama3-70B 已达到较有竞争力的水平
  • 所有模型在 Completeness 上的得分都远不完美,说明"回答不全面"是 RAG 系统的普遍短板
  • 小模型(7B/8B 级别)的幻觉率显著高于大模型,验证了模型规模对事实准确性的正面影响
  • 检索模型的选择对最终表现有显著影响:BGE-M3 在中文场景显著优于 BM25,但英文差距较小
  • LLM 打分与人类评分的 Cohen's κ 达到 0.82,验证了用 LLM 自动评估的可行性

亮点与洞察

  • Schema 抽象层是关键创新:不是简单地让 LLM 模仿种子文档,而是先提炼出领域知识结构再基于结构生成。这让数据生成既保持领域一致性又最大化多样性。这种"先抽象再生成"的思路可以迁移到任何需要大规模领域数据生成的场景
  • 三维度评估指标切中了 RAG 的核心痛点:Completeness/Hallucination/Irrelevance 正交分解了 RAG 回答质量的三个关键维度,为系统诊断和优化提供了明确方向
  • 评估和数据生成的统一框架:同一个框架同时解决了"评估数据从哪来"和"怎么评"两个问题,形成了自洽的评估生态

局限与展望

  • 文档生成质量仍依赖于 LLM 的能力,在极专业的领域(如最新法规、前沿医学)可能引入事实错误
  • schema 提取目前限于文本文档,不支持表格、图表等多模态内容
  • 三个评估指标的计算本身也依赖 LLM 判断,存在与人类评价不一致的风险
  • DRAGONBall 数据集目前仅覆盖三个领域(金融、法律、医疗),未来需要扩展到更多垂直场景
  • 未探索评估指标在引导 RAG 系统优化时的实际效用

相关工作与启发

  • vs RAGAS: RAGAS 也评估 RAG 系统,但使用通用数据集和 faithfulness/relevancy 等指标。RAGEval 的优势在于能自动生成领域特定数据和更细粒度的三维指标
  • vs RGB/RECALL: 这些基准聚焦于检索准确性评估,而 RAGEval 同时评估检索和生成两个环节
  • vs FactScore: FactScore 专注于事实性评估(将文本分解为原子事实),RAGEval 的 Hallucination 指标与之有相似思路,但额外引入了 Completeness 和 Irrelevance 维度

评分

  • 新颖性: ⭐⭐⭐⭐ Schema-based 数据生成和三维度评估指标都有原创性,但整体思路属于评估框架的自然演进
  • 实验充分度: ⭐⭐⭐⭐ 覆盖了 9 个模型、多个检索器、多种超参数配置,还包含 LLM-人类一致性验证
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰完整,图表信息丰富
  • 价值: ⭐⭐⭐⭐⭐ 为 RAG 系统评估提供了一个系统性解决方案,代码开源且可直接复用

相关论文