Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical Applications¶
会议: ACL 2025
arXiv: 2501.02460
代码: https://github.com/Jack-ZC8/Omni-RAG-Medical
领域: 文本生成
关键词: 医疗RAG, 多源检索, 源规划优化, 知识融合, LLM
一句话总结¶
针对医疗 LLM 需要多类型多结构知识源(教科书/指南/论文/知识图谱等)的特殊需求,提出 MedOmniKB 多源知识库和 Source Planning Optimization 方法——让模型学会"该从哪个源检索什么信息",优化后的小模型在多源医疗知识利用上达到 SOTA。
研究背景与动机¶
- 领域现状:医疗 LLM 面临幻觉问题,需要外部知识增强。但医疗知识分布在不同类型的源中——教科书提供系统知识,临床指南提供标准流程,论文提供最新发现,知识图谱提供结构化关系。
- 现有痛点:(a) 现有 RAG 通常只用单一检索源或对所有源用同一查询;(b) 模型对不同源的内容预期与源的实际内容存在"对齐偏差"——用教科书式查询去搜论文效果差;(c) 缺乏覆盖多种类型和结构的医疗知识库。
- 核心矛盾:不同知识源需要不同的查询策略——查教科书要用概念性查询,查论文要用具体方法/数据查询,查知识图谱要用实体关系查询——但模型不知道该用哪种。
- 本文要解决什么? 教会模型"源规划"——根据问题自动选择合适的知识源并生成针对性查询。
- 切入角度:将多源检索建模为"源规划问题",用专家模型探索和评估不同规划方案,蒸馏到小模型中。
- 核心idea一句话:先建多源知识库 MedOmniKB,再用 Source Planning Optimization 教小模型选源出查询。
方法详解¶
整体框架¶
(1) 构建 MedOmniKB——涵盖多类型(教科书/指南/论文/知识图谱/FDA标签等)和多结构(文本/表格/图谱)的医疗知识库;(2) Source Planning Optimization——用大模型探索不同查询-源组合的效果,评估哪些规划最有效,然后蒸馏到小模型。
关键设计¶
- MedOmniKB 多源知识库:
- 做什么:汇聚多种医疗知识源
- 涵盖:教科书(系统概念)、临床指南(标准流程)、学术论文(前沿发现)、知识图谱(实体关系)、FDA药物标签(药物信息)等
-
设计动机:不同医疗问题需要不同类型的知识——诊断推理需要教科书+临床指南,药物选择需要FDA标签+论文
-
Source Planning Optimization (SPO):
- 做什么:训练模型自动选择源和生成针对性查询
- 核心思路:(a) 让大模型(如 GPT-4)作为"探索者"对每个问题尝试不同的源+查询组合;(b) 用下游任务准确率评估哪些组合最有效;(c) 将成功的规划方案蒸馏到小模型中
-
设计动机:穷举所有组合太贵,用"探索-评估-蒸馏"三步实现高效优化
-
源对齐训练:
- 做什么:让小模型理解每个源的特性
- 核心思路:对每个源提供描述信息(如"此源包含临床试验结果和统计数据"),训练小模型将这些描述与查询策略对齐
- 设计动机:解决模型预期与源实际内容的错配问题
损失函数 / 训练策略¶
- SPO 使用 SFT 蒸馏大模型的规划策略到小模型
- 用多个医疗 QA 基准评估
实验关键数据¶
主实验¶
| 方法 | 多源利用率 | 医疗QA准确率 | 说明 |
|---|---|---|---|
| 无检索 (LLM only) | - | 基线 | 幻觉多 |
| 单源 RAG | 低 | 中 | 部分问题无法回答 |
| 多源 RAG (简单合并) | 中 | 中高 | 噪声增加 |
| Omni-RAG (SPO) | 高 | SOTA | 智能选源 |
关键发现¶
- 源规划优化后的小模型超越不做规划的大模型——方法比蛮力更有效
- 不同问题类型需要的知识源组合差异大——验证了源规划的必要性
- MedOmniKB 的多样性是关键——仅用教科书或仅用论文都不如多源组合
- 对齐训练显著减少了"查错源"的问题
亮点与洞察¶
- "源规划"概念精准定义了多源RAG的核心挑战——不是检索技术的问题,而是"去哪里找什么"的策略问题。
- MedOmniKB 是有价值的医疗知识基础设施。
- "探索-评估-蒸馏"的SPO方法适用于任何多源RAG场景。
- 对医疗AI有直接实用价值——临床决策支持系统需要整合多种知识。
局限性 / 可改进方向¶
- MedOmniKB 以英语为主,多语言覆盖有限
- SPO 蒸馏依赖大模型的探索质量
- 源规划策略可能过拟合到训练问题的分布
相关工作与启发¶
- vs MedRAG: MedRAG 用单一语料库增强;Omni-RAG 用多源+源规划
- vs Self-RAG: Self-RAG 判断检索是否有用;Omni-RAG 判断从哪个源检索什么——更细粒度
- vs GainRAG: GainRAG 判断段落的增益;Omni-RAG 从更上游的"源选择"层面优化
评分¶
- 新颖性: ⭐⭐⭐⭐ 源规划概念新颖,MedOmniKB有价值
- 实验充分度: ⭐⭐⭐⭐ 多个医疗基准+消融+源分析
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐⭐ 对医疗AI和多源RAG有重要贡献