Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical Applications¶

会议: ACL 2025
arXiv: 2501.02460
代码: https://github.com/Jack-ZC8/Omni-RAG-Medical
领域: 文本生成
关键词: 医疗RAG, 多源检索, 源规划优化, 知识融合, LLM

一句话总结¶

针对医疗 LLM 需要多类型多结构知识源（教科书/指南/论文/知识图谱等）的特殊需求，提出 MedOmniKB 多源知识库和 Source Planning Optimization 方法——让模型学会"该从哪个源检索什么信息"，优化后的小模型在多源医疗知识利用上达到 SOTA。

领域现状：医疗 LLM 面临幻觉问题，需要外部知识增强。但医疗知识分布在不同类型的源中——教科书提供系统知识，临床指南提供标准流程，论文提供最新发现，知识图谱提供结构化关系。
现有痛点：(a) 现有 RAG 通常只用单一检索源或对所有源用同一查询；(b) 模型对不同源的内容预期与源的实际内容存在"对齐偏差"——用教科书式查询去搜论文效果差；(c) 缺乏覆盖多种类型和结构的医疗知识库。
核心矛盾：不同知识源需要不同的查询策略——查教科书要用概念性查询，查论文要用具体方法/数据查询，查知识图谱要用实体关系查询——但模型不知道该用哪种。
本文要解决什么？ 教会模型"源规划"——根据问题自动选择合适的知识源并生成针对性查询。
切入角度：将多源检索建模为"源规划问题"，用专家模型探索和评估不同规划方案，蒸馏到小模型中。
核心idea一句话：先建多源知识库 MedOmniKB，再用 Source Planning Optimization 教小模型选源出查询。

(1) 构建 MedOmniKB——涵盖多类型（教科书/指南/论文/知识图谱/FDA标签等）和多结构（文本/表格/图谱）的医疗知识库；(2) Source Planning Optimization——用大模型探索不同查询-源组合的效果，评估哪些规划最有效，然后蒸馏到小模型。

MedOmniKB 多源知识库:
做什么：汇聚多种医疗知识源
涵盖：教科书（系统概念）、临床指南（标准流程）、学术论文（前沿发现）、知识图谱（实体关系）、FDA药物标签（药物信息）等
设计动机：不同医疗问题需要不同类型的知识——诊断推理需要教科书+临床指南，药物选择需要FDA标签+论文
Source Planning Optimization (SPO):
做什么：训练模型自动选择源和生成针对性查询
核心思路：(a) 让大模型（如 GPT-4）作为"探索者"对每个问题尝试不同的源+查询组合；(b) 用下游任务准确率评估哪些组合最有效；(c) 将成功的规划方案蒸馏到小模型中
设计动机：穷举所有组合太贵，用"探索-评估-蒸馏"三步实现高效优化
源对齐训练:
做什么：让小模型理解每个源的特性
核心思路：对每个源提供描述信息（如"此源包含临床试验结果和统计数据"），训练小模型将这些描述与查询策略对齐
设计动机：解决模型预期与源实际内容的错配问题

方法	多源利用率	医疗QA准确率	说明
无检索 (LLM only)	-	基线	幻觉多
单源 RAG	低	中	部分问题无法回答
多源 RAG (简单合并)	中	中高	噪声增加
Omni-RAG (SPO)	高	SOTA	智能选源