Retrieve to Explain: Evidence-driven Predictions for Explainable Drug Target Identification¶

会议: ACL 2025
arXiv: 2402.04068
领域: 检索增强 / 可解释AI / 生物医学NLP
关键词: 检索增强预测, Shapley值解释, 药物靶点识别, 证据归因, 临床试验预测

一句话总结¶

提出 R2E (Retrieve to Explain)，一种基于检索的架构，通过从文献语料库中检索证据来评分和排序所有候选答案，并利用 Shapley 值将预测忠实地归因到支撑证据，在药物靶点识别任务上超越了遗传学基线和 GPT-4 基线。

研究背景与动机¶

在高风险科学发现场景（如药物靶点识别）中，模型预测必须具备可解释性，以便人类专家在采取行动之前审查支撑证据。现有的语言模型虽然能回答事实性问题，但在面对多个合理答案且证据强度各异的复杂科学问题时，缺乏定量且忠实地比较答案可信度的能力。

药物靶点识别面临的核心挑战： - 失败代价极高：约一半药物在人体试验中未能显示疗效，通常源于无效的靶点选择 - 人在回路中：需要专家检查每个预测背后的证据和推理过程 - 现有方法局限：知识图谱方法需要构建KG，参数化语言模型缺乏透明的证据归因

方法详解¶

整体框架¶

R2E 由两个模块组成：Retriever（检索器）和 Reasoner（推理器）。

Masked Entity-Linked Corpus: 构建实体链接语料库，将19,176个蛋白编码基因实体在1.6亿句生物医学文献中进行mask处理
Retriever: 基于Masked Language Model (MLM) 的文本编码器，为每个候选实体构建独立的 FAISS 搜索索引。给定用户cloze-style查询，检索与查询最相似的 k=64 个证据段落
Reasoner: 使用卷积层融合查询-证据对embedding，再通过Set Transformer聚合所有证据，最终通过线性层+sigmoid输出二分类概率

关键设计¶

1. 答案mask机制：在查询和证据中都mask答案实体，使模型仅通过证据内容间接推断，确保预测完全基于证据而非实体名称的表面特征。

2. Shapley值证据归因：由于特征空间就是检索到的k个证据段落（特征空间较小），可以使用排列采样方法高效近似 Shapley 值，将每个预测分数定量归因到各条证据。训练时引入 NULL embedding 的随机替换（dropout率采样自 Uniform(0,1)），既作正则化又使模型能稳健处理缺失特征。

3. 频率偏差校正：引入参数 c∈[0,1] 控制频率偏差，c=0 不校正，c=1 使排名反映查询与答案的逐点互信息 (PMI)。实验采用 c=0.5（验证集选择）。

4. 多模态证据模板化：将非文本数据（如遗传学关联数据）通过简单模板转化为自然语言句子（如 "[MASK] is genetically associated with {MeSH name}"），直接纳入检索语料库，无需重新训练，方便整合多种证据来源。

5. 证据审计闭环：R2E 的可解释性使得可以用 LLM（如 GPT-4）自动审计高 Shapley 值的证据，过滤掉不相关的假阳性证据，进一步提升预测性能。

实验关键数据¶

主实验¶

任务一：Gene Description Facts（基因描述事实预测）

指标	FREQ	MCS	MLM	R2E-uncor	R2E-cor
MRR	<0.001	0.176	0.167	0.202	0.260
Mean Rank	8252	1776	2208	937	599
Hits@10	<0.001	0.309	0.296	0.349	0.434
Hits@200	0.013	0.622	0.590	0.701	0.776

任务二：Clinical Trial Outcomes（临床试验结果预测）

模型	证据来源	AUROC
Genetics基线	遗传数据	0.545
FREQ	文献	0.561
MCS	文献	0.623
MLM	文献	0.630
R2E-uncor	遗传数据	0.579
R2E-uncor	文献	0.629
R2E-cor	文献	0.632
R2E-cor	文献+遗传	0.633
R2E-audit	文献+遗传	0.638

数据集规模：1,449个成功 + 4,222个失败的临床试验。

关键发现¶

仅用相同遗传数据，R2E显著超越遗传学基线 (AUROC 0.579 vs 0.545, p<0.001)，说明将基因-性状关联以自然语言表示可提升泛化能力
R2E显著超越few-shot CoT GPT-4基线，后者不仅计算成本极高且牺牲了忠实可解释性
Shapley值与GPT-4相关性注释高度一致：Gene Description Facts的AUROC=0.824，Clinical Trial Outcomes AUROC=0.665
GPT-4与人类专家注释一致率：Gene Description Facts 71.5%，Clinical Trial Outcomes 82.2%
证据审计进一步提升性能：R2E-audit相对R2E-cor有显著改进 (p=0.004)

亮点与洞察¶

"检索即特征"的设计哲学：将检索到的证据本身作为模型特征空间，使得传统的特征归因方法（Shapley值）自然变为证据归因方法，这是一个优雅的体系统一
间接推理能力：R2E 能利用间接证据进行推理——一个从未与某疾病直接关联的靶点，可能因其调控了与该疾病相关的机制而获得高分
模板化多模态融合：将结构化数据模板化为自然语言是一种极其简洁的方式实现多模态融合，无需修改模型架构或重新训练
可审计的闭环系统：R2E的可解释性使其成为一个可审计的系统，GPT-4或人类专家可以审查并过滤证据，形成"预测→解释→审计→改进"的良性循环

局限性¶

推理开销：每个答案需要独立的向量搜索和前向传播，计算成本随答案集大小线性增长（可通过并行化缓解）
语料库依赖：性能对底层语料库的完整性敏感，不过可解释性有助于暴露语料库偏差
未进行任务特定微调：直接使用通用查询模板，未针对临床试验等具体下游任务进行微调
上下文窗口限制：目前仅使用句子级证据，扩展到段落级可能进一步提升性能

评分¶

创新性: ⭐⭐⭐⭐ — 将检索本身作为特征空间实现忠实证据归因，"检索即解释"的理念新颖
技术深度: ⭐⭐⭐⭐ — 架构设计考虑周全（mask机制、NULL embedding正则化、频率偏差校正、证据审计闭环）
实验充分度: ⭐⭐⭐⭐⭐ — 三个公开基准、多种基线对比、GPT-4+人类专家验证可解释性、消融实验丰富
实际价值: ⭐⭐⭐⭐ — 在药物靶点识别这一高风险领域展示了实际超越工业界通用方法的效果
总体推荐: ⭐⭐⭐⭐ — 一篇将检索、预测、可解释性优雅统一的工作，对高风险AI辅助决策有重要启示