BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases¶

会议: ICLR 2026 (Gen2 Workshop)
arXiv: 2505.20321
代码: https://github.com/NIH-CARD/biomedsql
领域: 生物医学 NLP / Text-to-SQL
关键词: Text-to-SQL, 生物医学知识库, 科学推理, BigQuery, LLM评估

一句话总结¶

提出 BiomedSQL，首个专门评估 Text-to-SQL 系统在生物医学知识库上科学推理能力的基准，包含 68,000 个问题/SQL/答案三元组，揭示当前最强模型（GPT-o3-mini 62.6%）与领域专家（90%）之间仍有巨大差距。

研究背景与动机¶

现代生物医学研究日益依赖大规模结构化数据库，研究人员需要频繁查询电子健康记录、高通量实验数据和人群规模研究。自然语言接口（尤其是 Text-to-SQL 系统）有望让非技术研究人员也能访问这些资源。

现有痛点：当前的 Text-to-SQL 系统将查询生成视为"语法翻译"任务，将问题结构映射到 SQL 模板，缺乏对领域知识的深入理解。在生物医学场景下，这种抽象会失效——领域专家常问"哪些 SNP 与阿尔茨海默病显著相关？"或"哪些已批准药物靶向帕金森病中上调的基因？"，这些问题隐含了统计阈值（如 GWAS 显著性 p < 5×10⁻⁸）、药物审批流程和跨模态因果推理等领域特定知识。

核心矛盾：通用 Text-to-SQL 基准（如 Spider、BIRD）不评估科学推理能力；EHR 导向基准（如 EHRSQL）侧重时间逻辑和患者检索，而非科学发现所需的推理。

切入角度：构建首个专门评估生物医学领域 Text-to-SQL 科学推理能力的大规模基准。

方法详解¶

整体框架¶

输入：自然语言的生物医学问题 + 数据库 schema 信息。输出：LLM 生成 SQL 查询 → 执行获取结果 → 生成自然语言回答。评估同时覆盖 SQL 执行准确性和自然语言回答质量。

关键设计¶

关系数据库构建：
- 整合 10 个核心表，来源包括 OpenTargets Platform（基因-疾病-药物关联）、ChEMBL（生物活性分子和药理学数据）
- 纳入阿尔茨海默病和帕金森病的 GWAS 统计摘要数据（含 p 值、rsID、等位基因频率等）
- 整合 omicSynth 的因果推理数据（基于孟德尔随机化的多组学生物标志物）
- 所有数据以 Parquet 格式上传到 Google BigQuery
SQL 标注与扩增：
- 领域专家手工编写 40 个种子问题的 gold-standard SQL 查询
- 通过模板化和实体替换将 40 个查询自动扩展为 68,000 个 QA 对
- 所有生成的 SQL 均在 BigQuery 上执行获取 ground-truth 结果
BMSQL 多步骤 Agent：
- 自定义的迭代式 Text-to-SQL 架构，模拟专家查询过程
- 第一步：Schema 分析，识别相关表和列
- 第二步：生成初始 SQL 查询
- 第三步：如有语法错误则修正（最多3次重试）
- 第四步：应用统计阈值过滤（如 p 值显著性）
- 第五步：基于两组执行结果生成自然语言回答
- 可选执行额外推理步骤（inference-time compute）

科学推理分类¶

三大推理类别： 1. 操作化隐含科学惯例：需推断 GWAS 显著性阈值、效应方向性等 2. 整合缺失的上下文知识：需理解药物审批状态、临床试验阶段等 3. 执行复杂多跳推理：需跨多表串联关系操作

评估指标¶

Execution Accuracy (EX)：SQL 执行结果精确匹配率
Jaccard Index (JAC)：结果集交并比
Syntax Error Rate (SER)：语法错误率
BioScore（LLM-as-judge）：Response Quality Rate (RQR) + Safety Rate (SR)

实验关键数据¶

主实验¶

模型	EX↑	JAC↑	RQR↑	SR↑	SER↓
领域专家	90.0	90.0	95.0	-	-
GPT-o3-mini	53.5	60.4	73.3	29.4	0.0
GPT-4o	46.9	54.7	71.2	26.1	1.3
Claude-3.7-sonnet	-	-	-	43.0	-
Qwen-2.5-Coder-32B	40.8	-	-	-	-
BMSQL-GPT-o3-mini	62.6	69.2	83.1	38.0	2.6
BMSQL-Gemini	-	-	84.6	-	-

交互范式实验¶

方法	EX↑	JAC↑	RQR↑
ReAct-GPT-o3-mini	56.2	64.8	73.6
Index-GPT-o3-mini	-	-	- (最高SR 66.9%)
BMSQL-GPT-o3-mini	62.6	69.2	83.1

消融实验¶

配置	关键指标	说明
Combo prompt（3-rows+3-shot+stat-instruct）	EX +5.5%, RQR +4.5%	但 token 消耗增加近 3 倍
1-pass vs 3-pass（推理时间计算）	EX 62.6→61.7, RQR 83.1→85.5	增加推理步数收益甚微
单独添加表格行示例	可忽略改进	schema 理解 > 内容记忆

关键发现¶

最强模型 BMSQL-GPT-o3-mini 的 EX 仅 62.6%，距专家基准 90% 有约 30% 差距
Join、Similarity Search 和 Multi-Filter 类查询最具挑战性
增加推理步数带来的改进极为有限，主要修正语法错误而非重构查询逻辑
schema-level 理解比记忆原始数据行更重要
小模型 Qwen-2.5-Coder 在部分指标上超过参数量远大于它的 LLaMA 模型

亮点与洞察¶

首个专注于生物医学领域科学推理的 Text-to-SQL 基准，填补重要空白
68,000 个问题规模庞大，且每个问题都需要隐含的领域知识推理
多维评估体系设计合理（SQL 执行指标 + 自然语言回答质量）
BMSQL 的多阶段设计模拟专家查询流程，效果显著优于单步方法
揭示了当前 LLM 在操作化领域特定科学惯例方面的重大不足
使用 BigQuery 模拟真实生产环境，增加了实际部署的相关性

局限与展望¶

Gold SQL 并非唯一正确答案，可能存在多个语义等价的 SQL 表达
未评估 DIN-SQL、DAIL-SQL 等通用 Text-to-SQL 系统（与 BigQuery 方言不兼容）
依赖 BigQuery 云特定方言，限制了与其他基准的直接可比性
数据集通过模板扩展，可能引入系统性偏差
领域覆盖主要限于神经退行性疾病（阿尔茨海默和帕金森）

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐