AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset¶

会议: ACL 2025
arXiv: 2411.15640
代码: HuggingFace
领域: medical_imaging
关键词: medical QA, African healthcare, LLM benchmark, clinical evaluation, low-resource

一句话总结¶

构建了首个大规模泛非洲多专科医学问答基准 AfriMed-QA（15,275 题，来自 16 个国家 60+ 医学院，涵盖 32 个专科），评估 30 个 LLM 发现：大模型在非洲医疗问题上的准确率显著低于 USMLE，生物医学专用 LLM 反而不如通用模型，消费者盲评时更偏好 LLM 回答而非临床医生回答。

研究背景与动机¶

领域现状：LLM 在 MedQA（USMLE）等医学基准上表现出色（GPT-4 达 86%+），激发了将 LLM 应用于全球医疗的兴趣。
现有痛点：现有医学基准（MedQA、PubMedQA、MMLU等）主要基于西方医学教育体系，未覆盖非洲特有的疾病模式、用药习惯、文化语境和资源限制。
核心矛盾：非洲面临严重的医生短缺和专科不足（最需要 LLM 辅助的地方），但 LLM 在该区域的有效性从未被系统验证。
本文要解决什么？ 构建能评估 LLM 在非洲医疗场景下表现的基准数据集，揭示性能差距。
切入角度：从 16 个非洲国家的 621 名贡献者众包收集真实医学考试题和消费者健康查询，覆盖 32 个专科。
核心 idea 一句话：用来自非洲本土的多专科医学 QA 数据系统检验 LLM 的跨地域泛化能力。

方法详解¶

整体框架¶

数据集包含三类问题：专家 MCQ（3,910 题）、开放式 SAQ（1,236 题）、消费者查询 CQ（10,000 题）。评估维度包括定量（准确率、BERTScore）和定性（379 名评估者的盲评：正确性、遗漏、幻觉、潜在危害）。

关键设计¶

本土化数据采集:
做什么：从非洲 60+ 医学院众包医学考试题，优先来自非洲来源（禁止 USMLE 题）
核心思路：按人口规模优先招募非洲撒哈拉以南国家的临床医生，每人限 300 题以保证地域多样性
设计动机：确保数据反映非洲特有的疾病模式、治疗方案和文化语境
多维评估框架:
做什么：定量（MCQ 准确率）+ 定性（临床医生盲评 LLM vs 人类回答）
核心思路：58 名临床医生 + 321 名非临床评估者，按正确性/遗漏/幻觉/危害/本土化 5 维度评分
设计动机：自动指标（BERTScore）在开放式医学回答中区分度有限
消费者查询设计:
做什么：基于 472 个非洲常见医疗状况的提示模板引导众包者提问
核心思路：最大化问题多样性，模拟真实患者在当地就诊场景的提问方式

实验关键数据¶

主实验¶

模型	AfriMed MCQ	MedQA (USMLE)	差距
GPT-4o	79%	88%	-9%
Claude-3.5-Sonnet	77%	83%	-6%
Llama-3-405B	75%	~80%	-5%
Gemma-2B	17%	33%	-16%

按类别分析¶

维度	发现
模型大小	大模型 (>100B) 75%+, 中等 (11-70B) 60-75%, 小模型 (<10B) 40-60%
专科差异	内科专科（肾内、消化等）表现好，外科/感染/产科差
国家差异	南非题目最难（儿科为主），尼日利亚次之
生物医学 vs 通用	通用模型一致优于同等大小的生物医学专用模型

关键发现¶

LLM 在 AfriMed-QA 上比 USMLE 平均低 5-16 个百分点，揭示显著的地域泛化差距
生物医学 LLM（如 OpenBioLLM、Meditron）反而不如通用 LLM，可能因过拟合西方训练数据
盲评中消费者一致偏好 LLM 回答（更完整、信息量更大），临床医生回答被评为遗漏更多
小模型（<10B）幻觉和潜在危害显著更高，不适合边缘部署
要求 LLM 给出解释反而降低 MCQ 准确率（因正则提取答案困难）

亮点与洞察¶

首次揭示"非洲医学"的领域偏移：不仅是语言差异，更涉及疾病模式、用药可及性、文化因素等
消费者偏好 LLM 而非医生回答的发现值得深思——可能反映的是回答完整度而非正确性
MoE 模型（Mistral-8x7B）大幅领先同等参数的非 MoE 模型，为低资源部署提供方向

局限性 / 可改进方向¶

60%+ 专家 MCQ 来自西非，地域覆盖仍不均衡
仅英文，未覆盖法语/葡语/本地语言区
仅文本模态，医学常需要图像（皮肤病变、影像等）
消费者查询部分通过模板引导，可能不完全反映自然提问分布

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个泛非洲医学 QA 基准，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ 30 个模型、定量+定性、379 名评估者，规模令人印象深刻
写作质量: ⭐⭐⭐⭐ 结构清晰，发现有深度
价值: ⭐⭐⭐⭐⭐ 对全球健康 AI 公平性有重要贡献，数据集公开可用