SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning¶

会议: NeurIPS 2025
arXiv: 2506.21355
代码: 项目主页
领域: 医学图像 / 多模态学习
关键词: 多模态上下文学习, 医学基准测试, 多模态大语言模型, 上下文示例质量, 近因偏差

一句话总结¶

提出 SMMILE——首个由 11 位医学专家驱动的多模态医学上下文学习（ICL）基准，包含 111 道问题（517 个图文问答三元组）覆盖 6 个医学专科和 13 种成像模态，系统性揭示了当前 MLLM 在医学多模态 ICL 上的严重不足以及上下文示例质量和顺序对性能的关键影响。

研究背景与动机¶

上下文学习（ICL）是大语言模型的核心能力——在推理时通过上下文中的少量示例即可适应新任务，无需参数更新。这种能力在医学领域尤为重要：临床医生日常工作就是基于有限的先例经验来处理专业化任务。

然而，当前存在三个关键研究空白：

评测空白：虽然多模态 ICL 在通用领域已有初步研究，但医学领域尚无系统的多模态 ICL 评测基准

示例质量问题：现有的医学 few-shot 评估通常随机选取示例，而非精心设计的任务演示，这可能部分解释了为什么 ICL 改善有限

能力认知不足：MLLM 在医学 VQA 上取得了进展，但其从多模态上下文中学习新任务的能力几乎未知

SMMILE 的核心切入点是：由临床专家精心设计每个问题的上下文示例（而非随机检索），从而能准确评估 MLLM 的真正 ICL 能力。如果即便是专家精心设计的示例也不能有效帮助模型学习，那么问题确实出在模型本身。

方法详解¶

整体框架¶

SMMILE 不是一个模型方法论文，而是一个评测基准（benchmark），其核心贡献在于数据集构建和评测分析。

关键设计¶

1. 专家驱动的数据收集流程¶

专家招募：21 位临床专家中 11 位成功提交数据，包括 9 位医生（平均 6.4 年临床经验）和 2 位医学生
Web 界面引导：设计了分步式工作流——(1) 阅读详细指南 → (2) 初始化问题 → (3) 创建面板（可添加/删除/重排上下文示例和查询）→ (4) 提交验证
质量控制：三步手动质量审查——两位作者独立检查 → 分类标注 → 拼写语法校正（修改了 15 处语法和 6 处拼写）

数据规模：111 道问题，每题平均 3.65 个上下文示例（范围 2-19），共 517 个图文问答三元组，覆盖 6 个医学专科（放射、病理等）和 13 种成像模态（X 光、CT、MRI 等）。

2. 评测设计¶

两种评测任务： - 开放式生成：MLLM 接收查询图文并生成自由文本回答 - 封闭式选择：从上下文示例集中选择答案

三种评价指标： - Exact Match (EM)：完全匹配答案 - LLM-as-a-Judge：使用 Llama3.3 70B 评判正确性 - 人类专家评估：5 位临床专家独立评判，评估者间一致率 ≥98.2%

SMMILE++：通过排列上下文示例顺序生成的增强数据集，包含 1038 道问题（每题最多 24 种排列），用于研究示例顺序的影响。

3. 上下文示例分析框架¶

质量分析：构建 Random-Noise 和 Targeted-Noise 两个扰动版本，评估加入不相关示例的影响
顺序分析：控制相关示例在列表中的位置（首位 vs 末位），评估近因偏差

评测协议¶

评测 15 个 MLLM，包括： - 开源通用模型：LLaVA 系列、Qwen2.5-VL 系列、Llama-3.2-Vision-90B - 开源医学模型：LLaVA-Med、MedGemma、MedVLM-R1
- 闭源模型：GPT-4o、Claude 3.7 Sonnet - 基线：Random、Majority、Text-Only (Llama3.3 70B)

所有模型统一最大生成 512 tokens，使用 bootstrap 重采样（1000 次迭代）估计采样变异性。

实验关键数据¶

主实验（SMMILE 上 15 个模型）¶

模型	0-shot (Judge)↑	ICL (Judge)↑	ICL (EM)↑	ICL (MCQA)↑
GPT-4o	32.56	49.88	8.94	58.85
Claude 3.7 Sonnet	37.18	36.17	2.63	42.01
Qwen2.5-VL-72B	29.90	42.59	15.71	54.71
Qwen2.5-VL-32B	25.27	41.79	31.84	49.97
Llama-3.2-Vision-90B	31.84	40.66	30.53	30.30
MedGemma-4B	27.73	36.86	12.14	40.67
LLaVA-Med-7B	21.65	10.19	0.00	0.00
Random 基线	—	27.86	23.16	36.30

上下文示例质量分析¶

模型	SMMILE (正常)↑	Random-Noise↑	Targeted-Noise↑	性能降幅
Qwen2.5-VL-32B	41.79	39.60	39.10	-5.2% / -6.4%
Qwen2.5-VL-3B	33.58	30.40	30.37	-9.5% / -9.6%
LLaVA-Med-7B	10.19	4.88	1.88	-52.1% / -81.6%
平均	24.92	22.65	22.55	-9.1% / -9.5%

仅加入一个不相关示例即可导致平均 9.5% 的性能下降。

关键发现¶

ICL 改善有限且高度不均：15 个模型中 7 个 ICL 表现甚至不如 Random 基线（随机从示例中选答案），ICL 平均仅提升 8%
医学专用模型未见优势：LLaVA-Med 在 ICL 设置下性能反而暴跌（21.65% → 10.19%），MedGemma 与同规模通用模型差异不大
近因偏差严重：将最相关示例放在列表末尾可带来最高 71% 的性能提升，放在开头反而下降最多 47%
数值推理全面失败：所有模型在数值型答案上正确率为 0%
自动指标偏乐观：LLM-as-a-Judge 一致性在 ICL 设置下与专家评分仅中等相关（r=0.72），且倾向高估
MRI 和插图模态表现为零：所有模型在 MRI 和 illustration 模态上完全失败

亮点与洞察¶

专家驱动而非规模驱动：11 位临床专家精心设计每道题的上下文示例，确保示例确实是有效的任务演示，使评测结果更能反映模型真实 ICL 能力
揭示假象：之前 few-shot 评测中 ICL 改善不大可能不是因为 ICL 无用，而是因为随机选取的示例本身就无效；但即便专家精心设计的示例也未能显著帮助大多数模型
近因偏差的发现：对实际部署 MLLM 有直接指导意义——简单地将最相关示例放在末尾即可显著提升性能
自动/人工评价差异：提醒社区不能完全依赖 LLM-as-a-Judge，特别是在 ICL 场景下

局限与展望¶

数据集规模相对较小（111 道题），可能不足以覆盖所有医学场景
仅包含图像模态，未来可扩展到视频、音频等医学数据
专家数量有限（11 位），可能存在专科覆盖不均
SMMILE++ 仅通过排列顺序增强，未引入新的医学内容
缺少针对发现的具体改进方法

评分¶

新颖性: ⭐⭐⭐⭐ 首个医学多模态 ICL 基准，发现了近因偏差和示例质量敏感性
实验充分度: ⭐⭐⭐⭐⭐ 15 个模型 + 人工/自动双重评估 + 多维细粒度分析 + 扰动实验
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，数据可视化丰富，分析深入
价值: ⭐⭐⭐⭐ 对 MLLM 社区有重要警示作用，但本身不提供解决方案