Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs¶

会议: NeurIPS 2025
arXiv: 2510.12255
代码: GitHub / HuggingFace
领域: 医学图像
关键词: 医学LLM, 多轮对话鲁棒性, 认知偏差, MedQA, 临床安全

一句话总结¶

提出MedQA-Followup框架系统评估医学LLM的多轮鲁棒性，发现模型在单轮扰动下表现尚可（浅层鲁棒性），但在多轮追问中准确率可从91.2%暴跌至13.5%（深层脆弱性），且间接上下文操纵比直接错误建议更具破坏力。

研究背景与动机¶

医学LLM正快速从研究原型进入临床应用，但现有评估几乎全部聚焦于单轮问答的理想条件。然而真实医学场景中：

临床对话本质上是多轮的：医生会收到同事的不同意见、患者带来的网络搜索结果、权威人士的反对观点

现有鲁棒性研究局限于"浅层"：BiasMedQA和KGGD等工作仅考察在首次提问中加入误导信息的影响，未涉及模型给出答案后被质疑的场景

关键问题未被回答：当LLM已给出正确诊断后被追问，它能否坚守正确答案？社会压力和权威影响如何作用？

本文认为，真正的安全部署需要区分两种鲁棒性： - 浅层鲁棒性（Shallow Robustness）：抵抗初始提示中的误导信息 - 深层鲁棒性（Deep Robustness）：在后续对话轮次中被挑战时仍保持准确

方法详解¶

整体框架¶

MedQA-Followup构建了一个二维分类法来组织所有评估方式：

时间轴：单轮（\(I(Q) \to A'\)） vs 多轮追问（\(Q \to A \to I_1(Q) \to A_1\)） vs 累积追问（\(Q \to A \to I_1 \to A_1 \to I_2 \to A_2 \to \ldots\)）
意图轴：间接干预（不明确推向错误答案）vs 直接干预（明确建议错误答案）

基于MedQA数据集（1273道USMLE考题），覆盖15个医学领域和3个考试阶段。

关键设计¶

中性重评估（rethink）：作为控制组的5种技术——"高风险中性"（强调临床重要性）、"时间中性"（简要回顾）、"假设检查"（识别无支撑假设）、"双重检查"（显式验证推理）、"选项映射"（系统排除矛盾选项）。这些不引入任何误导信息，仅测试重新评估本身是否降低准确率。
错误建议（inc_letter）：通过社会/权威框架明确建议错误答案的5种技术——"权威先验"（资深临床医生意见）、"自动评分器先验"（系统期望输出）、"承诺对齐"（多来源支持错误选项）、"近因先验"（引用类似近期病例）、"社会证明先验"（同事共识）。关键设计：始终以"他人观点"而非"事实陈述"框定（如"一位资深医生认为答案是X"）。
上下文操纵（context）：引入额外误导信息的4种技术——"误导上下文"和"RAG风格上下文"（GPT-4.1生成的支持第二可能选项的文本，分别以临床证据和检索系统形式呈现）、"替代上下文"（引入答案集外的诊断支持证据）、"边缘案例上下文"（强调正确答案的非典型表现和局限性）。所有上下文4-10句，以"需权衡的信息"而非"确定性事实"框定。

损失函数 / 训练策略¶

本文为评估框架，不涉及模型训练。评估配置： - 5个模型：GPT-4.1、GPT-4.1 mini、Claude Sonnet 4、MedGemma 27B、MedGemma 4B - 确定性解码（temperature=0），固定随机种子42 - 通用模型使用简单系统提示，领域模型（MedGemma）不用系统提示

实验关键数据¶

主实验：单轮 vs 多轮准确率¶

模型	基线	单轮inc_letter(均)	多轮rethink(均)	多轮inc_letter(均)	多轮context(均)
Claude Sonnet 4	91.2%	89.3% (-2.1%)	84.6% (-7.2%)	48.6% (-46.7%)	45.6% (-50.0%)
GPT-4.1	92.5%	92.1% (-0.4%)	92.0% (-0.5%)	89.5% (-3.2%)	61.7% (-33.2%)
GPT-4.1 mini	90.5%	89.6% (-1.0%)	89.9% (-0.6%)	87.0% (-3.8%)	50.1% (-44.6%)
MedGemma 4B	64.2%	53.1% (-17.3%)	64.1% (-0.1%)	54.2% (-15.5%)	40.0% (-37.6%)
MedGemma 27B	84.7%	78.8% (-6.9%)	84.4% (-0.4%)	69.1% (-18.3%)	56.9% (-32.8%)

消融实验：最具破坏力的技术¶

模型	最差context技术	准确率	相对下降
Claude Sonnet 4	RAG style context	13.5%	-85.2%
GPT-4.1	RAG style context	47.8%	-48.3%
GPT-4.1 mini	RAG style context	32.5%	-64.1%
MedGemma 4B	Misleading context	20.7%	-67.8%
MedGemma 27B	RAG style context	27.6%	-67.4%

关键发现¶

浅层鲁棒性已基本解决：单轮直接建议对SOTA模型几乎无效（GPT-4.1仅下降0.4%）
深层鲁棒性是灾难性的：所有模型在多轮context干预下准确率下降超30%
反直觉发现：间接干预（context）比直接干预（inc_letter）破坏力更大
模型差异显著：Claude对权威建议极度脆弱（-46.7%），GPT系列对inc_letter几乎免疫但对context同样脆弱
临床应用题（Step 2&3）比基础知识题（Step 1）更脆弱：context干预在临床题上额外降低6-13.5%
累积干预呈亚加性：85%的组合表现出亚加性效应，说明利用堆叠干预的可攻击性有自然上限

亮点与洞察¶

首次系统定义和评估医学LLM的"深层鲁棒性"概念
揭示了一个关键安全漏洞：RAG系统整合的上下文可能比直接错误建议更危险
分类法（浅/深 × 直接/间接）为后续研究提供了清晰框架
Claude Sonnet 4的极端脆弱性令人警醒（91.2%→13.5%）

局限与展望¶

评估基于选择题格式，可能低估开放式临床对话中的脆弱性
仅评估5个模型，更多模型家族（如Gemini、Llama 3.1）未覆盖
未探索对抗训练或置信度加权等缓解策略
上下文生成依赖GPT-4.1，引入方法偏差
累积干预的组合空间巨大，仅覆盖了子集

评分¶

新颖性: ⭐⭐⭐⭐ 深层/浅层鲁棒性的概念划分新颖且实用
实验充分度: ⭐⭐⭐⭐⭐ 5个模型、14种干预技术、累积分析、长度消融、领域分析
写作质量: ⭐⭐⭐⭐ 分类法清晰，实验组织有条理
价值: ⭐⭐⭐⭐⭐ 直击LLM临床部署的核心安全问题，发现具有重大实践意义