PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis¶

会议: AAAI 2026
arXiv: 2601.10945
代码: https://vl2g.github.io/projects/pcdf
领域: 多模态VLM
关键词: 医学诊断, 视觉语言模型, 医患对话模拟, 多轮对话, 数据增强

一句话总结¶

本文提出PCDF（Pre-Consultation Dialogue Framework），通过两个VLM角色扮演——DocVLM提问、PatientVLM回答——模拟真实医患对话，生成image-dialogue-diagnosis三元组用于微调DocVLM，在四个医学影像基准上平均F1提升11.48个百分点，且不依赖真实临床对话数据。

研究背景与动机¶

领域现状：AI辅助医学诊断是一个长期研究方向。早期依赖CNN做图像分类，后来CLIP及其医学适配版本（MedCLIP、BioMedCLIP）引入视觉-文本对齐，近期VLM（如LLaVA-Med、MedPaLM2、MedGemma）展现了强大的零样本泛化能力。

核心痛点：现有方法将诊断简化为"图像→诊断"的直接映射，忽略了临床上下文的重要性。在真实临床实践中，医生很少仅凭图像就做出诊断——他们会与患者进行多轮对话，询问症状、病史，逐步排除可能性。这种对话驱动的诊断推理是准确诊断的核心，但当前模型完全脱离了这一过程。

核心矛盾：如何让VLM获得对话感知的诊断能力？理想方案是收集真实医患对话数据用于训练，但这面临巨大障碍： - 真实医疗对话涉及敏感隐私，需要IRB批准和患者知情同意 - 临床医生不愿参与，担忧工作流干扰、医疗法律风险和患者信任问题 - 大规模数据收集在实践中不可行

已有尝试的不足：之前的工作用单个LLM同时扮演医生和患者生成合成对话，但存在两个根本缺陷：(i) 仅在纯文本setting下操作，不结合医学图像；(ii) 单模型扮演双角色导致对话缺乏角色分离和真实性。

本文切入角度：用两个独立的VLM分别扮演医生和患者角色，在图像和对话历史的条件下进行多轮自然交互，生成视觉-对话-诊断三元组用于训练。关键创新是PatientVLM基于ground-truth诊断生成症状回答（但被指示不能透露诊断本身），保持了真实咨询中的信息不对称性。

方法详解¶

整体框架¶

PCDF框架包含两个阶段： 1. 对话模拟阶段：DocVLM和PatientVLM进行T轮交互，生成image-dialogue-diagnosis三元组 2. 对话条件微调阶段：在生成的三元组上微调DocVLM，学习基于图像和对话历史的诊断

关键设计¶

DocVLM（医生模型）
- 做什么：基于医学图像和对话历史，生成临床相关的随访问题
- 核心公式：\(Q_{i,t} = \text{DocVLM}(P_{doc}(I_i, H_{i,<t}, \mathcal{C}))\)
- 输入包括：图像 \(I_i\)、到当前轮次的对话历史 \(H_{i,<t}\)、所有可能的诊断类别 \(\mathcal{C}\)
- 设计动机：将所有可能诊断包含在prompt中，鼓励DocVLM提出有区分性的问题，帮助区分不同的潜在诊断（借鉴自Kurz et al. 2025的策略）
PatientVLM（患者模型）
- 做什么：作为伪患者，基于ground-truth诊断生成对医生问题的回答
- 核心公式：\(A_{i,t} = \text{PatientVLM}(P_{pat}(I_i, C_i, Q_{i,t}))\)
- 关键约束：虽然内部使用诊断信息引导症状表达，但被明确指示不能透露诊断本身
- 设计动机：保持真实医患咨询中的信息不对称——医生不知道诊断，患者能描述症状但不能直接告知医生答案
对话条件微调
- 做什么：在生成的增强数据集 \(\hat{D} = \{I_i, H_i, C_i\}\) 上微调DocVLM
- 核心损失：将诊断分类建模为文本生成任务，使用标准生成损失
- \(\mathcal{L}_{gen}(\theta) = -\mathbb{E}_{(I,H,C)}[\sum_m \log P_\theta(C_m | C_{<m}, I, H)]\)
- 设计动机：让DocVLM学习 \(P(C|I,H)\)，即基于图像和对话历史的联合诊断推理，而非仅基于图像

训练策略¶

使用mPLUG-Owl3作为默认PatientVLM
对话轮数T=8
使用LoRA微调DocVLM（rank=16, alpha=32, dropout=0.05）
训练10个epoch，batch size=8
两个VLM在对话模拟阶段保持冻结

实验关键数据¶

主实验¶

模型 / 数据集	DermaMNIST F1	PneumoniaMNIST F1	RetinaMNIST F1	PathMNIST F1
InternVL3-2B
Image-only SFT	36.5	88.4	31.5	70.9
+PCDF	73.7 (+37.2)	98.6 (+10.2)	54.9 (+23.4)	85.5 (+14.6)
Gemma3-4B
Image-only SFT	78.3	95.7	47.7	86.0
+PCDF	81.9 (+3.6)	99.0 (+3.3)	67.7 (+20.0)	90.2 (+4.2)
MedGemma3-4B
Image-only SFT	81.5	99.1	71.2	90.9
+PCDF	86.4 (+4.9)	99.3 (+0.2)	81.3 (+10.1)	96.9 (+6.0)
Qwen2.5-VL-7B
Image-only SFT	56.5	83.3	33.8	73.5
+PCDF	81.0 (+24.5)	94.5 (+11.2)	39.7 (+5.9)	77.9 (+4.4)

消融实验¶

对话轮数影响（Gemma3作DocVLM）：

对话轮数T	DermaMNIST F1	PneumoniaMNIST F1	RetinaMNIST F1	PathMNIST F1
2	63.5	78.8	27.8	59.1
4	70.3	80.3	36.6	49.5
6	71.9	91.7	44.1	71.8
8	81.9	99.0	67.7	90.2

PatientVLM选择影响（Qwen2.5-VL-7B作DocVLM）：

PatientVLM	平均F1	说明
Image-only SFT	61.8	无对话基线
InternVL3	70.1	+8.3
MedGemma	70.5	+8.7
Qwen2.5-VL	72.7	+10.9
mPLUG-Owl3	73.3	+11.5，表现最佳

关键发现¶

通用VLM获益更多：InternVL3和Qwen2.5-VL的F1提升远大于已有医学预训练的MedGemma，因为它们缺乏医学监督
领域模型也能显著提升：即使是MedGemma也获得了显著增益（RetinaMNIST F1从71.2→81.3），说明对话监督补充了预训练知识
对话长度越长越好：T从2增加到8，F1持续提升，最长对话在RetinaMNIST上提升39.9个百分点
PCDF零样本优于CoT：不经过微调直接用PCDF对话也优于Chain-of-Thought提示
临床验证通过：1680个QA对中96.9%被临床专家评为有临床相关性，无诊断泄露

亮点与洞察¶

双VLM角色分离设计精妙：相比单模型生成对话，双VLM各自扮演角色使得对话更加真实，信息不对称的约束保证了PatientVLM不泄露诊断
模型无关的通用框架：PCDF可与任意VLM组合使用，在通用VLM和医学VLM上均有效
无需真实数据的可扩展方案：完全绕过了真实医患对话数据收集的伦理和成本障碍
临床验证增强可信度：进行了有执照临床医生的评估（虽然规模较小），证明合成症状的临床相关性
优雅的问题建模：将"如何让VLM更好地诊断"转化为"如何让VLM像医生一样提问"

局限性 / 可改进方向¶

临床验证规模有限：仅210个案例由医学专业人员验证，需要更大规模、更多样化的人群评估
问题过于技术化：DocVLM生成的部分随访问题过于专业，普通患者可能难以理解
仅支持英文：限制了在多语言医疗场景中的应用
数据集局限：仅在MedMNIST v2（小分辨率图像）上验证，未在大规模真实临床数据上测试
PatientVLM的症状生成质量：基于ground-truth诊断生成症状，可能产生与真实患者体验不同的"理想化"症状描述

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐