PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis¶
会议: AAAI 2026
arXiv: 2601.10945
代码: https://vl2g.github.io/projects/pcdf
领域: 多模态VLM
关键词: 医学诊断, 视觉语言模型, 医患对话模拟, 多轮对话, 数据增强
一句话总结¶
本文提出PCDF(Pre-Consultation Dialogue Framework),通过两个VLM角色扮演——DocVLM提问、PatientVLM回答——模拟真实医患对话,生成image-dialogue-diagnosis三元组用于微调DocVLM,在四个医学影像基准上平均F1提升11.48个百分点,且不依赖真实临床对话数据。
研究背景与动机¶
领域现状:AI辅助医学诊断是一个长期研究方向。早期依赖CNN做图像分类,后来CLIP及其医学适配版本(MedCLIP、BioMedCLIP)引入视觉-文本对齐,近期VLM(如LLaVA-Med、MedPaLM2、MedGemma)展现了强大的零样本泛化能力。
核心痛点:现有方法将诊断简化为"图像→诊断"的直接映射,忽略了临床上下文的重要性。在真实临床实践中,医生很少仅凭图像就做出诊断——他们会与患者进行多轮对话,询问症状、病史,逐步排除可能性。这种对话驱动的诊断推理是准确诊断的核心,但当前模型完全脱离了这一过程。
核心矛盾:如何让VLM获得对话感知的诊断能力?理想方案是收集真实医患对话数据用于训练,但这面临巨大障碍: - 真实医疗对话涉及敏感隐私,需要IRB批准和患者知情同意 - 临床医生不愿参与,担忧工作流干扰、医疗法律风险和患者信任问题 - 大规模数据收集在实践中不可行
已有尝试的不足:之前的工作用单个LLM同时扮演医生和患者生成合成对话,但存在两个根本缺陷:(i) 仅在纯文本setting下操作,不结合医学图像;(ii) 单模型扮演双角色导致对话缺乏角色分离和真实性。
本文切入角度:用两个独立的VLM分别扮演医生和患者角色,在图像和对话历史的条件下进行多轮自然交互,生成视觉-对话-诊断三元组用于训练。关键创新是PatientVLM基于ground-truth诊断生成症状回答(但被指示不能透露诊断本身),保持了真实咨询中的信息不对称性。
方法详解¶
整体框架¶
PCDF框架包含两个阶段: 1. 对话模拟阶段:DocVLM和PatientVLM进行T轮交互,生成image-dialogue-diagnosis三元组 2. 对话条件微调阶段:在生成的三元组上微调DocVLM,学习基于图像和对话历史的诊断
关键设计¶
-
DocVLM(医生模型)
- 做什么:基于医学图像和对话历史,生成临床相关的随访问题
- 核心公式:\(Q_{i,t} = \text{DocVLM}(P_{doc}(I_i, H_{i,<t}, \mathcal{C}))\)
- 输入包括:图像 \(I_i\)、到当前轮次的对话历史 \(H_{i,<t}\)、所有可能的诊断类别 \(\mathcal{C}\)
- 设计动机:将所有可能诊断包含在prompt中,鼓励DocVLM提出有区分性的问题,帮助区分不同的潜在诊断(借鉴自Kurz et al. 2025的策略)
-
PatientVLM(患者模型)
- 做什么:作为伪患者,基于ground-truth诊断生成对医生问题的回答
- 核心公式:\(A_{i,t} = \text{PatientVLM}(P_{pat}(I_i, C_i, Q_{i,t}))\)
- 关键约束:虽然内部使用诊断信息引导症状表达,但被明确指示不能透露诊断本身
- 设计动机:保持真实医患咨询中的信息不对称——医生不知道诊断,患者能描述症状但不能直接告知医生答案
-
对话条件微调
- 做什么:在生成的增强数据集 \(\hat{D} = \{I_i, H_i, C_i\}\) 上微调DocVLM
- 核心损失:将诊断分类建模为文本生成任务,使用标准生成损失
- \(\mathcal{L}_{gen}(\theta) = -\mathbb{E}_{(I,H,C)}[\sum_m \log P_\theta(C_m | C_{<m}, I, H)]\)
- 设计动机:让DocVLM学习 \(P(C|I,H)\),即基于图像和对话历史的联合诊断推理,而非仅基于图像
训练策略¶
- 使用mPLUG-Owl3作为默认PatientVLM
- 对话轮数T=8
- 使用LoRA微调DocVLM(rank=16, alpha=32, dropout=0.05)
- 训练10个epoch,batch size=8
- 两个VLM在对话模拟阶段保持冻结
实验关键数据¶
主实验¶
| 模型 / 数据集 | DermaMNIST F1 | PneumoniaMNIST F1 | RetinaMNIST F1 | PathMNIST F1 |
|---|---|---|---|---|
| InternVL3-2B | ||||
| Image-only SFT | 36.5 | 88.4 | 31.5 | 70.9 |
| +PCDF | 73.7 (+37.2) | 98.6 (+10.2) | 54.9 (+23.4) | 85.5 (+14.6) |
| Gemma3-4B | ||||
| Image-only SFT | 78.3 | 95.7 | 47.7 | 86.0 |
| +PCDF | 81.9 (+3.6) | 99.0 (+3.3) | 67.7 (+20.0) | 90.2 (+4.2) |
| MedGemma3-4B | ||||
| Image-only SFT | 81.5 | 99.1 | 71.2 | 90.9 |
| +PCDF | 86.4 (+4.9) | 99.3 (+0.2) | 81.3 (+10.1) | 96.9 (+6.0) |
| Qwen2.5-VL-7B | ||||
| Image-only SFT | 56.5 | 83.3 | 33.8 | 73.5 |
| +PCDF | 81.0 (+24.5) | 94.5 (+11.2) | 39.7 (+5.9) | 77.9 (+4.4) |
消融实验¶
对话轮数影响(Gemma3作DocVLM):
| 对话轮数T | DermaMNIST F1 | PneumoniaMNIST F1 | RetinaMNIST F1 | PathMNIST F1 |
|---|---|---|---|---|
| 2 | 63.5 | 78.8 | 27.8 | 59.1 |
| 4 | 70.3 | 80.3 | 36.6 | 49.5 |
| 6 | 71.9 | 91.7 | 44.1 | 71.8 |
| 8 | 81.9 | 99.0 | 67.7 | 90.2 |
PatientVLM选择影响(Qwen2.5-VL-7B作DocVLM):
| PatientVLM | 平均F1 | 说明 |
|---|---|---|
| Image-only SFT | 61.8 | 无对话基线 |
| InternVL3 | 70.1 | +8.3 |
| MedGemma | 70.5 | +8.7 |
| Qwen2.5-VL | 72.7 | +10.9 |
| mPLUG-Owl3 | 73.3 | +11.5,表现最佳 |
关键发现¶
- 通用VLM获益更多:InternVL3和Qwen2.5-VL的F1提升远大于已有医学预训练的MedGemma,因为它们缺乏医学监督
- 领域模型也能显著提升:即使是MedGemma也获得了显著增益(RetinaMNIST F1从71.2→81.3),说明对话监督补充了预训练知识
- 对话长度越长越好:T从2增加到8,F1持续提升,最长对话在RetinaMNIST上提升39.9个百分点
- PCDF零样本优于CoT:不经过微调直接用PCDF对话也优于Chain-of-Thought提示
- 临床验证通过:1680个QA对中96.9%被临床专家评为有临床相关性,无诊断泄露
亮点与洞察¶
- 双VLM角色分离设计精妙:相比单模型生成对话,双VLM各自扮演角色使得对话更加真实,信息不对称的约束保证了PatientVLM不泄露诊断
- 模型无关的通用框架:PCDF可与任意VLM组合使用,在通用VLM和医学VLM上均有效
- 无需真实数据的可扩展方案:完全绕过了真实医患对话数据收集的伦理和成本障碍
- 临床验证增强可信度:进行了有执照临床医生的评估(虽然规模较小),证明合成症状的临床相关性
- 优雅的问题建模:将"如何让VLM更好地诊断"转化为"如何让VLM像医生一样提问"
局限性 / 可改进方向¶
- 临床验证规模有限:仅210个案例由医学专业人员验证,需要更大规模、更多样化的人群评估
- 问题过于技术化:DocVLM生成的部分随访问题过于专业,普通患者可能难以理解
- 仅支持英文:限制了在多语言医疗场景中的应用
- 数据集局限:仅在MedMNIST v2(小分辨率图像)上验证,未在大规模真实临床数据上测试
- PatientVLM的症状生成质量:基于ground-truth诊断生成症状,可能产生与真实患者体验不同的"理想化"症状描述
相关工作与启发¶
- MedIQ关注医疗问题生成质量但仅做评估,不提供训练方法论
- 3MDBench通过文本驱动的人格化对话评估诊断能力
- PCDF与LLM中的self-play思想有相似之处,但用于生成训练数据而非直接优化策略
- 启发:双VLM对话模式可能可以扩展到其他需要交互推理的场景(如法律咨询、教育辅导)
- 数据增强视角:通过合成对话丰富训练数据,这一范式有望推广到其他数据稀缺领域
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [AAAI 2026] Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models
- [AAAI 2026] LLMC+: Benchmarking Vision-Language Model Compression with a Plug-and-play Toolkit
- [AAAI 2026] PET2Rep: Towards Vision-Language Model-Driven Automated Radiology Report Generation for Positron Emission Tomography
- [AAAI 2026] SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge
- [AAAI 2026] TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks