跳转至

PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis

会议: AAAI 2026
arXiv: 2601.10945
代码: https://vl2g.github.io/projects/pcdf
领域: 多模态VLM
关键词: 医学诊断, 视觉语言模型, 医患对话模拟, 多轮对话, 数据增强

一句话总结

本文提出PCDF(Pre-Consultation Dialogue Framework),通过两个VLM角色扮演——DocVLM提问、PatientVLM回答——模拟真实医患对话,生成image-dialogue-diagnosis三元组用于微调DocVLM,在四个医学影像基准上平均F1提升11.48个百分点,且不依赖真实临床对话数据。

研究背景与动机

领域现状:AI辅助医学诊断是一个长期研究方向。早期依赖CNN做图像分类,后来CLIP及其医学适配版本(MedCLIP、BioMedCLIP)引入视觉-文本对齐,近期VLM(如LLaVA-Med、MedPaLM2、MedGemma)展现了强大的零样本泛化能力。

核心痛点:现有方法将诊断简化为"图像→诊断"的直接映射,忽略了临床上下文的重要性。在真实临床实践中,医生很少仅凭图像就做出诊断——他们会与患者进行多轮对话,询问症状、病史,逐步排除可能性。这种对话驱动的诊断推理是准确诊断的核心,但当前模型完全脱离了这一过程。

核心矛盾:如何让VLM获得对话感知的诊断能力?理想方案是收集真实医患对话数据用于训练,但这面临巨大障碍: - 真实医疗对话涉及敏感隐私,需要IRB批准和患者知情同意 - 临床医生不愿参与,担忧工作流干扰、医疗法律风险和患者信任问题 - 大规模数据收集在实践中不可行

已有尝试的不足:之前的工作用单个LLM同时扮演医生和患者生成合成对话,但存在两个根本缺陷:(i) 仅在纯文本setting下操作,不结合医学图像;(ii) 单模型扮演双角色导致对话缺乏角色分离和真实性。

本文切入角度:用两个独立的VLM分别扮演医生和患者角色,在图像和对话历史的条件下进行多轮自然交互,生成视觉-对话-诊断三元组用于训练。关键创新是PatientVLM基于ground-truth诊断生成症状回答(但被指示不能透露诊断本身),保持了真实咨询中的信息不对称性。

方法详解

整体框架

PCDF框架包含两个阶段: 1. 对话模拟阶段:DocVLM和PatientVLM进行T轮交互,生成image-dialogue-diagnosis三元组 2. 对话条件微调阶段:在生成的三元组上微调DocVLM,学习基于图像和对话历史的诊断

关键设计

  1. DocVLM(医生模型)

    • 做什么:基于医学图像和对话历史,生成临床相关的随访问题
    • 核心公式\(Q_{i,t} = \text{DocVLM}(P_{doc}(I_i, H_{i,<t}, \mathcal{C}))\)
    • 输入包括:图像 \(I_i\)、到当前轮次的对话历史 \(H_{i,<t}\)、所有可能的诊断类别 \(\mathcal{C}\)
    • 设计动机:将所有可能诊断包含在prompt中,鼓励DocVLM提出有区分性的问题,帮助区分不同的潜在诊断(借鉴自Kurz et al. 2025的策略)
  2. PatientVLM(患者模型)

    • 做什么:作为伪患者,基于ground-truth诊断生成对医生问题的回答
    • 核心公式\(A_{i,t} = \text{PatientVLM}(P_{pat}(I_i, C_i, Q_{i,t}))\)
    • 关键约束:虽然内部使用诊断信息引导症状表达,但被明确指示不能透露诊断本身
    • 设计动机:保持真实医患咨询中的信息不对称——医生不知道诊断,患者能描述症状但不能直接告知医生答案
  3. 对话条件微调

    • 做什么:在生成的增强数据集 \(\hat{D} = \{I_i, H_i, C_i\}\) 上微调DocVLM
    • 核心损失:将诊断分类建模为文本生成任务,使用标准生成损失
    • \(\mathcal{L}_{gen}(\theta) = -\mathbb{E}_{(I,H,C)}[\sum_m \log P_\theta(C_m | C_{<m}, I, H)]\)
    • 设计动机:让DocVLM学习 \(P(C|I,H)\),即基于图像和对话历史的联合诊断推理,而非仅基于图像

训练策略

  • 使用mPLUG-Owl3作为默认PatientVLM
  • 对话轮数T=8
  • 使用LoRA微调DocVLM(rank=16, alpha=32, dropout=0.05)
  • 训练10个epoch,batch size=8
  • 两个VLM在对话模拟阶段保持冻结

实验关键数据

主实验

模型 / 数据集 DermaMNIST F1 PneumoniaMNIST F1 RetinaMNIST F1 PathMNIST F1
InternVL3-2B
Image-only SFT 36.5 88.4 31.5 70.9
+PCDF 73.7 (+37.2) 98.6 (+10.2) 54.9 (+23.4) 85.5 (+14.6)
Gemma3-4B
Image-only SFT 78.3 95.7 47.7 86.0
+PCDF 81.9 (+3.6) 99.0 (+3.3) 67.7 (+20.0) 90.2 (+4.2)
MedGemma3-4B
Image-only SFT 81.5 99.1 71.2 90.9
+PCDF 86.4 (+4.9) 99.3 (+0.2) 81.3 (+10.1) 96.9 (+6.0)
Qwen2.5-VL-7B
Image-only SFT 56.5 83.3 33.8 73.5
+PCDF 81.0 (+24.5) 94.5 (+11.2) 39.7 (+5.9) 77.9 (+4.4)

消融实验

对话轮数影响(Gemma3作DocVLM)

对话轮数T DermaMNIST F1 PneumoniaMNIST F1 RetinaMNIST F1 PathMNIST F1
2 63.5 78.8 27.8 59.1
4 70.3 80.3 36.6 49.5
6 71.9 91.7 44.1 71.8
8 81.9 99.0 67.7 90.2

PatientVLM选择影响(Qwen2.5-VL-7B作DocVLM)

PatientVLM 平均F1 说明
Image-only SFT 61.8 无对话基线
InternVL3 70.1 +8.3
MedGemma 70.5 +8.7
Qwen2.5-VL 72.7 +10.9
mPLUG-Owl3 73.3 +11.5,表现最佳

关键发现

  1. 通用VLM获益更多:InternVL3和Qwen2.5-VL的F1提升远大于已有医学预训练的MedGemma,因为它们缺乏医学监督
  2. 领域模型也能显著提升:即使是MedGemma也获得了显著增益(RetinaMNIST F1从71.2→81.3),说明对话监督补充了预训练知识
  3. 对话长度越长越好:T从2增加到8,F1持续提升,最长对话在RetinaMNIST上提升39.9个百分点
  4. PCDF零样本优于CoT:不经过微调直接用PCDF对话也优于Chain-of-Thought提示
  5. 临床验证通过:1680个QA对中96.9%被临床专家评为有临床相关性,无诊断泄露

亮点与洞察

  1. 双VLM角色分离设计精妙:相比单模型生成对话,双VLM各自扮演角色使得对话更加真实,信息不对称的约束保证了PatientVLM不泄露诊断
  2. 模型无关的通用框架:PCDF可与任意VLM组合使用,在通用VLM和医学VLM上均有效
  3. 无需真实数据的可扩展方案:完全绕过了真实医患对话数据收集的伦理和成本障碍
  4. 临床验证增强可信度:进行了有执照临床医生的评估(虽然规模较小),证明合成症状的临床相关性
  5. 优雅的问题建模:将"如何让VLM更好地诊断"转化为"如何让VLM像医生一样提问"

局限性 / 可改进方向

  1. 临床验证规模有限:仅210个案例由医学专业人员验证,需要更大规模、更多样化的人群评估
  2. 问题过于技术化:DocVLM生成的部分随访问题过于专业,普通患者可能难以理解
  3. 仅支持英文:限制了在多语言医疗场景中的应用
  4. 数据集局限:仅在MedMNIST v2(小分辨率图像)上验证,未在大规模真实临床数据上测试
  5. PatientVLM的症状生成质量:基于ground-truth诊断生成症状,可能产生与真实患者体验不同的"理想化"症状描述

相关工作与启发

  • MedIQ关注医疗问题生成质量但仅做评估,不提供训练方法论
  • 3MDBench通过文本驱动的人格化对话评估诊断能力
  • PCDF与LLM中的self-play思想有相似之处,但用于生成训练数据而非直接优化策略
  • 启发:双VLM对话模式可能可以扩展到其他需要交互推理的场景(如法律咨询、教育辅导)
  • 数据增强视角:通过合成对话丰富训练数据,这一范式有望推广到其他数据稀缺领域

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文