Follow-up Question Generation for Enhanced Patient-Provider Conversations¶

会议: ACL 2025
arXiv: 2503.17509
代码: 未公开（数据集 FollowupBench 公开）
作者: Joseph Gatto, Parker Seegmiller, Timothy Burdick, Inas S. Khayal, Sarah DeLozier, Sarah M. Preum
机构: Dartmouth College
领域: 医疗NLP / 对话系统
关键词: 追问生成, 异步医疗对话, 多智能体框架, 电子健康记录, 鉴别诊断

一句话总结¶

提出 FollowupQ 多智能体框架，结合 EHR 推理、鉴别诊断和消息澄清三类 Agent，为异步医患对话自动生成个性化追问列表，在真实和半合成数据集上分别比基线提升 17% 和 5% 的 RIM 分数，将医生需要额外发送的信息收集消息减少 34%。

研究背景与动机¶

异步医疗对话的特殊性： - 在远程医疗和患者门户中，医患通过异步消息交流，不同于实时多轮对话 - 患者常假设医生了解其背景，导致消息信息不全 - 医生需一次性生成多个追问问题（而非逐个提问），以减少额外通信轮次

现有方法的不足： - 现有追问生成研究（社交媒体、对话调查等）多聚焦于一次生成一个问题 - 同步对话研究未考虑异步场景的特殊需求——无法实时追问 - 现有 LLM 直接生成追问效果差——即使让其生成 10 倍于医生数量的问题，仍无法覆盖医生实际提出的所有问题

临床需求：异步消息处理是医生倦怠的重要原因，自动追问生成可减轻工作负担

方法详解¶

整体框架¶

FollowupQ 是一个多智能体框架，接收患者消息 T 和 EHR 记录 C = {A, H, M}（人口信息、病史、用药），通过三类 Agent 生成追问集合 Q̂，可选地经过去重和 Top-k 筛选控制输出数量。

三类核心 Agent¶

1. EHR 推理 Agent（2 个）¶

病史推理 Agent：从患者病史 H 中提取与当前消息最相关的信息 I_hist，然后基于这些信息生成针对性追问 Q̂_hist
用药推理 Agent：从用药列表 M 中提取相关药物信息 I_med，生成用药相关追问 Q̂_med
关键设计：先信息提取再生成问题的两步法，避免将无关的 EHR 信息干扰追问生成

2. 鉴别诊断 Agent¶

诊断生成：分别生成最佳和最坏情况下的 k 个可能诊断 D_diff = f(T, P_best, k) ∪ f(T, P_worst, k)
追问生成：对每个可能诊断 dᵢ，生成排除该诊断所需的追问 Q̂_dᵢ = f(T, dᵢ, P_rule-out, k)
设计动机：模拟临床医生的思维过程——先想可能是什么病，再问能排除哪些

3. 消息澄清 Agent（4 个）¶

症状询问 Agent：提取消息中的症状，生成细化问题（如腹痛具体位置）
自我治疗 Agent：询问患者正在使用的非处方药或自行治疗方式
时间推理 Agent：澄清症状时间线（持续时间、频率等）
消息歧义 Agent：针对模糊表述要求更多解释

总问题集生成¶

Q̂p = Q̂ ∪ Q̂{EHR} ∪ Q̂

问题筛选（可选）¶

去重：用 LLM 识别语义重复的问题
Top-k 选择：Agent 从去重后的列表中选择 k 个最重要的问题呈现给患者

评估指标¶

Requested Information Match (RIM)：RIM(Q, Q̂) = |Q ∩ Q̂| / |Q|，衡量系统生成的问题覆盖了多少真实医生提出的问题。不惩罚额外生成的问题
Message Reduction % (MR%)：RIM = 1.0 的样本比例，表示完全覆盖医生问题的比例

LLM-as-Judge 语义匹配¶

使用经微调的 PHI-4-14B 作为 Judge，判断生成问题和真实问题是否请求相同信息（即使措辞不同）。测试集上 macro F1 = 0.87。

实验结果¶

数据集¶

数据集	类型	样本数	平均问题数/样本	特点
FB-Real	真实患者消息 + EHR	150	3.4	含 PHI，不公开
FB-Synth	半合成消息 + EHR	250	9.3	2300+ 追问，公开

主实验结果（FB-Real）¶

方法	RIM ↑	平均生成问题数
0-shot (Llama3-8b)	~0.40	~10
Few-shot (Llama3-8b)	~0.40	~12
40-question (Llama3-8b)	~0.45	40
Long-Thought (DeepSeek R1)	~0.48	~15
FollowupQ (Llama3-8b)	0.62	36
FollowupQ (Llama3-8b-Aloe)	0.64	>36

关键发现：FollowupQ 比零/少样本基线提升约 22 个百分点。即使让基线 LLM 生成 10 倍以上的问题（40 个 vs 医生平均 3.4 个），仍无法匹配 FollowupQ 的表现——问题不在数量而在多样性。

工作负担减少效果¶

方法	MR% (RIM=1.0 比例) ↑
最好的基线	~15%
FollowupQ (Llama3-8b)	34%

FollowupQ 在 34% 的患者消息中完全覆盖了医生的所有追问，意味着医生在这些情况下无需额外发送信息收集消息。

各 Agent 贡献分析（FB-Real）¶

Agent 类型	RIM 贡献
鉴别诊断（最坏情况）Agent	最大贡献
用药推理 Agent	~10%
时间澄清 Agent	显著贡献
消息歧义 Agent	显著贡献
EHR 相关 Agent	~10%

洞察：最坏情况鉴别诊断贡献最多，反映了临床追问的核心动机——排除严重情况。EHR 信息贡献约 10%，证实了个性化 EHR 推理的必要性。

筛选后效果¶

36 个问题 → 去重后 22 个（RIM: 0.62 → 0.57）
去重后 22 个 → Top-10 筛选（RIM: 0.57 → 0.42）
下降的原因不是问题质量差，而是无法建模特定医生的个人偏好

FB-Synth 结果¶

FollowupQ (Llama3-8b) 比最近基线提升 5 个百分点
Qwen-32b 上 FollowupQ 仍优于基线，但提升更温和

亮点与洞察¶

问题定义精准：首次系统定义异步医患追问生成任务，区别于同步对话中的信息获取
临床思维建模：三类 Agent 对应医生实际的三种思维过程（EHR 查阅、鉴别诊断、消息理解），具有临床专业的可解释性
"数量不等于质量"的发现：让 LLM 生成更多问题并不能解决问题——多样性和临床相关性更重要
RIM 指标设计合理：不惩罚额外问题，符合临床"多问不如少问遗漏"的逻辑
实用性强：34% 的消息减少率意味着真实可观的工作负担缓解

局限性¶

受限于安全计算环境，仅测试了有限的 LLM（Llama3-8b/Aloe, Qwen-32b），未测试 GPT-4 等更强模型
数据来自单一农村社区医院，患者群体和医生偏好可能存在偏差
不同医生对同一消息可能产生不同的追问集，ground truth 具有主观性
Top-k 筛选效果受限于无法建模特定医生的个人偏好
未探索同步对话场景的应用

评分 ⭐⭐⭐⭐¶

创新性: ⭐⭐⭐⭐ 首次系统定义异步医疗追问生成任务，多 Agent 框架设计合理
实验充分性: ⭐⭐⭐⭐ 真实+合成数据集、多基线对比、Agent 贡献分析、筛选消融
实用价值: ⭐⭐⭐⭐⭐ 直接解决医生异步消息过载的痛点，34% 消息减少率有实际意义
写作质量: ⭐⭐⭐⭐ 问题动机和临床背景阐述清晰，评估指标设计动机充分