Follow-up Question Generation for Enhanced Patient-Provider Conversations¶
会议: ACL 2025
arXiv: 2503.17509
代码: 未公开(数据集 FollowupBench 公开)
作者: Joseph Gatto, Parker Seegmiller, Timothy Burdick, Inas S. Khayal, Sarah DeLozier, Sarah M. Preum
机构: Dartmouth College
领域: 医疗NLP / 对话系统
关键词: 追问生成, 异步医疗对话, 多智能体框架, 电子健康记录, 鉴别诊断
一句话总结¶
提出 FollowupQ 多智能体框架,结合 EHR 推理、鉴别诊断和消息澄清三类 Agent,为异步医患对话自动生成个性化追问列表,在真实和半合成数据集上分别比基线提升 17% 和 5% 的 RIM 分数,将医生需要额外发送的信息收集消息减少 34%。
研究背景与动机¶
异步医疗对话的特殊性: - 在远程医疗和患者门户中,医患通过异步消息交流,不同于实时多轮对话 - 患者常假设医生了解其背景,导致消息信息不全 - 医生需一次性生成多个追问问题(而非逐个提问),以减少额外通信轮次
现有方法的不足: - 现有追问生成研究(社交媒体、对话调查等)多聚焦于一次生成一个问题 - 同步对话研究未考虑异步场景的特殊需求——无法实时追问 - 现有 LLM 直接生成追问效果差——即使让其生成 10 倍于医生数量的问题,仍无法覆盖医生实际提出的所有问题
临床需求:异步消息处理是医生倦怠的重要原因,自动追问生成可减轻工作负担
方法详解¶
整体框架¶
FollowupQ 是一个多智能体框架,接收患者消息 T 和 EHR 记录 C = {A, H, M}(人口信息、病史、用药),通过三类 Agent 生成追问集合 Q̂,可选地经过去重和 Top-k 筛选控制输出数量。
三类核心 Agent¶
1. EHR 推理 Agent(2 个)¶
- 病史推理 Agent:从患者病史 H 中提取与当前消息最相关的信息 I_hist,然后基于这些信息生成针对性追问 Q̂_hist
- 用药推理 Agent:从用药列表 M 中提取相关药物信息 I_med,生成用药相关追问 Q̂_med
- 关键设计:先信息提取再生成问题的两步法,避免将无关的 EHR 信息干扰追问生成
2. 鉴别诊断 Agent¶
- 诊断生成:分别生成最佳和最坏情况下的 k 个可能诊断 D_diff = f(T, P_best, k) ∪ f(T, P_worst, k)
- 追问生成:对每个可能诊断 dᵢ,生成排除该诊断所需的追问 Q̂_dᵢ = f(T, dᵢ, P_rule-out, k)
- 设计动机:模拟临床医生的思维过程——先想可能是什么病,再问能排除哪些
3. 消息澄清 Agent(4 个)¶
- 症状询问 Agent:提取消息中的症状,生成细化问题(如腹痛具体位置)
- 自我治疗 Agent:询问患者正在使用的非处方药或自行治疗方式
- 时间推理 Agent:澄清症状时间线(持续时间、频率等)
- 消息歧义 Agent:针对模糊表述要求更多解释
总问题集生成¶
Q̂p = Q̂ ∪ Q̂{EHR} ∪ Q̂
问题筛选(可选)¶
- 去重:用 LLM 识别语义重复的问题
- Top-k 选择:Agent 从去重后的列表中选择 k 个最重要的问题呈现给患者
评估指标¶
- Requested Information Match (RIM):RIM(Q, Q̂) = |Q ∩ Q̂| / |Q|,衡量系统生成的问题覆盖了多少真实医生提出的问题。不惩罚额外生成的问题
- Message Reduction % (MR%):RIM = 1.0 的样本比例,表示完全覆盖医生问题的比例
LLM-as-Judge 语义匹配¶
使用经微调的 PHI-4-14B 作为 Judge,判断生成问题和真实问题是否请求相同信息(即使措辞不同)。测试集上 macro F1 = 0.87。
实验结果¶
数据集¶
| 数据集 | 类型 | 样本数 | 平均问题数/样本 | 特点 |
|---|---|---|---|---|
| FB-Real | 真实患者消息 + EHR | 150 | 3.4 | 含 PHI,不公开 |
| FB-Synth | 半合成消息 + EHR | 250 | 9.3 | 2300+ 追问,公开 |
主实验结果(FB-Real)¶
| 方法 | RIM ↑ | 平均生成问题数 |
|---|---|---|
| 0-shot (Llama3-8b) | ~0.40 | ~10 |
| Few-shot (Llama3-8b) | ~0.40 | ~12 |
| 40-question (Llama3-8b) | ~0.45 | 40 |
| Long-Thought (DeepSeek R1) | ~0.48 | ~15 |
| FollowupQ (Llama3-8b) | 0.62 | 36 |
| FollowupQ (Llama3-8b-Aloe) | 0.64 | >36 |
关键发现:FollowupQ 比零/少样本基线提升约 22 个百分点。即使让基线 LLM 生成 10 倍以上的问题(40 个 vs 医生平均 3.4 个),仍无法匹配 FollowupQ 的表现——问题不在数量而在多样性。
工作负担减少效果¶
| 方法 | MR% (RIM=1.0 比例) ↑ |
|---|---|
| 最好的基线 | ~15% |
| FollowupQ (Llama3-8b) | 34% |
FollowupQ 在 34% 的患者消息中完全覆盖了医生的所有追问,意味着医生在这些情况下无需额外发送信息收集消息。
各 Agent 贡献分析(FB-Real)¶
| Agent 类型 | RIM 贡献 |
|---|---|
| 鉴别诊断(最坏情况)Agent | 最大贡献 |
| 用药推理 Agent | ~10% |
| 时间澄清 Agent | 显著贡献 |
| 消息歧义 Agent | 显著贡献 |
| EHR 相关 Agent | ~10% |
洞察:最坏情况鉴别诊断贡献最多,反映了临床追问的核心动机——排除严重情况。EHR 信息贡献约 10%,证实了个性化 EHR 推理的必要性。
筛选后效果¶
- 36 个问题 → 去重后 22 个(RIM: 0.62 → 0.57)
- 去重后 22 个 → Top-10 筛选(RIM: 0.57 → 0.42)
- 下降的原因不是问题质量差,而是无法建模特定医生的个人偏好
FB-Synth 结果¶
- FollowupQ (Llama3-8b) 比最近基线提升 5 个百分点
- Qwen-32b 上 FollowupQ 仍优于基线,但提升更温和
亮点与洞察¶
- 问题定义精准:首次系统定义异步医患追问生成任务,区别于同步对话中的信息获取
- 临床思维建模:三类 Agent 对应医生实际的三种思维过程(EHR 查阅、鉴别诊断、消息理解),具有临床专业的可解释性
- "数量不等于质量"的发现:让 LLM 生成更多问题并不能解决问题——多样性和临床相关性更重要
- RIM 指标设计合理:不惩罚额外问题,符合临床"多问不如少问遗漏"的逻辑
- 实用性强:34% 的消息减少率意味着真实可观的工作负担缓解
局限性¶
- 受限于安全计算环境,仅测试了有限的 LLM(Llama3-8b/Aloe, Qwen-32b),未测试 GPT-4 等更强模型
- 数据来自单一农村社区医院,患者群体和医生偏好可能存在偏差
- 不同医生对同一消息可能产生不同的追问集,ground truth 具有主观性
- Top-k 筛选效果受限于无法建模特定医生的个人偏好
- 未探索同步对话场景的应用
相关工作¶
- 追问生成: Meng et al. (2023) 和 Liu et al. (2025) 研究社交媒体追问,但一次只生成一个问题;Liu et al. (2024) 在极小规模(n=7)上探索了类似设置
- 医疗问诊对话: Winston et al. (2024) 和 Li et al. (2024) 在同步对话中研究 LLM 问诊,但未考虑异步场景和 EHR 数据
- 多 Agent 医疗系统: MedAgents (Tang et al., 2024)、RareAgents (Chen et al., 2024)、MDAgents (Kim et al., 2024) 用于医疗决策,但非信息获取
评分 ⭐⭐⭐⭐¶
- 创新性: ⭐⭐⭐⭐ 首次系统定义异步医疗追问生成任务,多 Agent 框架设计合理
- 实验充分性: ⭐⭐⭐⭐ 真实+合成数据集、多基线对比、Agent 贡献分析、筛选消融
- 实用价值: ⭐⭐⭐⭐⭐ 直接解决医生异步消息过载的痛点,34% 消息减少率有实际意义
- 写作质量: ⭐⭐⭐⭐ 问题动机和临床背景阐述清晰,评估指标设计动机充分
相关论文¶
- [ACL 2025] Multi-Hop Question Generation via Dual-Perspective Keyword Guidance
- [ACL 2025] DRS: Deep Question Reformulation With Structured Output
- [ACL 2025] Hanging in the Balance: Pivotal Moments in Crisis Counseling Conversations
- [ACL 2025] X-Turing: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents
- [ACL 2025] USDC: A Dataset of User Stance and Dogmatism in Long Conversations