Beyond the Individual: Virtualizing Multi-Disciplinary Reasoning for Clinical Intake via Collaborative Agents¶

会议: ACL 2026
arXiv: 2604.08927
代码: GitHub
领域: 医学AI / 多智能体
关键词: 多学科会诊, 多智能体, 临床问诊, SOAP笔记, 动态拓扑

一句话总结¶

提出 Aegle 框架，通过图结构多智能体架构虚拟化多学科会诊（MDT），将解耦并行推理和动态拓扑引入门诊问诊流程，在24个科室53项指标上超越SOTA模型。

研究背景与动机¶

领域现状：初诊问诊是临床决策的关键阶段，医生需将患者的非结构化叙述转化为SOAP格式的初始病程记录（IPN）。当前LLM辅助问诊主要有两类：文档生成（如Med-PaLM 2）和交互式问诊（如AMIE），但都是单模型架构。

现有痛点：(1) 单一医生/模型在时间压力下容易产生锚定偏差（anchoring bias），过度关注显著症状而忽略细微线索；(2) 现有交互式系统多为"被动接收者"，缺乏主动排除性提问能力；(3) 多学科会诊（MDT）虽能缓解认知偏差，但成本高、难以扩展到日常门诊。

核心矛盾：MDT级别的系统性推理深度与实时门诊场景的资源约束之间的矛盾。同时，多智能体系统中的"缺陷共识"问题——智能体可能互相强化偏差、压制正确的少数意见。

本文目标：将MDT的认知优势虚拟化，以低成本在实时门诊中实现多视角协作推理。

切入角度：用图结构多智能体架构模拟MDT协作——解耦并行推理保持假设多样性，动态拓扑按需激活专科智能体，SOAP结构化状态确保推理可追溯。

核心 idea：通过Orchestrator动态激活专科Agent、各Agent解耦并行推理、Aggregator整合输出并更新结构化临床状态的三层架构，虚拟化MDT会诊流程。

方法详解¶

整体框架¶

Aegle基于DeepSeek-V3.2构建，采用两阶段有限状态机执行问诊：Stage I为迭代式病史采集（证据收集），Stage II为诊断综合（冻结证据集后生成诊断）。全程维护一个增量更新的结构化临床状态 \(\mathcal{S}_t = [\mathcal{F}_t, \mathcal{P}_t]\)，其中 \(\mathcal{F}\) 对应SOAP的S+O（事实证据），\(\mathcal{P}\) 对应A+P（诊断与计划）。

关键设计¶

结构化临床状态（Structured Clinical State）:
- 功能：作为所有Agent共享的"黑板"，分离证据收集与诊断推理
- 核心思路：将SOAP模式形式化为 \(\mathcal{S}_t = [\mathcal{F}_t, \mathcal{P}_t]\)，其中 \(\mathcal{F}\)（Case Features）累积基本信息、现病史、既往史、体检结果等可验证事实；\(\mathcal{P}\)（Diagnosis & Plan）仅在 \(\mathcal{F}\) 稳定后生成。强制单向依赖：\(\mathcal{F} \to \mathcal{P}\)
- 设计动机：防止过早提交不成熟的诊断假设（premature commitment），确保临床结论可追溯到具体证据
动态多智能体图拓扑（Multi-Agent Graph Topology）:
- 功能：按需激活专科Agent，避免不必要的专家介入
- 核心思路：三类节点协作——Orchestrator作为路由策略 \(\pi_{orch}\) 根据对话历史和当前证据选择激活的专科子集 \(A_{sub}\)；Specialist Agents各自独立并行分析病例（解耦推理）；Aggregator按"先写后说"协议整合专科建议更新状态 \(\mathcal{S}_{t+1}\) 再生成患者面向的对话
- 设计动机：解耦并行推理保持假设多样性（避免group think），动态激活类似真实MDT中按需召集专家
两阶段顺序执行（Sequential Clinical Execution）:
- 功能：严格分离证据获取与诊断推理，作为显式的偏差控制机制
- 核心思路：Stage I中Orchestrator反复激活专科Agent提出追问建议，Aggregator整合后生成下一轮问诊；证据充分后转入Stage II，冻结 \(\mathcal{F}\) 并基于完整证据集生成 \(\mathcal{P}\)（诊断+治疗计划）
- 设计动机：避免在证据不完整时过早锁定诊断方向，模拟真实MDT中先充分讨论病情再形成共识的流程

损失函数 / 训练策略¶

Aegle为推理框架（非训练方法），基于DeepSeek-V3.2的zero-shot能力，通过结构化prompt和角色分配实现协作。无需额外训练。

实验关键数据¶

主实验¶

数据集	指标	Aegle	DeepSeek-V3.2	GPT-4o	提升
ClinicalBench	IDEA	63.80	50.51	41.05	+13.3
ClinicalBench	SOAP	53.42	38.64	29.38	+14.8
ClinicalBench	READ	76.20	71.73	67.66	+4.5
RAPID-IPN	IDEA	67.31	54.35	44.70	+13.0
RAPID-IPN	SOAP	60.09	47.39	34.79	+12.7
RAPID-IPN	READ	80.18	72.14	69.89	+8.0

覆盖24个临床科室，53项细粒度指标。

消融实验¶

配置	IDEA	SOAP	说明
Aegle (完整)	63.80	53.42	完整框架
单Agent (DeepSeek-V3.2)	50.51	38.64	无MDT协作
MiniMax-M2	57.78	46.18	最强单模型baseline

关键发现¶

Aegle在所有53项指标上一致性地超越所有baseline，包括GPT-4o、Gemini 2.5等闭源模型
即使底座模型相同（DeepSeek-V3.2），多智能体框架带来了+13.3 IDEA分的提升，证明协作架构本身的价值
真实临床数据集RAPID-IPN上的提升更显著，说明框架在真实场景中泛化良好

亮点与洞察¶

解耦并行推理：各专科Agent独立分析避免了"缺陷共识"问题，这比辩论式多智能体更安全可控。可迁移到其他需要多视角分析的场景（如法律、金融风险评估）
SOAP结构化状态作为共享黑板：将临床文档标准提升为推理控制机制，不仅是记录格式，更是偏差控制工具。这种"结构即约束"的思路很有启发性
先写后说协议：Aggregator先更新内部状态再生成对话，确保技术精确性与患者沟通的分离，对医疗AI的可部署性很重要

局限与展望¶

完全依赖DeepSeek-V3.2的zero-shot能力，未探索针对临床场景的微调
多Agent调用增加了推理成本（API调用次数倍增），实际部署需考虑延迟和成本
评估主要基于中文临床数据，跨语言和跨文化的泛化性待验证
未涉及影像、实验室检验等多模态信息的整合

评分¶

新颖性: ⭐⭐⭐⭐ 将MDT虚拟化的框架设计新颖，SOAP结构化状态的形式化处理有创意
实验充分度: ⭐⭐⭐⭐⭐ 24个科室、53项指标、ClinicalBench+真实数据集、多个SOTA baseline对比
写作质量: ⭐⭐⭐⭐ 框架描述清晰，但公式符号较多，部分地方可进一步简化