MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning¶
会议: ICLR2026
arXiv: 2506.00555
代码: 未开源
领域: medical_imaging
关键词: multi-agent collaboration, reinforcement learning, medical VQA, curriculum learning, GRPO, clinical reasoning
一句话总结¶
提出 MMedAgent-RL,通过 RL 优化模拟临床会诊流程(分诊→专科→主治)的多智能体系统,核心创新是课程学习引导的熵感知 RL(C-MARL),让主治医师智能体在面对正确/冲突/错误的专科意见时分别采取不同的探索-利用策略,在域内外共 5 个医学 VQA 基准上实现 SOTA。
背景与动机¶
- 单智能体局限:医学影像诊断涉及多个亚专科(放射科、病理科、肿瘤科等),单一 Med-LVLM 难以覆盖所有专科知识
- 静态多智能体的不足:MedAgents、MDAgents 等采用固定的 GP→Specialist→GP 流程,智能体交互模式预设且不可学习
- 专科意见不可靠:专科模型输出并非总是正确,可能引入噪声甚至误导;多数投票可能压制正确的少数意见
- 核心挑战:主治医师需要学会何时信任专科共识(exploit)、何时挑战并独立探索(explore)
- RL 的机会:DeepSeek-R1 等证明 RL 可增强 LLM 推理能力,但多智能体医学协作的 RL 优化尚未被探索
方法详解¶
整体框架:临床会诊流程模拟(GP→Specialists→GP)¶
基于 Qwen2.5-VL 分阶段 RL 训练两个 GP 智能体:
- 分诊医师(Triage Doctor):根据输入图像和文本选择专科
- 专科医生(Specialists):GPT 等强模型扮演,提供专科诊断意见
- 主治医师(Attending Physician):整合专科意见和自身知识,做出最终决策
关键设计 1:分诊医师的 RL 优化¶
- 利用数据集自带的图像模态标签作为 ground truth(如病理切片→病理科)
- 7 个候选专科:Pathologist、Radiologist、Surgeon、Oncologist、Endocrinologist、Ophthalmologist、Dermatologist
- GRPO 算法优化,奖励函数:\(R = R_{format} \in \{0, 0.5\} + R_{accuracy} \in \{0, 1\}\)
- 不仅提升分诊准确性,还强化推理过程(解释分诊原因)
关键设计 2:课程学习引导的熵感知 RL(C-MARL)¶
核心思想:根据专科意见的可靠程度划分难度,逐阶段训练主治医师。
数据分级(基于专科准确率 \(s = \text{Acc}(y_d, y^*)\)): - Easy(\(s=1\)):所有专科回答正确 - Medium(\(0<s<1\)):部分正确,存在分歧 - Hard(\(s=0\)):全部错误,形成误导性共识
动态熵调节——在标准 GRPO 目标中加入课程相关的熵正则项:
\[\mathcal{J}_{C\text{-}MARL}(\theta) = \mathbb{E}[\mathcal{J}_{GRPO}(\theta) + \gamma_s \cdot H_t(\pi_\theta)]\]
- \(\gamma_{easy} \approx 0\):Easy 阶段不需要额外探索,专注利用可靠专科知识
- \(\gamma_{medium} > 0\):Medium 阶段适度鼓励探索,防止面对冲突信息时过度自信
- \(\gamma_{hard} \gg \gamma_{medium}\):Hard 阶段强力鼓励探索,迫使模型打破误导性专科共识
训练顺序:Easy → Medium → Hard,由简到难的课程式训练
关键设计 3:理论分析¶
- 提供了课程学习优于标准 SGD 的收敛性证明(Theorem 4.1)
- 课程学习的总训练时间依赖于相邻阶段最优策略的距离之和:\(\sum_{j=0}^{J-1}\log\|\theta_j^\star - \theta_{j+1}^\star\|_2^2\)
- 有效课程保证中间距离小,前一阶段的解作为下一阶段的热启动
- 标准 SGD 在同等条件下无法收敛到最优策略(下界证明)
实验¶
主实验结果(准确率,%)¶
| 模型 | VQA-RAD | SLAKE | PathVQA | 域内Avg | OmniMedVQA | MMMU-Med | 域外Avg |
|---|---|---|---|---|---|---|---|
| GPT-4o | 61.0 | 75.5 | 69.4 | 68.6 | 68.5 | 69.7 | 69.1 |
| Qwen2.5-VL-7B | 61.8 | 64.7 | 60.5 | 62.3 | 60.8 | 56.6 | 58.7 |
| MedVLThinker-7B | 63.7 | 67.8 | 65.2 | 65.6 | 62.4 | 57.0 | 59.7 |
| MDAgents | 66.8 | 68.2 | 65.4 | 66.8 | 58.2 | 52.3 | 55.1 |
| MMedAgent-RL (7B) | 71.5 | 76.2 | 72.3 | 73.3 | 73.3 | 71.9 | 72.6 |
| + Test-Time Scaling | 73.9 | 80.1 | 74.3 | 76.1 | 79.6 | 73.5 | 76.6 |
消融实验¶
| 配置 | VQA-RAD | SLAKE | OmniMedVQA | MMMU-Med |
|---|---|---|---|---|
| 完整 MMedAgent-RL | 71.5 | 76.2 | 73.3 | 71.9 |
| w/o Triage | 66.3 | 69.9 | 66.2 | 59.3 |
| w/o Specialists | 65.8 | 67.8 | 64.4 | 54.2 |
| w/o C-MARL | 63.5 | 65.5 | 57.9 | 50.2 |
| + Easy only | 64.7 | 69.3 | 68.2 | 58.0 |
| + Easy + Medium | 69.4 | 76.9 | 70.8 | 68.8 |
| + Easy + Medium + Hard | 71.5 | 76.2 | 73.3 | 71.9 |
关键发现¶
- C-MARL 贡献最大:去掉 C-MARL 后平均下降 18.6%,是最核心组件
- 每个课程阶段都有贡献:Easy→Medium→Hard 逐步累加效果,验证了课程学习设计
- Hard 阶段至关重要:模型在专科全部错误的"Hard"场景中提升最大(+20%),说明学会了"不盲从"
- 域外泛化强劲:OmniMedVQA(+13%)和 MMMU-Med(+15%)均大幅超越基座,超越 GPT-4o
- 分诊准确性影响全链:优化后的分诊医师为后续正确的专科咨询奠定基础(+3%)
- TTS(Test-Time Scaling)进一步提升性能:majority voting 额外提升 4.5%
亮点¶
- C-MARL 的熵调节设计精妙:从探索-利用权衡的角度解决了多智能体中专科噪声问题
- 课程学习与 RL 的结合有理论保障(收敛性证明),非纯 heuristic
- 7B 模型在多项基准上超越 GPT-4o,展示了 RL 优化的潜力
- 实验设计全面:涵盖域内/域外、消融、专科选择、难度分层等多个维度
局限性¶
- 专科医生由 GPT 等闭源模型扮演,部署成本高且依赖第三方 API
- 分诊专科类别固定为 7 个,可能无法覆盖所有临床场景
- 课程的三级难度划分依赖 ground truth 标签,推理时无法获知难度级别
- 仅评估了多选题形式的 VQA,未涵盖开放式临床推理或报告生成
- 理论分析假设条件较强(如强凸性),实际深度网络未必满足
相关工作¶
- 医学 VLM:LLaVA-Med、HuatuoGPT-Vision、VILA-M3 等单智能体模型
- 医学多智能体:Agent Hospital、MedAgents、MDAgents — 静态预设流程
- RL 增强推理:DeepSeek-R1、VLM-R1 等 GRPO 后训练范式
- 课程学习:从易到难的渐进式训练策略(Bengio et al., 2009)
评分¶
⭐⭐⭐⭐⭐ (5/5)
方法设计优雅,C-MARL 的熵调节策略既有直觉合理性又有理论支撑。实验全面且说服力强,7B 模型超越 GPT-4o 的结果令人印象深刻。课程学习与 RL 的结合为多智能体协作提供了新范式。
相关论文¶
- [AAAI 2026] MAMA-Memeia! Multi-Aspect Multi-Agent Collaboration for Depressive Symptoms Identification in Memes
- [ICLR 2026] Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis
- [NeurIPS 2025] MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks
- [ICLR 2026] CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework
- [CVPR 2025] UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis