ICLR2026 医学图像 multi-agent collaboration 强化学习 medical VQA curriculum learning GRPO clinical reasoning

MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning¶

会议: ICLR2026
arXiv: 2506.00555
代码: 未开源
领域: medical_imaging
关键词: multi-agent collaboration, reinforcement learning, medical VQA, curriculum learning, GRPO, clinical reasoning

一句话总结¶

提出 MMedAgent-RL，通过 RL 优化模拟临床会诊流程（分诊→专科→主治）的多智能体系统，核心创新是课程学习引导的熵感知 RL（C-MARL），让主治医师智能体在面对正确/冲突/错误的专科意见时分别采取不同的探索-利用策略，在域内外共 5 个医学 VQA 基准上实现 SOTA。

背景与动机¶

单智能体局限：医学影像诊断涉及多个亚专科（放射科、病理科、肿瘤科等），单一 Med-LVLM 难以覆盖所有专科知识
静态多智能体的不足：MedAgents、MDAgents 等采用固定的 GP→Specialist→GP 流程，智能体交互模式预设且不可学习
专科意见不可靠：专科模型输出并非总是正确，可能引入噪声甚至误导；多数投票可能压制正确的少数意见
核心挑战：主治医师需要学会何时信任专科共识（exploit）、何时挑战并独立探索（explore）
RL 的机会：DeepSeek-R1 等证明 RL 可增强 LLM 推理能力，但多智能体医学协作的 RL 优化尚未被探索

方法详解¶

整体框架：临床会诊流程模拟（GP→Specialists→GP）¶

基于 Qwen2.5-VL 分阶段 RL 训练两个 GP 智能体：

分诊医师（Triage Doctor）：根据输入图像和文本选择专科
专科医生（Specialists）：GPT 等强模型扮演，提供专科诊断意见
主治医师（Attending Physician）：整合专科意见和自身知识，做出最终决策

关键设计 1：分诊医师的 RL 优化¶

利用数据集自带的图像模态标签作为 ground truth（如病理切片→病理科）
7 个候选专科：Pathologist、Radiologist、Surgeon、Oncologist、Endocrinologist、Ophthalmologist、Dermatologist
GRPO 算法优化，奖励函数：\(R = R_{format} \in \{0, 0.5\} + R_{accuracy} \in \{0, 1\}\)
不仅提升分诊准确性，还强化推理过程（解释分诊原因）

关键设计 2：课程学习引导的熵感知 RL（C-MARL）¶

核心思想：根据专科意见的可靠程度划分难度，逐阶段训练主治医师。

数据分级（基于专科准确率 \(s = \text{Acc}(y_d, y^*)\)）： - Easy（\(s=1\)）：所有专科回答正确 - Medium（\(0<s<1\)）：部分正确，存在分歧 - Hard（\(s=0\)）：全部错误，形成误导性共识

动态熵调节——在标准 GRPO 目标中加入课程相关的熵正则项：

\[\mathcal{J}_{C\text{-}MARL}(\theta) = \mathbb{E}[\mathcal{J}_{GRPO}(\theta) + \gamma_s \cdot H_t(\pi_\theta)]\]

\(\gamma_{easy} \approx 0\)：Easy 阶段不需要额外探索，专注利用可靠专科知识
\(\gamma_{medium} > 0\)：Medium 阶段适度鼓励探索，防止面对冲突信息时过度自信
\(\gamma_{hard} \gg \gamma_{medium}\)：Hard 阶段强力鼓励探索，迫使模型打破误导性专科共识

训练顺序：Easy → Medium → Hard，由简到难的课程式训练

关键设计 3：理论分析¶

提供了课程学习优于标准 SGD 的收敛性证明（Theorem 4.1）
课程学习的总训练时间依赖于相邻阶段最优策略的距离之和：\(\sum_{j=0}^{J-1}\log\|\theta_j^\star - \theta_{j+1}^\star\|_2^2\)
有效课程保证中间距离小，前一阶段的解作为下一阶段的热启动
标准 SGD 在同等条件下无法收敛到最优策略（下界证明）

实验¶

主实验结果（准确率，%）¶

模型	VQA-RAD	SLAKE	PathVQA	域内Avg	OmniMedVQA	MMMU-Med	域外Avg
GPT-4o	61.0	75.5	69.4	68.6	68.5	69.7	69.1
Qwen2.5-VL-7B	61.8	64.7	60.5	62.3	60.8	56.6	58.7
MedVLThinker-7B	63.7	67.8	65.2	65.6	62.4	57.0	59.7
MDAgents	66.8	68.2	65.4	66.8	58.2	52.3	55.1
MMedAgent-RL (7B)	71.5	76.2	72.3	73.3	73.3	71.9	72.6
+ Test-Time Scaling	73.9	80.1	74.3	76.1	79.6	73.5	76.6

消融实验¶

配置	VQA-RAD	SLAKE	OmniMedVQA	MMMU-Med
完整 MMedAgent-RL	71.5	76.2	73.3	71.9
w/o Triage	66.3	69.9	66.2	59.3
w/o Specialists	65.8	67.8	64.4	54.2
w/o C-MARL	63.5	65.5	57.9	50.2
+ Easy only	64.7	69.3	68.2	58.0
+ Easy + Medium	69.4	76.9	70.8	68.8
+ Easy + Medium + Hard	71.5	76.2	73.3	71.9

关键发现¶

C-MARL 贡献最大：去掉 C-MARL 后平均下降 18.6%，是最核心组件
每个课程阶段都有贡献：Easy→Medium→Hard 逐步累加效果，验证了课程学习设计
Hard 阶段至关重要：模型在专科全部错误的"Hard"场景中提升最大（+20%），说明学会了"不盲从"
域外泛化强劲：OmniMedVQA（+13%）和 MMMU-Med（+15%）均大幅超越基座，超越 GPT-4o
分诊准确性影响全链：优化后的分诊医师为后续正确的专科咨询奠定基础（+3%）
TTS（Test-Time Scaling）进一步提升性能：majority voting 额外提升 4.5%

亮点¶

C-MARL 的熵调节设计精妙：从探索-利用权衡的角度解决了多智能体中专科噪声问题
课程学习与 RL 的结合有理论保障（收敛性证明），非纯 heuristic
7B 模型在多项基准上超越 GPT-4o，展示了 RL 优化的潜力
实验设计全面：涵盖域内/域外、消融、专科选择、难度分层等多个维度

局限性¶

专科医生由 GPT 等闭源模型扮演，部署成本高且依赖第三方 API
分诊专科类别固定为 7 个，可能无法覆盖所有临床场景
课程的三级难度划分依赖 ground truth 标签，推理时无法获知难度级别
仅评估了多选题形式的 VQA，未涵盖开放式临床推理或报告生成
理论分析假设条件较强（如强凸性），实际深度网络未必满足

评分¶

⭐⭐⭐⭐⭐ (5/5)

方法设计优雅，C-MARL 的熵调节策略既有直觉合理性又有理论支撑。实验全面且说服力强，7B 模型超越 GPT-4o 的结果令人印象深刻。课程学习与 RL 的结合为多智能体协作提供了新范式。