QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training¶
会议: NeurIPS 2025
arXiv: 2506.00711
代码: 权重和训练管线已发布
领域: 医学多模态 / 临床推理
关键词: 多模态临床, GRPO, 领域感知强化学习, ECG+影像+文本, 可解释推理
一句话总结¶
QoQ-Med 构建了覆盖 9 个临床模态(1D ECG + 6 类 2D 影像 + 2 类 3D 扫描)的多模态临床基础模型,提出域感知相对策略优化(DRPO)——通过层级温度缩放(域间 × 域内 K-means 聚类)解决模态/难度不平衡问题,在 261 万指令调优对上训练后平均 F1 达 0.295(vs GRPO 0.193,+52.8%),8 个模态中 6 个最优。
研究背景与动机¶
- 领域现状:多模态 LLM(MLLM)在通用任务上进展快,但临床应用需要同时处理 1D 时序(ECG/EEG)、2D 影像(胸片/皮肤镜/眼底)、3D 体数据(CT/MRI)——没有 MLLM 同时覆盖这三类。
- 现有痛点:(a) 模态不平衡严重——胸片数据丰富但 ECG 数据稀缺,标准训练使丰富模态主导;(b) 域内难度差异大——简单胸片 vs 复杂 CT 斜面重建需要不同的学习策略;(c) 黑箱模型缺乏推理轨迹——临床部署需要可解释性。
- 核心矛盾:GRPO(无 critic)比 PPO 高效但不处理域/难度不平衡;简单混合所有模态训练使稀有模态被淹没。
- 本文要解决什么? 在 GRPO 框架内解决多模态临床训练的域/难度不平衡,同时生成可解释的推理轨迹和定位框。
- 切入角度:DRPO 在 GRPO 的归一化后增加两层温度缩放——域间缩放(\(T_{(g,t)} = \max(\sqrt{N_g} \cdot \mu_g, \varepsilon)\))和域内 K-means 聚类缩放——使稀有模态和困难样本获得更大学习梯度。
- 核心 idea 一句话:9 模态临床数据 + DRPO(域间+域内 K-means 层级温度缩放)+ IoU 奖励引导定位 = 可解释的多模态临床推理。
方法详解¶
整体框架¶
输入: 图像/ECG/文本交错序列 → 编码器: 预训练视觉编码器 + ECG-JEPA 编码器 + 线性投影 → LLM: 生成推理链 + 定位框 + 诊断 → 训练: 两阶段——Stage 1 模态对齐(ECG 编码器+投影+LLM)→ Stage 2 全模态微调,均用 DRPO
关键设计¶
- 域感知相对策略优化(DRPO):
- 做什么:解决多模态训练中的域/难度不平衡
- 核心思路:在标准 GRPO 归一化后增加两层温度缩放。域间: \(T_{(g,t)} = \max(\sqrt{N_g} \cdot \mu_g, \varepsilon)\)——样本多且奖励高的域缩放大(抑制),样本少/奖励低的域缩放小(放大)。域内: K-means 聚类奖励向量 → 每个聚类也做温度缩放 \(T_{(c,g,t)}\)——困难聚类(低奖励)获得更大学习信号
-
设计动机:域间缩放处理"胸片 vs ECG"的模态不平衡;域内 K-means 处理"简单 vs 困难问题"的难度不平衡
-
多模态奖励函数:
- 做什么:同时激励诊断准确性和定位质量
- 核心思路:\(r_i = 0.6 \cdot r^{acc} + 0.2 \cdot r^{IoU} + 0.2 \cdot r^{aux}\)。准确性奖励 = F1(无序标签集);IoU 奖励 = 预测框与分割 mask 的最大 IoU;辅助奖励 = 格式/推理长度一致性
-
设计动机:仅准确性奖励不产生定位能力——IoU 奖励使模型学会指出证据区域,提升可解释性
-
三模态输入融合:
- 做什么:统一处理 1D/2D/3D 临床数据
- 核心思路:图像 patch → 视觉编码器 → 线性投影;ECG → ECG-JEPA 编码器 → 新初始化线性投影;文本直接 tokenize。三类 token 按时间顺序交错输入 LLM
- 设计动机:ECG 是 1D 时序,不能用视觉编码器——独立的 ECG-JEPA 编码器保留时序特征
损失函数 / 训练策略¶
- DRPO policy gradient + 分层温度缩放
- 261 万指令调优对,33 个数据集,9 个临床模态
- K-means elbow 方法自动选聚类数
- DRPO 奖励计算开销 < 2% 总训练时间
实验关键数据¶
主实验(8 个影像模态 F1)¶
| 方法 | CXR | 乳腺 | 皮肤 | CT | 眼底 | 超声 | MRI | 病理 | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| SFT | .078 | .056 | .158 | .236 | .066 | .235 | .197 | .083 | .139 |
| GRPO | .095 | .059 | .244 | .236 | .086 | .146 | .395 | .286 | .193 |
| PPO | .064 | .205 | .278 | .257 | .083 | .080 | .540 | .364 | .234 |
| DRPO | .115 | .253 | .407 | .309 | .093 | .223 | .625 | .265 | .295 |
DRPO vs GRPO: +52.8%;DRPO vs PPO: +26.1%
多模态融合(MIMIC-IV,胸片+ECG+EHR)¶
| 模型 | 住院时长 F1 | 48h 院内死亡率 F1 |
|---|---|---|
| GRPO-Full | 0.105 | 0.354 |
| DRPO-TextOnly | 0.195 | — |
| DRPO-Vision+Text | 0.223 | — |
| DRPO-Full (3 模态) | 0.283 | 0.597 |
消融实验¶
| 配置 | 平均 F1 | 说明 |
|---|---|---|
| 仅域缩放 | 0.237 | +22.8% vs GRPO |
| 仅 K-means 缩放 | — | — |
| 完整 DRPO | 0.295 | +52.8% vs GRPO |
| K-means 10 簇 | 0.286 | 最优(elbow) |
| K-means 20 簇 | 0.294 | 接近 |
| 奖励权重 (0.6:0.2) | 0.286 | 最优 |
| 奖励权重 (0.2:0.6) | 0.260 | IoU 重→退化 |
关键发现¶
- DRPO 在 8 个模态中 6 个最优——特别在稀有模态(乳腺 +328.8%!)上改善巨大
- 乳腺从 0.059→0.253(4.3×)说明域间缩放对稀有模态极为关键
- MRI 从 0.395→0.625(+58.2%)说明域内难度分层也很重要
- 三模态融合(CXR+ECG+Text)比任何单/双模态都好——临床需要多模态
- 推理轨迹临床验证显示高相关性——定位框指向正确的异常区域
亮点与洞察¶
- DRPO 的层级温度缩放优雅地解决了多模态 RL 训练的两个核心问题——域不平衡和难度不平衡,开销极低(<2%)
- 乳腺 +328.8% 的改善说明——没有域感知的 RL 对稀有模态基本无效
- IoU 奖励引导定位使模型不仅诊断还"指出证据"——直接满足临床可解释性需求
- 三模态(影像+时序+文本)统一是首次——之前的临床 MLLM 只处理 2D 影像+文本
局限性 / 可改进方向¶
- 推理轨迹无监督——监督推理可能更高效
- 视觉/文本对 ECG 的贡献大于反之——ECG 融合策略需优化
- 未讨论推理延迟/吞吐量
- 未覆盖所有模态的详细子领域(如超声细分)
相关工作与启发¶
- vs Med-R1: 也用 RL 做医学推理但非多模态,QoQ-Med 覆盖 9 模态
- vs LLaVa-Med: 仅 2D 影像+文本,无 ECG/3D 支持
- vs GRPO: 标准 GRPO 不处理域不平衡,DRPO 是其自然扩展
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ DRPO + 三模态临床推理是重要贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 9 模态 + 33 数据集 + 261 万样本 + 多种 RL 对比
- 写作质量: ⭐⭐⭐⭐ 方法清晰,消融充分
- 价值: ⭐⭐⭐⭐⭐ 为临床 AI 提供了可解释的多模态推理基础模型