QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training¶

会议: NeurIPS 2025
arXiv: 2506.00711
代码: 权重和训练管线已发布
领域: 医学多模态 / 临床推理
关键词: 多模态临床, GRPO, 领域感知强化学习, ECG+影像+文本, 可解释推理

一句话总结¶

QoQ-Med 构建了覆盖 9 个临床模态（1D ECG + 6 类 2D 影像 + 2 类 3D 扫描）的多模态临床基础模型，提出域感知相对策略优化（DRPO）——通过层级温度缩放（域间 × 域内 K-means 聚类）解决模态/难度不平衡问题，在 261 万指令调优对上训练后平均 F1 达 0.295（vs GRPO 0.193，+52.8%），8 个模态中 6 个最优。

研究背景与动机¶

领域现状：多模态 LLM（MLLM）在通用任务上进展快，但临床应用需要同时处理 1D 时序（ECG/EEG）、2D 影像（胸片/皮肤镜/眼底）、3D 体数据（CT/MRI）——没有 MLLM 同时覆盖这三类。
现有痛点：(a) 模态不平衡严重——胸片数据丰富但 ECG 数据稀缺，标准训练使丰富模态主导；(b) 域内难度差异大——简单胸片 vs 复杂 CT 斜面重建需要不同的学习策略；(c) 黑箱模型缺乏推理轨迹——临床部署需要可解释性。
核心矛盾：GRPO（无 critic）比 PPO 高效但不处理域/难度不平衡；简单混合所有模态训练使稀有模态被淹没。
本文要解决什么？ 在 GRPO 框架内解决多模态临床训练的域/难度不平衡，同时生成可解释的推理轨迹和定位框。
切入角度：DRPO 在 GRPO 的归一化后增加两层温度缩放——域间缩放（\(T_{(g,t)} = \max(\sqrt{N_g} \cdot \mu_g, \varepsilon)\)）和域内 K-means 聚类缩放——使稀有模态和困难样本获得更大学习梯度。
核心 idea 一句话：9 模态临床数据 + DRPO（域间+域内 K-means 层级温度缩放）+ IoU 奖励引导定位 = 可解释的多模态临床推理。

方法详解¶

整体框架¶

输入: 图像/ECG/文本交错序列 → 编码器: 预训练视觉编码器 + ECG-JEPA 编码器 + 线性投影 → LLM: 生成推理链 + 定位框 + 诊断 → 训练: 两阶段——Stage 1 模态对齐（ECG 编码器+投影+LLM）→ Stage 2 全模态微调，均用 DRPO

关键设计¶

域感知相对策略优化（DRPO）:
做什么：解决多模态训练中的域/难度不平衡
核心思路：在标准 GRPO 归一化后增加两层温度缩放。域间: \(T_{(g,t)} = \max(\sqrt{N_g} \cdot \mu_g, \varepsilon)\)——样本多且奖励高的域缩放大（抑制），样本少/奖励低的域缩放小（放大）。域内: K-means 聚类奖励向量 → 每个聚类也做温度缩放 \(T_{(c,g,t)}\)——困难聚类（低奖励）获得更大学习信号
设计动机：域间缩放处理"胸片 vs ECG"的模态不平衡；域内 K-means 处理"简单 vs 困难问题"的难度不平衡
多模态奖励函数:
做什么：同时激励诊断准确性和定位质量
核心思路：\(r_i = 0.6 \cdot r^{acc} + 0.2 \cdot r^{IoU} + 0.2 \cdot r^{aux}\)。准确性奖励 = F1（无序标签集）；IoU 奖励 = 预测框与分割 mask 的最大 IoU；辅助奖励 = 格式/推理长度一致性
设计动机：仅准确性奖励不产生定位能力——IoU 奖励使模型学会指出证据区域，提升可解释性
三模态输入融合:
做什么：统一处理 1D/2D/3D 临床数据
核心思路：图像 patch → 视觉编码器 → 线性投影；ECG → ECG-JEPA 编码器 → 新初始化线性投影；文本直接 tokenize。三类 token 按时间顺序交错输入 LLM
设计动机：ECG 是 1D 时序，不能用视觉编码器——独立的 ECG-JEPA 编码器保留时序特征

损失函数 / 训练策略¶

DRPO policy gradient + 分层温度缩放
261 万指令调优对，33 个数据集，9 个临床模态
K-means elbow 方法自动选聚类数
DRPO 奖励计算开销 < 2% 总训练时间

实验关键数据¶

主实验（8 个影像模态 F1）¶

方法	CXR	乳腺	皮肤	CT	眼底	超声	MRI	病理	平均
SFT	.078	.056	.158	.236	.066	.235	.197	.083	.139
GRPO	.095	.059	.244	.236	.086	.146	.395	.286	.193
PPO	.064	.205	.278	.257	.083	.080	.540	.364	.234
DRPO	.115	.253	.407	.309	.093	.223	.625	.265	.295

DRPO vs GRPO: +52.8%；DRPO vs PPO: +26.1%

多模态融合（MIMIC-IV，胸片+ECG+EHR）¶

模型	住院时长 F1	48h 院内死亡率 F1
GRPO-Full	0.105	0.354
DRPO-TextOnly	0.195	—
DRPO-Vision+Text	0.223	—
DRPO-Full (3 模态)	0.283	0.597

消融实验¶

配置	平均 F1	说明
仅域缩放	0.237	+22.8% vs GRPO
仅 K-means 缩放	—	—
完整 DRPO	0.295	+52.8% vs GRPO
K-means 10 簇	0.286	最优（elbow）
K-means 20 簇	0.294	接近
奖励权重 (0.6:0.2)	0.286	最优
奖励权重 (0.2:0.6)	0.260	IoU 重→退化

关键发现¶

DRPO 在 8 个模态中 6 个最优——特别在稀有模态（乳腺 +328.8%！）上改善巨大
乳腺从 0.059→0.253（4.3×）说明域间缩放对稀有模态极为关键
MRI 从 0.395→0.625（+58.2%）说明域内难度分层也很重要
三模态融合（CXR+ECG+Text）比任何单/双模态都好——临床需要多模态
推理轨迹临床验证显示高相关性——定位框指向正确的异常区域

亮点与洞察¶

DRPO 的层级温度缩放优雅地解决了多模态 RL 训练的两个核心问题——域不平衡和难度不平衡，开销极低（<2%）
乳腺 +328.8% 的改善说明——没有域感知的 RL 对稀有模态基本无效
IoU 奖励引导定位使模型不仅诊断还"指出证据"——直接满足临床可解释性需求
三模态（影像+时序+文本）统一是首次——之前的临床 MLLM 只处理 2D 影像+文本

局限性 / 可改进方向¶

推理轨迹无监督——监督推理可能更高效
视觉/文本对 ECG 的贡献大于反之——ECG 融合策略需优化
未讨论推理延迟/吞吐量
未覆盖所有模态的详细子领域（如超声细分）

评分¶

新颖性: ⭐⭐⭐⭐⭐ DRPO + 三模态临床推理是重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 9 模态 + 33 数据集 + 261 万样本 + 多种 RL 对比
写作质量: ⭐⭐⭐⭐ 方法清晰，消融充分
价值: ⭐⭐⭐⭐⭐ 为临床 AI 提供了可解释的多模态推理基础模型