Let the Experts Speak: Improving Survival Prediction & Calibration via Mixture-of-Experts Heads¶

会议: NeurIPS 2025
arXiv: 2511.09567
代码: https://github.com/ToddMorrill/survival-moe
领域: 医疗AI / 生存分析
关键词: 生存分析, 混合专家模型, 校准, 聚类, 离散时间模型

一句话总结¶

提出三种离散时间深度混合专家(MoE)生存分析架构，其中 Personalized MoE 通过让每个专家为每位患者生成定制化事件分布，同时实现出色的聚类、校准和预测精度。

生存分析(预测临床事件发生时间)在临床决策支持系统中至关重要。临床医生最关心三个方面：预测准确性、校准性(概率具有直观含义)和可解释性(能否类比相似患者进行推理)。

混合专家(MoE)模型因其发现潜在患者分组的能力而在医学生存分析中特别有吸引力。然而，现有 MoE 方法通常在分组能力和关键指标(如校准误差、预测准确性)之间存在权衡——这源于 MoE 施加的限制性归纳偏置：个体患者的预测必须看起来像其所属组的预测。

本文的核心问题是：能否在发现患者群体结构的同时，改善校准和预测精度？ 通过系统研究专家表达能力对性能的影响，作者发现更具表达力的、为每位患者量身定制预测的专家优于依赖固定组原型的专家。

三种架构共享相同的前端(前馈深度网络)，仅在最后一层(MoE 头)的设计上不同。所有方法均使用离散时间 MTLR 风格损失函数训练，预测单调标签序列。输入为患者记录(人口统计学、生理数据等)，经嵌入和全连接层后得到隐状态表示 \(\mathbf{x}\)，送入 MoE 头。

Fixed MoE (固定专家): 路由器 \(W \in \mathbb{R}^{n \times h}\) 和可学习专家矩阵 \(M \in \mathbb{R}^{n \times m}\)。每个专家学习一个固定的事件分布，对所有患者相同。最终 PMF 是专家分布的加权平均：\(\mathbf{p} = \boldsymbol{\alpha} M'\)。引入可学习温度参数 \(\kappa\) 调节路由的锐度。该架构代表了一类使用固定原型分布的先前工作。
Adjustable MoE (可调专家): 在 Fixed MoE 基础上，每个专家学习一个原型事件分布，但通过可学习的时间扭曲函数进行患者级调整。扭曲函数使用两个 logistic CDF 的归一化混合，参数为患者隐状态的线性函数。通过双向映射(正向映射 \(\phi\) 和逆映射 \(\psi\))和线性插值实现分布的平滑变形。该方法用少量额外参数即可灵活调整事件分布。
Personalized MoE (个性化专家): 最灵活的设计。将隐状态分别投影为路由表示和专家表示，专家表示被分成 \(n\) 个等大小的块，每块通过独立线性层生成该专家对该患者的定制事件分布。参数高效——通过分块设计可能强制模型为每个专家使用独立信息。动态矩阵 \(M(\mathbf{x}_e) \in \mathbb{R}^{n \times m}\) 是患者特定的。

数据集	模型	ECE↓	Concordance↑	Brier(50th)↓
SUPPORT2	CoxPH	0.187	78.89	0.209
SUPPORT2	RSF	0.187	79.76	0.203
SUPPORT2	MTLR	0.057	79.91	0.149
SUPPORT2	Fixed MoE	0.054	79.78	0.147
SUPPORT2	Adjustable MoE	0.048	79.83	0.145
SUPPORT2	Personalized MoE	0.048	80.84	0.142
Sepsis	MTLR	0.017	88.36	0.033
Sepsis	Personalized MoE	0.005	89.77	0.030

Personalized MoE 在两个真实数据集上全面超越所有方法(含 CoxPH、RSF、MTLR 等强 baseline)
在 Sepsis 数据上，Personalized MoE 将 ECE 从 0.017 降至 0.005，concordance 从 88.36 提升至 89.77
专家表达力构成一个连续体：Fixed → Adjustable → Personalized，敏感性递减
聚类分析揭示了临床有意义的患者分组(如 SUPPORT2 中按风险分层、年龄、诊断等区分)
Adjusted Rand Index 为 0.36，表明跨随机种子有中等稳定性的路由行为