跳转至

ConSurv: Multimodal Continual Learning for Survival Analysis

会议: AAAI 2026
arXiv: 2511.09853
代码: 无
领域: 医学图像
关键词: 持续学习, 多模态融合, 生存分析, 全切片图像, 灾难性遗忘

一句话总结

本文提出 ConSurv,首个面向生存分析的多模态持续学习方法,通过多阶段混合专家(MS-MoE)和特征约束回放(FCR)两个核心组件,在整合全切片病理图像和基因组数据的场景下有效缓解灾难性遗忘,并在新构建的 MSAIL 基准上全面超越现有方法。

研究背景与动机

领域现状:癌症生存预测对临床实践至关重要,它可以告知死亡风险并影响治疗方案。近年来,多模态方法(结合全切片病理图像 WSI 和基因组数据)展现了出色的生存预测能力,因为不同模态提供了互补的患者信息。

现有痛点:(1)在真实临床环境中,数据是持续积累的——新的患者数据、新的医院数据源不断涌入,但现有生存分析模型通常在单一静态数据集上训练,无法适应动态变化的临床环境;(2)直接在新数据上微调会导致灾难性遗忘——模型丢失在旧数据上学到的知识;(3)现有持续学习方法主要针对单模态分类任务设计,无法有效处理多模态生存分析的特殊挑战——超大尺寸的 WSI(千兆像素级)和高维基因组数据的复杂跨模态交互。

核心矛盾:持续学习需要同时满足两个相互矛盾的目标——学习新任务的知识(可塑性)和保持旧任务的知识(稳定性)。在多模态生存分析中,这一矛盾更加严峻:不同模态的编码器和融合模块都需要同时适应新数据和保持旧知识,且模态间的交互关系也会随任务变化。

本文目标:(1)在多模态(WSI + 基因组)生存分析场景中实现有效的持续学习;(2)设计能够捕捉任务共享和任务特定知识的架构;(3)在多个层面缓解灾难性遗忘;(4)构建标准化评测基准。

切入角度:作者观察到多模态生存分析的知识可以在多个层面分解——模态编码器层面的单模态知识和融合层面的跨模态知识,且同时存在任务共享和任务特定的成分。基于此,可以在网络的不同阶段分别处理知识的共享和特化。

核心 idea:通过在编码器和融合模块中分别部署混合专家机制来分离任务共享和任务特定知识(MS-MoE),并通过在编码器层和融合层多级别约束特征偏移来缓解遗忘(FCR)。

方法详解

整体框架

ConSurv 的输入为一对多模态数据:千兆像素级全切片病理图像(WSI)和基因组特征向量。两个模态分别通过各自的编码器提取特征,然后经过融合模块整合为统一表示,最终输出生存风险预测。整个网络在持续学习设置下按任务顺序训练(每个任务对应一个数据集),核心目标是在每个新任务上取得良好性能的同时不遗忘旧任务。

关键设计

  1. 多阶段混合专家(MS-MoE):

    • 功能:在网络的不同学习阶段分别捕捉任务共享知识和任务特定知识,包括单模态和跨模态层面。
    • 核心思路:在两个模态编码器和模态融合模块中都引入 MoE 结构。每个 MoE 层包含共享专家(所有任务使用)和任务特定专家(每个任务独有)。门控网络根据输入动态路由到合适的专家组合。在编码器阶段,MoE 学习模态内的共享和特定模式;在融合阶段,MoE 学习跨模态交互中的共享和特定关系。"多阶段"体现在 MoE 被部署在网络的多个位置(编码器+融合器),而非仅在单一位置。
    • 设计动机:不同数据集(任务)的 WSI 来自不同扫描仪、不同染色协议,基因组数据的分布也各异。共享专家捕捉跨任务的通用模式(如组织学的基本特征),特定专家适应每个任务的独特分布。这种分离避免了共享知识被新任务覆盖。
  2. 特征约束回放(FCR):

    • 功能:通过多级别的特征偏移约束进一步缓解灾难性遗忘。
    • 核心思路:维护一个小的经验回放缓冲区存储旧任务的代表性样本。在训练新任务时,同时回放旧样本,并在三个层面约束特征偏移:(a)WSI 编码器输出特征的偏移;(b)基因组编码器输出特征的偏移;(c)融合后统一表示的偏移。具体通过计算当前模型和旧模型在回放样本上的特征 L2 距离,将其作为正则化损失加入训练目标。
    • 设计动机:标准的经验回放只在输出层(预测)约束一致性,忽略了中间特征的漂移。而在多模态场景中,编码器层面的单模态特征漂移和融合层面的跨模态表示漂移都会导致遗忘。多级别约束全面覆盖了知识流失的各个通道。
  3. MSAIL 基准(Multimodal Survival Analysis Incremental Learning):

    • 功能:为多模态持续学习生存分析提供标准化评测平台。
    • 核心思路:整合四个公开的癌症生存分析数据集,按照任务增量学习的设置组织——模型按顺序学习四个数据集,评估在所有已见数据集上的综合性能。评测指标包括 C-index(一致性指数)等生存分析常用指标。
    • 设计动机:此前没有专门针对多模态持续学习生存分析的标准基准,缺乏统一的比较平台。MSAIL 的建立填补了这一空白。

损失函数 / 训练策略

总损失函数包含三部分:(1)生存分析损失(如 Cox partial likelihood 的负对数似然)用于生存预测;(2)FCR 正则化损失(多级别特征偏移惩罚)用于缓解遗忘;(3)MoE 的负载均衡损失确保专家被均匀利用。训练策略为任务增量学习——按顺序学习四个数据集,每个新任务训练时同时回放旧任务的小部分样本。

实验关键数据

主实验

在 MSAIL 基准上与多种持续学习方法对比。

方法 平均C-index 遗忘率 说明
ConSurv 最佳 最低 完整方法
EWC 中等 较高 经典正则化方法,不适应多模态
ER (Experience Replay) 中等 中等 标准回放,缺乏多级别约束
Fine-tuning 最新任务好 严重 无持续学习策略
Joint Training 上界 理想化的全数据联合训练

消融实验

配置 C-index 说明
ConSurv (Full) 最佳 MS-MoE + FCR 完整模型
w/o MS-MoE 显著下降 去掉MoE后无法分离共享/特定知识
w/o FCR 下降 去掉特征约束回放后遗忘加重
w/o 编码器级约束 小幅下降 仅保留融合级约束不够全面
w/o 融合级约束 小幅下降 仅保留编码器级约束忽略跨模态漂移

关键发现

  • MS-MoE 是最关键的组件——没有它,模型无法有效分离任务间的共享和特定知识,灾难性遗忘显著加重。
  • FCR 的多级别约束相比仅在预测层约束能进一步降低遗忘率,验证了中间特征保持的重要性。
  • 编码器级和融合级的约束都有贡献,两者互补,完整组合效果最佳。
  • ConSurv 与 Joint Training(理想上界)的差距较小,说明方法有效逼近了无遗忘的理想性能。

亮点与洞察

  • 首次将持续学习引入多模态生存分析领域是开创性工作,问题定义本身具有重要价值——临床数据确实是持续积累的,静态模型的局限性是真实的。
  • 多阶段 MoE 的设计很巧妙:不仅在编码器层面做知识分离,还在融合层面做。这种"处处分离"的策略全面覆盖了多模态网络中知识流失的各个通道。
  • MSAIL 基准的构建为后续研究提供了标准化平台,具有长期价值。

局限与展望

  • 实验在四个数据集上进行,任务数量相对较少,未验证在更长的任务序列上的表现。
  • MoE 中任务特定专家随任务数量线性增长,在极多任务场景下可能带来参数膨胀问题。
  • 未考虑数据隐私约束——在实际临床中,旧数据可能因隐私限制无法回放。
  • 可以探索与联邦学习的结合,在多医院协作场景下实现隐私保护的持续学习。

相关工作与启发

  • vs EWC/SI 等正则化方法: 这些方法通过约束参数变化来缓解遗忘,但不具备模态感知能力。ConSurv 的 FCR 在特征层面约束,更适合多模态场景。
  • vs 标准 MoE: 标准 MoE 不区分共享和特定专家。ConSurv 的 MS-MoE 显式引入两类专家,更适合持续学习。
  • vs PackNet/ProgressiveNet 等架构方法: 这些方法通过网络扩展来容纳新知识,但不考虑多模态交互。ConSurv 在融合层面也引入 MoE 是关键区别。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将持续学习引入多模态生存分析,问题定义和方法设计均有创新
  • 实验充分度: ⭐⭐⭐⭐ 完整的消融实验和多方法对比,构建了新基准
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐ 对临床AI系统的持续更新有实际指导意义

相关论文