跳转至

STEPH: Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in WSI Prognosis

会议: CVPR 2026
arXiv: 2603.10526
代码: github.com/liupei101/STEPH
领域: 医学图像 / 计算病理学
关键词: 全切片图像, 生存分析, 跨癌种知识迁移, 任务向量, 超网络, 模型合并

一句话总结

STEPH 将跨癌种预后模型的任务向量进行超网络驱动的混合(TVM)+ 稀疏聚合,在单一模型内完成知识迁移,13 个 TCGA 数据集上 C-Index 平均 0.6949(+5.14% vs 癌种特定学习,+2.01% vs ROUPKT),且推理开销远低于表示迁移方案。

背景与动机

  • 病理全切片图像(WSI)为 gigapixel 级,是癌症预后(生存分析)的核心数据源
  • 癌种特定学习(主流范式):每种癌症独立训一个 MIL 模型,但每个癌种样本量约 1000 例,且肿瘤异质性高,泛化性差
  • 多癌种联合训练:将所有癌种数据拼在一起训练,但 WSI 体量巨大导致计算成本极高,且有隐私风险
  • 表示迁移(ROUPKT):用多个源模型的 WSI 表示做路由聚合,但推理时需跑所有源模型,开销线性增长
  • 核心矛盾:如何用单一模型高效吸收跨癌种知识,而不需要联合训练或多模型推理?

核心问题

能否通过模型合并(model merging)的方式,将多个癌种的预后知识"融入"目标癌种模型,实现轻量高效的跨癌种迁移?

方法详解

任务向量定义

给定初始模型 M₀,在癌种 t 数据上微调后得到 M_t,任务向量 τ_t = M_t − M₀ 编码了该癌种的预后知识。τ_t 本质上是训练过程中的累积梯度方向。

步骤一:任务向量混合(Task Vector Mixup, TVM)

对每个源-目标配对 (τ_t, τ_sᵢ),进行插值混合:

τ_mix = λᵢ · τ_t + (1 − λᵢ) · τ_sᵢ

  • λᵢ ∈ [0,1] 控制方向:λ 大则偏目标、λ 小则偏源
  • 理论依据:基于 Vicinal Risk Minimization(VRM)原理,τ 的插值可近似虚拟混合训练数据上的梯度,从而产生泛化更好的模型
  • 经验验证:损失景观可视化显示 λ ∈ [0.7, 0.8] 时能找到训练/测试 loss 都更低的解;SAR(子空间对齐比)分析表明 TVM 在注意力层与 τ_t 保持高度对齐

步骤二:超网络驱动的自适应 λ

固定 λ 对所有 WSI 一视同仁不够好(验证集太小易引入偏差),因此设计超网络 H_mix:

  • 输入:WSI patch 特征 X ∈ ℝ^{n×d}
  • 结构:mean-MIL 编码器 + 全连接输出头
  • 输出:对每个源模型的自适应 λᵢ

这使得不同 WSI 可以从不同源癌种借取不同程度的知识。

步骤三:稀疏任务向量聚合

并非所有源癌种都有益——有的模型训练差,有的与目标癌种冲突。设计第二个超网络 H_agg:

  • 共享 H_mix 的 MIL 编码器,但有独立输出头
  • 输出:每个混合向量的权重 wᵢ ≥ 0
  • Top-K(K=5)选择:只保留权重最大的 K 个混合向量
  • 加权求和得到最终任务向量:τ_t* = Σ_j w_j · τ_mix,j
  • 灵感来源:Mixture of Experts 的稀疏门控思想

最终模型与训练

  • 最终模型:M_t = M₀ + τ_t
  • 损失函数:L = L_NLL(生存分析标准损失) + β·L_mix(惩罚过大 λ 鼓励迁移) + γ·L_agg(抑制过大 w 稳定训练)
  • 实际训练的是 H_mix 和 H_agg 两个轻量超网络,所有癌种特定模型冻结

实验设置

  • 数据:TCGA 13 种癌症,共 8818 张 WSI / 7268 位患者,UNI 提取 patch 特征
  • 评估:C-Index,5 折交叉验证
  • 对比方法
  • 癌种特定学习:Vanilla / Fine-tuned
  • 表示迁移:Fine-tuned ℳ_s / ROUPKT
  • 模型合并:Model Avg / AdaMerging / TIES / Surgery / Iso-C

实验关键数据

对比 C-Index 基线 提升
vs Vanilla(癌种特定) 0.6949 0.6609 +5.14%
vs ROUPKT(表示迁移) 0.6949 0.6812 +2.01%
BRCA 最佳提升 0.7408 0.6648 +11.4%
vs AdaMerging(模型合并) 0.6949 0.5689 +22.1%
  • 12/13 个数据集优于 Vanilla,9/13 优于 ROUPKT
  • 现有模型合并方法(AdaMerging/Surgery/Iso-C)通常比 Vanilla 还差,因其面向多任务而非单任务增强

消融实验

变体 Avg C-Index 说明
fix λ=1(无 mixup) 0.6851 只用 τ_t,无跨癌种知识
fix λ=0 + τ_t ∈ 0.6895 把 τ_t 也当源
可训练参数 λ 0.6921 静态 λ
超网络驱动 λ 0.6949 输入自适应
可训练参数 w 0.6490 统一 w 效果极差
超网络驱动 w 0.6949 +4.59% vs 可训练 w
无 Top-K 稀疏 0.6912 全部聚合
有 Top-K 稀疏 0.6949 过滤无益知识

核心发现:超网络驱动的输入自适应 w 是最关键设计,差距 +4.59%。

超网络增强现有方法

将超网络驱动的聚合方案嫁接到现有模型合并方法上,平均提升 14.5%:

方法 原始 Avg + 超网络 w 提升
AdaMerging 0.5689 0.6877 +20.9%
TIES 0.6396 0.6802 +6.3%
Surgery 0.5943 0.6668 +12.2%
Iso-C 0.5699 0.6761 +18.6%

可视化分析

  • 损失景观:TVM 能指向测试 loss 更低的优化方向
  • 训练轨迹:随 epoch 增加,TVM 逐渐走向低 loss 区域
  • λ/w 动态:以 BRCA 为例,KIPAN/COADREAD/BLCA 的 λ < 0.3(大量借用源知识)且 w 较大,说明这三个癌种对 BRCA 预后最有帮助
  • SAR 分析:TVM 在注意力层与 τ_t 高度对齐,在 embedding 层则不对齐——改善主要来自注意力层

亮点

  • 首次将任务向量混合 + 超网络驱动引入计算病理学的跨癌种知识迁移
  • 理论上基于 VRM 原理给出 TVM 有效性的解释,并用 loss landscape 和 SAR 经验验证
  • 超网络驱动的 input-conditional 权重 vs 固定权重差距极大(+4.59%),且可即插即用增强现有模型合并方法(+14.5%)
  • 推理代价仅增加两个轻量 MIL 超网络,远低于 ROUPKT 的多模型推理

局限性 / 可改进方向

  • 依赖 TCGA 数据,部分癌种样本量很小(CESC/LIHC < 400),评估可靠性有限
  • 仅在通用 attention-based MIL (ABMIL) 架构上验证,更先进架构(TransMIL/DTFD-MIL)待测
  • 仍需要目标癌种的训练数据来优化超网络,非 training-free
  • 需要预训练好所有 12 个源癌种模型作为前提

评分

  • 新颖性: ⭐⭐⭐⭐ 任务向量混合 + 超网络自适应在病理领域是新颖组合,VRM 理论分析加分
  • 实验充分度: ⭐⭐⭐⭐⭐ 13 个 TCGA 数据集、多类基线、详细消融、loss landscape/SAR 可视化
  • 价值: ⭐⭐⭐⭐ 对计算病理学跨癌种迁移有实际意义,超网络聚合方案可泛化到更多模型合并场景