跳转至

📚 AI Paper Notes

STEPH: Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in WSI Prognosis

STEPH: Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in WSI Prognosis¶

会议: CVPR 2026
arXiv: 2603.10526
代码: github.com/liupei101/STEPH
领域: 医学图像 / 计算病理学
关键词: 全切片图像, 生存分析, 跨癌种知识迁移, 任务向量, 超网络, 模型合并

一句话总结¶

STEPH 将跨癌种预后模型的任务向量进行超网络驱动的混合（TVM）+ 稀疏聚合，在单一模型内完成知识迁移，13 个 TCGA 数据集上 C-Index 平均 0.6949（+5.14% vs 癌种特定学习，+2.01% vs ROUPKT），且推理开销远低于表示迁移方案。

背景与动机¶

病理全切片图像（WSI）为 gigapixel 级，是癌症预后（生存分析）的核心数据源
癌种特定学习（主流范式）：每种癌症独立训一个 MIL 模型，但每个癌种样本量约 1000 例，且肿瘤异质性高，泛化性差
多癌种联合训练：将所有癌种数据拼在一起训练，但 WSI 体量巨大导致计算成本极高，且有隐私风险
表示迁移（ROUPKT）：用多个源模型的 WSI 表示做路由聚合，但推理时需跑所有源模型，开销线性增长
核心矛盾：如何用单一模型高效吸收跨癌种知识，而不需要联合训练或多模型推理？

核心问题¶

能否通过模型合并（model merging）的方式，将多个癌种的预后知识"融入"目标癌种模型，实现轻量高效的跨癌种迁移？

方法详解¶

任务向量定义¶

给定初始模型 M₀，在癌种 t 数据上微调后得到 M_t，任务向量 τ_t = M_t − M₀ 编码了该癌种的预后知识。τ_t 本质上是训练过程中的累积梯度方向。

步骤一：任务向量混合（Task Vector Mixup, TVM）¶

对每个源-目标配对 (τ_t, τ_sᵢ)，进行插值混合：

τ_mix = λᵢ · τ_t + (1 − λᵢ) · τ_sᵢ

λᵢ ∈ [0,1] 控制方向：λ 大则偏目标、λ 小则偏源
理论依据：基于 Vicinal Risk Minimization（VRM）原理，τ 的插值可近似虚拟混合训练数据上的梯度，从而产生泛化更好的模型
经验验证：损失景观可视化显示 λ ∈ [0.7, 0.8] 时能找到训练/测试 loss 都更低的解；SAR（子空间对齐比）分析表明 TVM 在注意力层与 τ_t 保持高度对齐

步骤二：超网络驱动的自适应 λ¶

固定 λ 对所有 WSI 一视同仁不够好（验证集太小易引入偏差），因此设计超网络 H_mix：

输入：WSI patch 特征 X ∈ ℝ^{n×d}
结构：mean-MIL 编码器 + 全连接输出头
输出：对每个源模型的自适应 λᵢ

这使得不同 WSI 可以从不同源癌种借取不同程度的知识。

步骤三：稀疏任务向量聚合¶

并非所有源癌种都有益——有的模型训练差，有的与目标癌种冲突。设计第二个超网络 H_agg：

共享 H_mix 的 MIL 编码器，但有独立输出头
输出：每个混合向量的权重 wᵢ ≥ 0
Top-K（K=5）选择：只保留权重最大的 K 个混合向量
加权求和得到最终任务向量：τ_t* = Σ_j w_j · τ_mix,j
灵感来源：Mixture of Experts 的稀疏门控思想

最终模型与训练¶

最终模型：M_t = M₀ + τ_t
损失函数：L = L_NLL(生存分析标准损失) + β·L_mix(惩罚过大 λ 鼓励迁移) + γ·L_agg(抑制过大 w 稳定训练)
实际训练的是 H_mix 和 H_agg 两个轻量超网络，所有癌种特定模型冻结

实验设置¶

数据：TCGA 13 种癌症，共 8818 张 WSI / 7268 位患者，UNI 提取 patch 特征
评估：C-Index，5 折交叉验证
对比方法：
癌种特定学习：Vanilla / Fine-tuned
表示迁移：Fine-tuned ℳ_s / ROUPKT
模型合并：Model Avg / AdaMerging / TIES / Surgery / Iso-C

实验关键数据¶

对比	C-Index	基线	提升
vs Vanilla（癌种特定）	0.6949	0.6609	+5.14%
vs ROUPKT（表示迁移）	0.6949	0.6812	+2.01%
BRCA 最佳提升	0.7408	0.6648	+11.4%
vs AdaMerging（模型合并）	0.6949	0.5689	+22.1%

12/13 个数据集优于 Vanilla，9/13 优于 ROUPKT
现有模型合并方法（AdaMerging/Surgery/Iso-C）通常比 Vanilla 还差，因其面向多任务而非单任务增强

消融实验¶

变体	Avg C-Index	说明
fix λ=1（无 mixup）	0.6851	只用 τ_t，无跨癌种知识
fix λ=0 + τ_t ∈	0.6895	把 τ_t 也当源
可训练参数 λ	0.6921	静态 λ
超网络驱动 λ	0.6949	输入自适应
可训练参数 w	0.6490	统一 w 效果极差
超网络驱动 w	0.6949	+4.59% vs 可训练 w
无 Top-K 稀疏	0.6912	全部聚合
有 Top-K 稀疏	0.6949	过滤无益知识

核心发现：超网络驱动的输入自适应 w 是最关键设计，差距 +4.59%。

超网络增强现有方法¶

将超网络驱动的聚合方案嫁接到现有模型合并方法上，平均提升 14.5%：

方法	原始 Avg	+ 超网络 w	提升
AdaMerging	0.5689	0.6877	+20.9%
TIES	0.6396	0.6802	+6.3%
Surgery	0.5943	0.6668	+12.2%
Iso-C	0.5699	0.6761	+18.6%

可视化分析¶

损失景观：TVM 能指向测试 loss 更低的优化方向
训练轨迹：随 epoch 增加，TVM 逐渐走向低 loss 区域
λ/w 动态：以 BRCA 为例，KIPAN/COADREAD/BLCA 的 λ < 0.3（大量借用源知识）且 w 较大，说明这三个癌种对 BRCA 预后最有帮助
SAR 分析：TVM 在注意力层与 τ_t 高度对齐，在 embedding 层则不对齐——改善主要来自注意力层

亮点¶

首次将任务向量混合 + 超网络驱动引入计算病理学的跨癌种知识迁移
理论上基于 VRM 原理给出 TVM 有效性的解释，并用 loss landscape 和 SAR 经验验证
超网络驱动的 input-conditional 权重 vs 固定权重差距极大（+4.59%），且可即插即用增强现有模型合并方法（+14.5%）
推理代价仅增加两个轻量 MIL 超网络，远低于 ROUPKT 的多模型推理

局限性 / 可改进方向¶

依赖 TCGA 数据，部分癌种样本量很小（CESC/LIHC < 400），评估可靠性有限
仅在通用 attention-based MIL (ABMIL) 架构上验证，更先进架构（TransMIL/DTFD-MIL）待测
仍需要目标癌种的训练数据来优化超网络，非 training-free
需要预训练好所有 12 个源癌种模型作为前提

评分¶

新颖性: ⭐⭐⭐⭐ 任务向量混合 + 超网络自适应在病理领域是新颖组合，VRM 理论分析加分
实验充分度: ⭐⭐⭐⭐⭐ 13 个 TCGA 数据集、多类基线、详细消融、loss landscape/SAR 可视化
价值: ⭐⭐⭐⭐ 对计算病理学跨癌种迁移有实际意义，超网络聚合方案可泛化到更多模型合并场景