Cross-Sample Augmented Test-Time Adaptation for Personalized Intraoperative Hypotension Prediction¶
会议: AAAI 2026
arXiv: 2512.15762
代码: GitHub
领域: 医学图像
关键词: 术中低血压预测, 测试时自适应, 跨样本检索, 时间序列预测, 个性化医疗
一句话总结¶
提出 CSA-TTA 框架,通过跨样本库构建、粗到细检索和多任务优化,在测试时从其他患者数据中检索低血压事件信号来增强个性化术中低血压预测。
研究背景与动机¶
- 术中低血压(IOH):MAP < 65 mmHg 持续≥1分钟,可导致急性肾损伤、心肌梗死、中风甚至死亡
- 准确预测 IOH 对于术中早期干预至关重要,但患者间生理差异巨大
- 现有方法的局限:
- CMA(注意力机制)、HMF(多特征融合)等群体级模型无法捕获个体差异
- 临床干预(麻醉、给药)引入隐性分布偏移,群体模型泛化能力差
- 测试时自适应(TTA)前景:TTT、TTT++ 通过自监督辅助任务在推理时微调模型
- TTA 在 IOH 中的困境:低血压事件极度稀疏
- VitalDB 数据集中低血压仅占 12.6% 样本
- 大多数患者在不到 10% 的手术时间内经历低血压
- 标准 TTA 依赖单样本自适应,无法捕捉突发血压下降,预测过于平滑
- 核心洞察:生理特征相似的患者表现出相似的术中反应 → 可从其他患者检索低血压事件来丰富自适应信号
方法详解¶
整体框架¶
CSA-TTA 包含三个核心步骤(如 Figure 2 所示):
- 跨样本库构建(Cross-Sample Bank Construction)
- 粗到细检索(Coarse-to-Fine Retrieval)
- 多任务优化(Multi-task Optimization)
支持两种模式:微调模式(先离线微调再 TTA)和零样本模式(直接做 TTA)
关键设计¶
1. 跨样本库构建
将历史数据集中所有患者的生理时间序列切分为固定长度片段,形成跨样本库 \(\mathcal{B}\):
- 按是否包含低血压事件分为两个子集
- 低血压定义:MAP < 65 mmHg 持续 ≥ 1 分钟
- 这种分区使得后续检索可以有针对性地获取低血压样本
2. 粗到细检索策略
使用自适应上下文窗口处理患者流式数据。在时间步 t,定义历史窗口 \(\mathcal{W}_{t-m:t}^{\text{hist}}\)。
粗粒度检索: - 对低血压子集 \(\mathcal{B}_{\text{hypo}}\) 和非低血压子集分别做 K-Shape 聚类 - K-Shape 基于形状匹配,适合生理时间序列(不需要显式时间对齐或幅度归一化) - 查询样本先确定类别,再匹配最相似的聚类中心,快速缩小搜索范围
细粒度检索: - 在粗检索确定的聚类内,用动态时间弯曲(DTW)计算语义相似度 - 选取 Top-K 最相似样本形成候选集 \(\mathcal{D}_{\text{retrieval}}\) - 检索样本经扰动增强(高斯噪声、时间缩放)增加多样性
组合形成自适应数据集:
3. 多任务优化
模型 \(F_\theta = (f_\theta, h_\theta, g_\theta)\) 包含: - 共享特征编码器 \(f_\theta\) - 预测分支 \(h_\theta\)(主任务:序列预测) - 自监督分支 \(g_\theta\)(辅助任务:掩码重建)
总损失:
- 掩码重建增强了时间序列表示学习,帮助捕捉细微的信号变化
- 回顾性序列预测利用已知的历史数据做自监督训练
损失函数 / 训练策略¶
- 部分微调策略:仅更新输入层、输出层和 LayerNorm 参数,平衡适应性与泛化
- 微调模式:TTA 更新 1 个 epoch;零样本模式:更新 3 个 epoch
- 离线微调:10 epochs,lr = 1e-4,batch size = 64,dropout = 0.01
- 混合触发机制预测 IOH:
- 硬触发:检测持续低血压期
- 软触发:滑动窗口内平均风险评估
- 两者结合产生最终概率估计
实验关键数据¶
主实验(零样本 & 微调)¶
数据集:VitalDB(2150 例非心脏手术,2秒/30秒采样)+ 院内数据(130 例测试)
零样本设置(VitalDB 30S):
| 模型 | F1↑ | Recall↑ | MAE↓ | MSE↓ |
|---|---|---|---|---|
| TimesFM | 64.17 | 58.87 | 6.49 | 92.77 |
| TimesFM + CSA-TTA | 64.90 | 59.27 | 6.28 | 85.28 |
| UniTS | 52.23 | 43.24 | 7.32 | 99.96 |
| UniTS + CSA-TTA | 57.30 | 50.70 | 7.19 | 95.84 |
UniTS + CSA-TTA:Recall +7.46%,F1 +5.07%
微调设置(VitalDB 2S):
| 模型 | F1↑ | Recall↑ | MAE↓ | MSE↓ |
|---|---|---|---|---|
| TimesFM | 64.20 | 64.93 | 6.03 | 77.87 |
| TTT | 64.00 | 64.77 | 6.02 | 77.70 |
| TTT++ | 64.10 | 64.80 | 6.02 | 77.68 |
| CSA-TTA | 64.83 | 65.99 | 5.94 | 76.19 |
院内数据集(零样本):
| 模型 | F1↑ | Recall↑ | MAE↓ | MSE↓ |
|---|---|---|---|---|
| UniTS | 56.10 | 43.77 | 6.45 | 91.97 |
| UniTS + CSA-TTA | 63.80 | 53.33 | 6.30 | 88.69 |
Recall +9.56%,F1 +7.70%
消融实验¶
多任务优化(TimesFM 微调,5分钟预测):
| Pred | Recon | F1 | MAE | MSE |
|---|---|---|---|---|
| ✗ | ✓ | 70.00 | 4.82 | 55.81 |
| ✓ | ✗ | 70.60 | 4.79 | 54.08 |
| ✓ | ✓ | 70.60 | 4.77 | 53.17 |
数据增强策略(微调设置):
| Bank | Aug | F1 | MAE | MSE |
|---|---|---|---|---|
| ✗ | ✗ | 65.90 | 5.87 | 74.79 |
| ✓ | ✗ | 66.03 | 5.85 | 74.19 |
| ✓ | ✓ | 66.07 | 5.82 | 72.93 |
Top-K 选择:K=3 时 F1=64.90,MSE=85.28,平衡相关性与多样性
关键发现¶
- CSA-TTA 对弱模型(UniTS)提升更大(零样本 F1 +5.07),说明跨样本信号对欠拟合模型更有价值
- 跨样本库 + 扰动增强的组合比任一单独使用都更有效
- 案例分析显示 CSA-TTA 能捕捉血压骤降和回弹(标准模型会平滑掉)
- 计算开销可控:TimesFM 仅更新 1.06% 参数,每 epoch 约 6.6 秒
亮点与洞察¶
- 首次将 TTA 用于个性化 IOH 预测:解决了标准 TTA 在稀疏事件下失效的痛点
- 跨样本检索的巧妙设计:粗到细两阶段平衡效率和精度,K-Shape→DTW 的组合适合生理信号
- 即插即用:可与任意时间序列基础模型(TimesFM、UniTS)结合,零样本和微调均有效
- 临床意义:Recall 的提升直接减少了低血压事件的漏诊率
局限性 / 可改进方向¶
- 零样本 Precision 有时下降(如 UniTS 在 VitalDB 30S 的 Precision -4.58%),召回提升以部分精度为代价
- 跨样本库需要足够大的历史数据支撑,对新建科室可能不适用
- DTW 计算成本随数据规模增长较快,可能需要近似算法
- 仅验证了 MAP 预测,未扩展到其他生命体征
- 检索策略假设相似生理特征→相似反应,但未考虑具体手术类型和用药差异
相关工作与启发¶
- TTT/TTT++ 提供了 TTA 的基础范式,CSA-TTA 在此基础上引入外部信息源
- K-Shape 聚类在时间序列检索中的应用值得借鉴,比直接用 DTW 全量搜索高效得多
- 跨样本库的思想类似于 RAG(检索增强生成),但适配到了时间序列自适应场景
- 部分参数更新的策略可推广到其他在线自适应场景
评分¶
- 新颖性: ⭐⭐⭐⭐ — 跨样本 TTA 概念新颖,解决了真实临床痛点
- 实验充分度: ⭐⭐⭐⭐⭐ — 两个数据集、两种模型、多种消融、案例分析
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述完整
- 价值: ⭐⭐⭐⭐ — 实用价值高,可直接用于临床辅助决策