Adaptive Morph-Patch Transformer for Aortic Vessel Segmentation¶

会议: AAAI 2026
arXiv: 2511.06897
代码: https://github.com/iCherishxixixi/MPTransformer
领域: 医学图像分割 / Transformer
关键词: 主动脉分割, 形态感知 patch, 语义聚类注意力, 微分同胚变形, 速度场

一句话总结¶

提出 Morph-Patch Transformer (MPT)，通过基于速度场的自适应 patch 划分策略生成形态感知 patch（保持血管拓扑完整性），并引入语义聚类注意力（SCA）动态聚合语义相似 patch 的特征，在 AVT、AortaSeg24 和 TBAD 三个主动脉分割数据集上均达 SOTA。

研究背景与动机¶

主动脉血管分割对心血管疾病的诊断和治疗至关重要，直接影响计算流体建模、手术规划和疾病进展监测的可靠性。Transformer 在此领域已成为主导范式，但面临两个根本挑战：

固定矩形 patch 破坏血管完整性：传统 Transformer 将图像切分为固定大小的矩形 patch，而血管结构细长弯曲、形态复杂，矩形框难以包裹纤细血管，导致语义信息被截断。即使 DPT（Deformable Patch Transformer）引入可学习变形，仍限于矩形 patch，无法适配血管形态
缺乏跨尺度语义相似性建模：SwinTransformer 的层次化窗口注意力能提取多尺度特征，但固定窗口仍无法建模不同尺度 patch 间的语义相似性。现有方法（含动态 Snake 卷积等）虽增强了细长结构的特征提取，但仍缺少语义聚类机制

核心 insight：用速度场驱动的微分同胚变形（diffeomorphic deformation）生成形态感知 patch，天然保持拓扑连续性；用 Soft K-means 做语义聚类注意力，动态聚合相似 patch。

方法详解¶

整体框架¶

基于 3D UNet 的编解码结构，核心创新在两处：(1) Morph Partition Block 替代固定 patch 划分；(2) Spatial + Semantic Transformer Block 融合空间关系（窗口注意力）和语义关系（聚类注意力）。提供三个版本：MPT（纯 3D ViT）、MPT-UNETR（混合 3D ViT-CNN）、MPTUNet（轻量 2D）。

关键设计¶

Morph Partition Block（形态 patch 划分）：
用 CNN 预测速度场 \(\upsilon\)，通过缩放平方法（scaling and squaring）积分得到微分同胚变形场 \(\phi^{(1)}\)
核心公式：\(y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n) \cdot x(p_0 + p_n + \phi(p_0 + p_n))\)
与传统可变形卷积（直接预测偏移场）不同，速度场积分保证变换光滑、可逆、保拓扑。变形场的每个点代表坐标偏移，通过双线性插值从原始输入生成变形特征
递推关系：\(\phi^{(1/2^{n-1})} = \phi^{(1/2^n)} \circ \phi^{(1/2^n)}\)，迭代 n 步后得到 \(\phi^{(1)}\)
语义聚类注意力（SCA）：
用可微 Soft K-means 提取核心语义特征 \(F_{core}\)，根据 patch 特征到核心特征距离的 softmax 权重聚类
更新公式：\(f_{newcore}^s = \sum_{i=1}^m g_s(f^i) \cdot (f^i - f_{core}^s)\)，\(g_s\) 为可微化的隶属度函数
\(\lambda, \mu\) 和 \(F_{core}\) 均由网络学习，\(g_s\) 通过 \(e^{\lambda^s f^i + \mu^s}\) 参数化确保可微
最终计算 SCA = softmax(QK^T/√d) · V，Q 来自 patch，K/V 来自更新后的语义中心
融合策略：Morph Partition Block 的形态 patch + SwinTransformer 的窗口注意力（空间关系）+ SCA（语义关系），三者在 Transformer Block 中融合

损失函数¶

使用 Dice 损失。Adam 优化器，lr=5e-5。聚类数设为 32。训练 1000 epochs，基于 nnU-Net 框架，NVIDIA RTX 3090。

实验关键数据¶

主实验：AVT 和 TBAD 数据集¶

模型	骨干类型	AVT Dice	AVT mIoU	AVT clDice	TBAD Dice	TBAD mIoU	TBAD clDice
MedNeXt	CNN	0.809	0.718	0.724	0.926	0.871	0.880
SegMamba	Mamba	0.829	0.730	0.711	0.932	0.881	0.918
nnFormer	3D ViT	0.835	0.743	0.732	0.926	0.871	0.895
DPT	2D ViT-CNN	0.886	0.800	0.825	0.924	0.868	0.917
MambaVision	Mamba	0.882	0.795	0.795	0.929	0.874	0.914
TransFuse	2D ViT-CNN	0.880	0.794	0.796	0.927	0.872	0.895
MPT	3D ViT	0.856	0.762	0.757	0.933	0.881	0.915
MPTUNet	2D ViT-CNN	0.896	0.815	0.839	0.930	0.877	0.920

AortaSeg24 数据集（23 类精细分割）¶

模型	Dice	mIoU	clDice
3DUXNet	0.784	0.666	0.964
nnFormer	0.779	0.666	0.923
SwinUNETR	0.781	0.664	0.937
DSCViT	0.788	0.673	0.965
DPT	0.778	0.662	0.959
MambaVision	0.795	0.682	0.960
MPT	0.804	0.690	0.926
MPTUNETR	0.809	0.695	0.955
MPTUNet	0.796	0.686	0.966

关键发现¶

MPTUNet 在 AVT 上 Dice 0.896，超越所有方法（含 DPT 0.886、MambaVision 0.882、TransFuse 0.880），且方差最小（0.046）说明稳定性强
AortaSeg24 的 23 类精细分割极具挑战性，MPTUNETR 达 Dice 0.809 / clDice 0.955，领先第二名 MambaVision (0.795/0.960)
clDice 指标专门衡量血管拓扑完整性：MPTUNet 在 TBAD 上 clDice 0.920 为最高，验证了微分同胚变形对拓扑保持的有效性
模型效率：MPT 系列在 FLOPs 和参数量上与 DPT 等相当，性能显著更优

亮点与洞察¶

速度场 → 微分同胚变形 → 保拓扑 patch 划分：不同于直接预测偏移的 DCN，通过 ODE 积分得到的变形天然光滑可逆，特别适合血管这种需要保持连续性的结构
Soft K-means 做可微语义聚类：将 K-means 的硬分配通过指数核 \(e^{-\beta \|f-f_{core}\|^2}\) 软化，\(\lambda, \mu, F_{core}\) 全部可学习，比固定窗口的注意力更灵活
三个版本覆盖不同需求：MPT（纯 ViT 追求精度）、MPT-UNETR（混合架构平衡效率）、MPTUNet（2D 轻量化）

局限性¶

速度场预测的 CNN 本身引入额外计算开销，未详细分析推理速度
聚类数固定为 32，未探索自适应聚类数策略
仅在主动脉相关数据集验证，未拓展到视网膜血管、冠状动脉等其他血管分割任务
变形场的 scaling and squaring 步数（n steps）对变形精度 vs 计算量的权衡未充分讨论

评分¶

新颖性: ⭐⭐⭐⭐ 速度场驱动的形态 patch + 可微语义聚类注意力
实验充分度: ⭐⭐⭐⭐ 三个数据集 + 17 个对比方法 + 三个模型版本
写作质量: ⭐⭐⭐⭐ 方法推导清晰，问题动机充分
价值: ⭐⭐⭐⭐ 对医学图像中复杂形态结构的分割有普适启发

方法类别	代表	patch 策略	语义建模	拓扑保持
标准 Transformer	UNETR, SwinUNETR	固定矩形	窗口注意力	无
可变形 Transformer	DPT	可变形矩形	标准注意力	弱
Snake 卷积混合	TTCNet, DAU-Net	固定+Snake	卷积特征	隐式
MPT（本文）	MPT/UNETR/UNet	微分同胚变形	SCA 聚类注意力	强（保拓扑）