Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation¶
会议: AAAI 2026
arXiv: 2512.05494
代码: 无
领域: 医学图像
关键词: 医学图像分割, 解码器设计, 频率-空间融合, 方向感知注意力, 多尺度特征融合
一句话总结¶
提出面向医学图像分割的新型解码器框架,包含三个模块:方向感知的自适应交叉融合注意力(ACFA)、空间-频率-小波三分支融合注意力(TFFA)和结构感知多尺度掩码模块(SMMM),在多个基准数据集上超越现有方法。
研究背景与动机¶
- 医学图像分割对器官/肿瘤/病变的精确勾画至关重要,支撑手术规划、放疗剂量设计
- Transformer 解码器的局限:
- 边缘细节捕获不足:自注意力机制擅长全局依赖但弱于局部纹理
- 局部纹理识别能力有限:固定感受野难以处理模糊边界
- 空间连续性建模不够:简单的加法跳跃连接导致空间细节丢失和冗余信息引入
- U-Net 跳跃连接的问题:传统跳跃连接依赖简单加法操作,无法平衡全局和局部特征
- CNN 固定感受野限制了长程依赖建模;ViT 擅长全局但弱于短程依赖
- 需要一种解码器框架,在保持全局感知的同时增强边缘和结构细节表示
方法详解¶
整体框架¶
编码器使用 PVTv2-b2(ImageNet 预训练),解码器由三个核心模块组成:
- ACFA(Adaptive Cross-Fusion Attention):方向感知模块
- TFFA(Triple Feature Fusion Attention):频率-空间融合模块
- SMMM(Structural-aware Multi-scale Masking Module):多尺度跳跃连接优化模块
关键设计¶
模块一:ACFA — 自适应交叉融合注意力
增强模型对关键区域的响应和结构方向建模能力:
- 对输入特征图 \(X \in \mathbb{R}^{B \times C \times H \times W}\),先进行通道门控和空间门控:
- 通道门控:\(\hat{X}_{l-1}^{CG} = X \odot \sigma(CG_{avg}(X) + CG_{max}(X))\)
-
空间门控:\(\hat{X}_{l-1}^{SG} = X \odot \sigma(f_{7 \times 7}^{Conv}(SG(X)))\)
-
将空间门控后的特征沿通道维度分为 4 份
- 三个方向分支引入可学习方向参数:
- 平面方向:\(Tensor^{HW} \in [1, C/4, H, W]\)
- 垂直方向:\(Tensor^{H} \in [1, C/4, H, 1]\)
- 水平方向:\(Tensor^{W} \in [1, C/4, 1, W]\)
-
各方向通过深度可分离卷积提取关键响应
-
第四分支:标准卷积捕获通用上下文信息,补充方向分支可能遗漏的细节
- 四分支特征拼接后经 LayerNorm 和卷积融合
设计动机:医学图像中器官/病变的结构方向性很重要(如血管的走向),通过端到端学习最适合数据分布的方向注意力模式。
模块二:TFFA — 三分支特征融合注意力
融合空间域、傅里叶域和小波域特征,实现联合频率-空间表示:
- 小波分支:使用 DoG(高斯差分)和 Mexican Hat 小波
- DoG 突出灰度变化显著区域,增强边缘和轮廓感知: $\(\psi_{a,b}^{DoG}(x) = -\frac{1}{\sqrt{a}} \frac{x-b}{a} e^{-\frac{(x-b)^2}{2a^2}}\)$
- Mexican Hat 通过二阶导数检测边缘零交叉,同时抑制噪声: $\(\psi_{a,b}^{MH}(x) = \frac{2}{\sqrt{3a}\pi^{1/4}} (1 - (\frac{x-b}{a})^2) e^{-\frac{(x-b)^2}{2a^2}}\)$
-
尺度参数 a 和位移参数 b 均可学习
-
傅里叶分支:将图像从空间域变换到频率域
- 高频分量 → 边缘和纹理;低频分量 → 轮廓和背景
- 用可学习权重矩阵调制频域特征
-
补偿卷积模型对大尺度结构感知的不足
-
空间分支:逐点卷积提取空间特征
-
注意力门控融合:三分支输出通过动态注意力权重自适应融合,避免传统融合的过度平滑
模块三:SMMM — 结构感知多尺度掩码模块
优化编码器-解码器之间的跳跃连接:
- 编码器和解码器特征分别经逐点卷积激活空间线索
- 多尺度感知:
- 使用 3×3 和 5×5 深度可分离卷积双路径提取
- 两阶段通道分割 + ReLU 激活,扩大感受野
-
两级特征拼接后再经 3×3 和 5×5 卷积进一步融合
-
空间显著性掩码:
- 三个不同通道门控滤波器识别最具判别力的空间区域
- Softmax 加权强调高响应区域
-
有效处理模糊病变和不清晰轮廓
-
滤波后特征相加,经 dilation=2 的膨胀卷积扩大感受野
- 最终经归一化层和逐点卷积做通道对齐
损失函数 / 训练策略¶
- 编码器:PVTv2-b2,ImageNet 预训练
- 优化器:AdamW,lr = 1e-4
- Batch size = 12,mask 归一化到 [0, 1],不做数据增强
- 训练轮数:ISIC 2017/2018 → 200 epochs;Synapse → 300 epochs;ACDC → 400 epochs
- 硬件:NVIDIA A100 GPU (40GB)
实验关键数据¶
主实验(Synapse 多器官分割)¶
| 方法 | DSC↑ | HD95↓ | Spl | RKid | LKid | Pan |
|---|---|---|---|---|---|---|
| TransUNet | 77.49 | 31.69 | 85.08 | 77.02 | 81.87 | 55.86 |
| Swin-UNet | 79.13 | 21.55 | 90.66 | 79.61 | 83.28 | 56.58 |
| EMCAD | 83.63 | 15.68 | 92.17 | 84.10 | 88.08 | 68.51 |
| AD-LA Former | 83.48 | 21.31 | 88.72 | 70.82 | 86.50 | 84.69 |
| Ours | 83.92 | 18.91 | 92.46 | 86.47 | 89.26 | 69.95 |
ISIC 2017 皮肤病变分割:
| 方法 | DSC↑ | SE | SP | ACC |
|---|---|---|---|---|
| LKA | 90.99 | 90.55 | 98.49 | 96.98 |
| EMCAD | 90.06 | 93.70 | 96.81 | 96.55 |
| Ours | 91.40 | 92.75 | 97.78 | 97.26 |
ACDC 心脏分割:
| 方法 | DSC↑ | RV | Myo | LV |
|---|---|---|---|---|
| DMSA-UNet | 92.28 | 90.32 | 90.49 | 96.02 |
| EMCAD | 92.12 | 90.65 | 89.68 | 96.02 |
| Ours | 92.75 | 91.18 | 90.40 | 96.67 |
消融实验¶
Synapse 数据集模块消融:
| 配置 | DSC↑ | HD95↓ |
|---|---|---|
| Baseline | 81.35 | 20.42 |
| + ACFA | 82.04 | 21.46 |
| + ACFA + TFFA | 83.23 | 16.72 |
| + ACFA + TFFA + SMMM | 83.92 | 18.91 |
ISIC 2017 模块消融:
| 配置 | DSC↑ | SE | ACC |
|---|---|---|---|
| Baseline | 85.95 | 83.68 | 96.05 |
| + ACFA | 87.82 | 85.12 | 95.92 |
| + ACFA + TFFA | 89.15 | 89.83 | 96.85 |
| + ACFA + TFFA + SMMM | 91.40 | 92.75 | 97.26 |
TFFA 内部消融(ISIC 2018):
| Fourier | Mexican Hat | DoG | DSC↑ | SE |
|---|---|---|---|---|
| ✗ | ✗ | ✗ | 90.32 | 89.31 |
| ✓ | ✗ | ✗ | 90.48 | 91.43 |
| ✓ | ✓ | ✗ | 90.57 | 92.63 |
| ✓ | ✓ | ✓ | 90.71 | 93.34 |
计算开销:全模块 42.52M 参数,18.29 GMac(Baseline 25.07M / 11.85 GMac)
关键发现¶
- ACFA 仅增加 5.6M 参数即提升 DSC 0.7%(Synapse),方向感知有效
- TFFA 贡献最大:DSC 从 82.04 → 83.23(Synapse),SE 从 85.12 → 89.83(ISIC 2017)
- SMMM 在细节丰富的数据集上效果更明显(ISIC 2017 DSC +2.25)
- 三模块协同效果远超各自单独使用
亮点与洞察¶
- 频率域融合的设计思路:DoG 做带通滤波增强纹理,Mexican Hat 做二阶导数检测边缘,傅里叶做全局依赖——三者互补
- 方向感知的可学习性:三个方向的参数均可学习,避免手工设计方向滤波器
- 跳跃连接的深层次优化:SMMM 通过空间显著性掩码替代简单加法,减少冗余信息传递
- 跨多个数据集验证:在腹部多器官、皮肤病变、心脏分割三类任务上均取得最优或接近最优
局限性 / 可改进方向¶
- HD95 在 Synapse 数据集上不是最优(18.91 vs HiFormer-B 的 14.70),说明边界精度仍有提升空间
- 参数量从 25M 增长到 42.5M(+70%),计算从 11.85 增长到 18.29 GMac(+54%),效率有代价
- 仅在 2D 分割上验证,未扩展到 3D 医学图像分割
- 胆囊(Gallbladder)分割效果不如 AD-LA Former(67.51 vs 83.30),小器官分割仍是短板
- 小波的尺度参数 a 和偏移 b 的初始化和收敛特性未做深入分析
相关工作与启发¶
- 与 EMCAD(多尺度注意力解码器)的比较:本文通过频率域融合提供了不同视角的多尺度信息
- 频率域分析在医学图像中的价值被再次验证:傅里叶+小波的组合优于单一变换
- SMMM 的显著性掩码思想可替代传统注意力门控,更直接地处理特征冗余
- 方向感知的设计可推广到血管分割、裂缝检测等方向性明显的任务
评分¶
- 新颖性: ⭐⭐⭐ — 模块组合较新但各组件思想不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、充分消融、计算开销分析
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式完整
- 价值: ⭐⭐⭐⭐ — 提供了实用的医学分割解码器设计范式