跳转至

Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation

会议: AAAI 2026
arXiv: 2512.05494
代码: 无
领域: 医学图像
关键词: 医学图像分割, 解码器设计, 频率-空间融合, 方向感知注意力, 多尺度特征融合

一句话总结

提出面向医学图像分割的新型解码器框架,包含三个模块:方向感知的自适应交叉融合注意力(ACFA)、空间-频率-小波三分支融合注意力(TFFA)和结构感知多尺度掩码模块(SMMM),在多个基准数据集上超越现有方法。

研究背景与动机

  • 医学图像分割对器官/肿瘤/病变的精确勾画至关重要,支撑手术规划、放疗剂量设计
  • Transformer 解码器的局限
  • 边缘细节捕获不足:自注意力机制擅长全局依赖但弱于局部纹理
  • 局部纹理识别能力有限:固定感受野难以处理模糊边界
  • 空间连续性建模不够:简单的加法跳跃连接导致空间细节丢失和冗余信息引入
  • U-Net 跳跃连接的问题:传统跳跃连接依赖简单加法操作,无法平衡全局和局部特征
  • CNN 固定感受野限制了长程依赖建模;ViT 擅长全局但弱于短程依赖
  • 需要一种解码器框架,在保持全局感知的同时增强边缘和结构细节表示

方法详解

整体框架

编码器使用 PVTv2-b2(ImageNet 预训练),解码器由三个核心模块组成:

  1. ACFA(Adaptive Cross-Fusion Attention):方向感知模块
  2. TFFA(Triple Feature Fusion Attention):频率-空间融合模块
  3. SMMM(Structural-aware Multi-scale Masking Module):多尺度跳跃连接优化模块

关键设计

模块一:ACFA — 自适应交叉融合注意力

增强模型对关键区域的响应和结构方向建模能力:

  • 对输入特征图 \(X \in \mathbb{R}^{B \times C \times H \times W}\),先进行通道门控和空间门控:
  • 通道门控:\(\hat{X}_{l-1}^{CG} = X \odot \sigma(CG_{avg}(X) + CG_{max}(X))\)
  • 空间门控:\(\hat{X}_{l-1}^{SG} = X \odot \sigma(f_{7 \times 7}^{Conv}(SG(X)))\)

  • 将空间门控后的特征沿通道维度分为 4 份

  • 三个方向分支引入可学习方向参数:
  • 平面方向:\(Tensor^{HW} \in [1, C/4, H, W]\)
  • 垂直方向:\(Tensor^{H} \in [1, C/4, H, 1]\)
  • 水平方向:\(Tensor^{W} \in [1, C/4, 1, W]\)
  • 各方向通过深度可分离卷积提取关键响应

  • 第四分支:标准卷积捕获通用上下文信息,补充方向分支可能遗漏的细节

  • 四分支特征拼接后经 LayerNorm 和卷积融合

设计动机:医学图像中器官/病变的结构方向性很重要(如血管的走向),通过端到端学习最适合数据分布的方向注意力模式。

模块二:TFFA — 三分支特征融合注意力

融合空间域、傅里叶域和小波域特征,实现联合频率-空间表示:

  • 小波分支:使用 DoG(高斯差分)和 Mexican Hat 小波
  • DoG 突出灰度变化显著区域,增强边缘和轮廓感知: $\(\psi_{a,b}^{DoG}(x) = -\frac{1}{\sqrt{a}} \frac{x-b}{a} e^{-\frac{(x-b)^2}{2a^2}}\)$
  • Mexican Hat 通过二阶导数检测边缘零交叉,同时抑制噪声: $\(\psi_{a,b}^{MH}(x) = \frac{2}{\sqrt{3a}\pi^{1/4}} (1 - (\frac{x-b}{a})^2) e^{-\frac{(x-b)^2}{2a^2}}\)$
  • 尺度参数 a 和位移参数 b 均可学习

  • 傅里叶分支:将图像从空间域变换到频率域

  • 高频分量 → 边缘和纹理;低频分量 → 轮廓和背景
  • 用可学习权重矩阵调制频域特征
  • 补偿卷积模型对大尺度结构感知的不足

  • 空间分支:逐点卷积提取空间特征

  • 注意力门控融合:三分支输出通过动态注意力权重自适应融合,避免传统融合的过度平滑

模块三:SMMM — 结构感知多尺度掩码模块

优化编码器-解码器之间的跳跃连接:

  • 编码器和解码器特征分别经逐点卷积激活空间线索
  • 多尺度感知
  • 使用 3×3 和 5×5 深度可分离卷积双路径提取
  • 两阶段通道分割 + ReLU 激活,扩大感受野
  • 两级特征拼接后再经 3×3 和 5×5 卷积进一步融合

  • 空间显著性掩码

  • 三个不同通道门控滤波器识别最具判别力的空间区域
  • Softmax 加权强调高响应区域
  • 有效处理模糊病变和不清晰轮廓

  • 滤波后特征相加,经 dilation=2 的膨胀卷积扩大感受野

  • 最终经归一化层和逐点卷积做通道对齐

损失函数 / 训练策略

  • 编码器:PVTv2-b2,ImageNet 预训练
  • 优化器:AdamW,lr = 1e-4
  • Batch size = 12,mask 归一化到 [0, 1],不做数据增强
  • 训练轮数:ISIC 2017/2018 → 200 epochs;Synapse → 300 epochs;ACDC → 400 epochs
  • 硬件:NVIDIA A100 GPU (40GB)

实验关键数据

主实验(Synapse 多器官分割)

方法 DSC↑ HD95↓ Spl RKid LKid Pan
TransUNet 77.49 31.69 85.08 77.02 81.87 55.86
Swin-UNet 79.13 21.55 90.66 79.61 83.28 56.58
EMCAD 83.63 15.68 92.17 84.10 88.08 68.51
AD-LA Former 83.48 21.31 88.72 70.82 86.50 84.69
Ours 83.92 18.91 92.46 86.47 89.26 69.95

ISIC 2017 皮肤病变分割

方法 DSC↑ SE SP ACC
LKA 90.99 90.55 98.49 96.98
EMCAD 90.06 93.70 96.81 96.55
Ours 91.40 92.75 97.78 97.26

ACDC 心脏分割

方法 DSC↑ RV Myo LV
DMSA-UNet 92.28 90.32 90.49 96.02
EMCAD 92.12 90.65 89.68 96.02
Ours 92.75 91.18 90.40 96.67

消融实验

Synapse 数据集模块消融

配置 DSC↑ HD95↓
Baseline 81.35 20.42
+ ACFA 82.04 21.46
+ ACFA + TFFA 83.23 16.72
+ ACFA + TFFA + SMMM 83.92 18.91

ISIC 2017 模块消融

配置 DSC↑ SE ACC
Baseline 85.95 83.68 96.05
+ ACFA 87.82 85.12 95.92
+ ACFA + TFFA 89.15 89.83 96.85
+ ACFA + TFFA + SMMM 91.40 92.75 97.26

TFFA 内部消融(ISIC 2018):

Fourier Mexican Hat DoG DSC↑ SE
90.32 89.31
90.48 91.43
90.57 92.63
90.71 93.34

计算开销:全模块 42.52M 参数,18.29 GMac(Baseline 25.07M / 11.85 GMac)

关键发现

  • ACFA 仅增加 5.6M 参数即提升 DSC 0.7%(Synapse),方向感知有效
  • TFFA 贡献最大:DSC 从 82.04 → 83.23(Synapse),SE 从 85.12 → 89.83(ISIC 2017)
  • SMMM 在细节丰富的数据集上效果更明显(ISIC 2017 DSC +2.25)
  • 三模块协同效果远超各自单独使用

亮点与洞察

  1. 频率域融合的设计思路:DoG 做带通滤波增强纹理,Mexican Hat 做二阶导数检测边缘,傅里叶做全局依赖——三者互补
  2. 方向感知的可学习性:三个方向的参数均可学习,避免手工设计方向滤波器
  3. 跳跃连接的深层次优化:SMMM 通过空间显著性掩码替代简单加法,减少冗余信息传递
  4. 跨多个数据集验证:在腹部多器官、皮肤病变、心脏分割三类任务上均取得最优或接近最优

局限性 / 可改进方向

  • HD95 在 Synapse 数据集上不是最优(18.91 vs HiFormer-B 的 14.70),说明边界精度仍有提升空间
  • 参数量从 25M 增长到 42.5M(+70%),计算从 11.85 增长到 18.29 GMac(+54%),效率有代价
  • 仅在 2D 分割上验证,未扩展到 3D 医学图像分割
  • 胆囊(Gallbladder)分割效果不如 AD-LA Former(67.51 vs 83.30),小器官分割仍是短板
  • 小波的尺度参数 a 和偏移 b 的初始化和收敛特性未做深入分析

相关工作与启发

  • 与 EMCAD(多尺度注意力解码器)的比较:本文通过频率域融合提供了不同视角的多尺度信息
  • 频率域分析在医学图像中的价值被再次验证:傅里叶+小波的组合优于单一变换
  • SMMM 的显著性掩码思想可替代传统注意力门控,更直接地处理特征冗余
  • 方向感知的设计可推广到血管分割、裂缝检测等方向性明显的任务

评分

  • 新颖性: ⭐⭐⭐ — 模块组合较新但各组件思想不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、充分消融、计算开销分析
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式完整
  • 价值: ⭐⭐⭐⭐ — 提供了实用的医学分割解码器设计范式