Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation¶

会议: AAAI 2026
arXiv: 2512.05494
代码: 无
领域: 医学图像
关键词: 医学图像分割, 解码器设计, 频率-空间融合, 方向感知注意力, 多尺度特征融合

一句话总结¶

提出面向医学图像分割的新型解码器框架，包含三个模块：方向感知的自适应交叉融合注意力（ACFA）、空间-频率-小波三分支融合注意力（TFFA）和结构感知多尺度掩码模块（SMMM），在多个基准数据集上超越现有方法。

研究背景与动机¶

医学图像分割对器官/肿瘤/病变的精确勾画至关重要，支撑手术规划、放疗剂量设计
Transformer 解码器的局限：
边缘细节捕获不足：自注意力机制擅长全局依赖但弱于局部纹理
局部纹理识别能力有限：固定感受野难以处理模糊边界
空间连续性建模不够：简单的加法跳跃连接导致空间细节丢失和冗余信息引入
U-Net 跳跃连接的问题：传统跳跃连接依赖简单加法操作，无法平衡全局和局部特征
CNN 固定感受野限制了长程依赖建模；ViT 擅长全局但弱于短程依赖
需要一种解码器框架，在保持全局感知的同时增强边缘和结构细节表示

方法详解¶

整体框架¶

编码器使用 PVTv2-b2（ImageNet 预训练），解码器由三个核心模块组成：

ACFA（Adaptive Cross-Fusion Attention）：方向感知模块
TFFA（Triple Feature Fusion Attention）：频率-空间融合模块
SMMM（Structural-aware Multi-scale Masking Module）：多尺度跳跃连接优化模块

关键设计¶

模块一：ACFA — 自适应交叉融合注意力

增强模型对关键区域的响应和结构方向建模能力：

对输入特征图 $X \in \mathbb{R}^{B \times C \times H \times W}$，先进行通道门控和空间门控：
通道门控：$\hat{X}_{l-1}^{CG} = X \odot \sigma(CG_{avg}(X) + CG_{max}(X))$
空间门控：$\hat{X}_{l-1}^{SG} = X \odot \sigma(f_{7 \times 7}^{Conv}(SG(X)))$
将空间门控后的特征沿通道维度分为 4 份
三个方向分支引入可学习方向参数：
平面方向：$Tensor^{HW} \in [1, C/4, H, W]$
垂直方向：$Tensor^{H} \in [1, C/4, H, 1]$
水平方向：$Tensor^{W} \in [1, C/4, 1, W]$
各方向通过深度可分离卷积提取关键响应
第四分支：标准卷积捕获通用上下文信息，补充方向分支可能遗漏的细节
四分支特征拼接后经 LayerNorm 和卷积融合

设计动机：医学图像中器官/病变的结构方向性很重要（如血管的走向），通过端到端学习最适合数据分布的方向注意力模式。

模块二：TFFA — 三分支特征融合注意力

融合空间域、傅里叶域和小波域特征，实现联合频率-空间表示：

小波分支：使用 DoG（高斯差分）和 Mexican Hat 小波
DoG 突出灰度变化显著区域，增强边缘和轮廓感知： $$\psi_{a,b}^{DoG}(x) = -\frac{1}{\sqrt{a}} \frac{x-b}{a} e^{-\frac{(x-b)^2}{2a^2}}$$
Mexican Hat 通过二阶导数检测边缘零交叉，同时抑制噪声： $$\psi_{a,b}^{MH}(x) = \frac{2}{\sqrt{3a}\pi^{1/4}} (1 - (\frac{x-b}{a})^2) e^{-\frac{(x-b)^2}{2a^2}}$$
尺度参数 a 和位移参数 b 均可学习
傅里叶分支：将图像从空间域变换到频率域
高频分量 → 边缘和纹理；低频分量 → 轮廓和背景
用可学习权重矩阵调制频域特征
补偿卷积模型对大尺度结构感知的不足
空间分支：逐点卷积提取空间特征
注意力门控融合：三分支输出通过动态注意力权重自适应融合，避免传统融合的过度平滑

模块三：SMMM — 结构感知多尺度掩码模块

优化编码器-解码器之间的跳跃连接：

编码器和解码器特征分别经逐点卷积激活空间线索
多尺度感知：
使用 3×3 和 5×5 深度可分离卷积双路径提取
两阶段通道分割 + ReLU 激活，扩大感受野
两级特征拼接后再经 3×3 和 5×5 卷积进一步融合
空间显著性掩码：
三个不同通道门控滤波器识别最具判别力的空间区域
Softmax 加权强调高响应区域
有效处理模糊病变和不清晰轮廓
滤波后特征相加，经 dilation=2 的膨胀卷积扩大感受野
最终经归一化层和逐点卷积做通道对齐

损失函数 / 训练策略¶

编码器：PVTv2-b2，ImageNet 预训练
优化器：AdamW，lr = 1e-4
Batch size = 12，mask 归一化到 [0, 1]，不做数据增强
训练轮数：ISIC 2017/2018 → 200 epochs；Synapse → 300 epochs；ACDC → 400 epochs
硬件：NVIDIA A100 GPU (40GB)

实验关键数据¶

主实验（Synapse 多器官分割）¶

方法	DSC↑	HD95↓	Spl	RKid	LKid	Pan
TransUNet	77.49	31.69	85.08	77.02	81.87	55.86
Swin-UNet	79.13	21.55	90.66	79.61	83.28	56.58
EMCAD	83.63	15.68	92.17	84.10	88.08	68.51
AD-LA Former	83.48	21.31	88.72	70.82	86.50	84.69
Ours	83.92	18.91	92.46	86.47	89.26	69.95

ISIC 2017 皮肤病变分割：

方法	DSC↑	SE	SP	ACC
LKA	90.99	90.55	98.49	96.98
EMCAD	90.06	93.70	96.81	96.55
Ours	91.40	92.75	97.78	97.26

ACDC 心脏分割：

方法	DSC↑	RV	Myo	LV
DMSA-UNet	92.28	90.32	90.49	96.02
EMCAD	92.12	90.65	89.68	96.02
Ours	92.75	91.18	90.40	96.67

消融实验¶

Synapse 数据集模块消融：

配置	DSC↑	HD95↓
Baseline	81.35	20.42
+ ACFA	82.04	21.46
+ ACFA + TFFA	83.23	16.72
+ ACFA + TFFA + SMMM	83.92	18.91

ISIC 2017 模块消融：

配置	DSC↑	SE	ACC
Baseline	85.95	83.68	96.05
+ ACFA	87.82	85.12	95.92
+ ACFA + TFFA	89.15	89.83	96.85
+ ACFA + TFFA + SMMM	91.40	92.75	97.26

TFFA 内部消融（ISIC 2018）：

Fourier	Mexican Hat	DoG	DSC↑	SE
✗	✗	✗	90.32	89.31
✓	✗	✗	90.48	91.43
✓	✓	✗	90.57	92.63
✓	✓	✓	90.71	93.34

计算开销：全模块 42.52M 参数，18.29 GMac（Baseline 25.07M / 11.85 GMac）

关键发现¶

ACFA 仅增加 5.6M 参数即提升 DSC 0.7%（Synapse），方向感知有效
TFFA 贡献最大：DSC 从 82.04 → 83.23（Synapse），SE 从 85.12 → 89.83（ISIC 2017）
SMMM 在细节丰富的数据集上效果更明显（ISIC 2017 DSC +2.25）
三模块协同效果远超各自单独使用

亮点与洞察¶

频率域融合的设计思路：DoG 做带通滤波增强纹理，Mexican Hat 做二阶导数检测边缘，傅里叶做全局依赖——三者互补
方向感知的可学习性：三个方向的参数均可学习，避免手工设计方向滤波器
跳跃连接的深层次优化：SMMM 通过空间显著性掩码替代简单加法，减少冗余信息传递
跨多个数据集验证：在腹部多器官、皮肤病变、心脏分割三类任务上均取得最优或接近最优

局限性 / 可改进方向¶

HD95 在 Synapse 数据集上不是最优（18.91 vs HiFormer-B 的 14.70），说明边界精度仍有提升空间
参数量从 25M 增长到 42.5M（+70%），计算从 11.85 增长到 18.29 GMac（+54%），效率有代价
仅在 2D 分割上验证，未扩展到 3D 医学图像分割
胆囊（Gallbladder）分割效果不如 AD-LA Former（67.51 vs 83.30），小器官分割仍是短板
小波的尺度参数 a 和偏移 b 的初始化和收敛特性未做深入分析

评分¶

新颖性: ⭐⭐⭐ — 模块组合较新但各组件思想不算全新
实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、充分消融、计算开销分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式完整
价值: ⭐⭐⭐⭐ — 提供了实用的医学分割解码器设计范式