Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation¶

会议: CVPR 2026
arXiv: 2603.12547
代码: 待发布 (upon acceptance)
领域: 医学图像分割 / 状态空间模型 / 解码器设计
关键词: 医学图像分割, Mamba, 解码器中心, 深度监督, Co-Attention Gate

一句话总结¶

提出以解码器为核心的 Deco-Mamba 网络，用 Co-Attention Gate 双向融合编解码器特征、视觉状态空间模块（VSSM）建模长程依赖、可变形卷积恢复细节，并引入窗口化分布感知 KL 散度深度监督，在 7 个医学分割基准上以中等复杂度达到 SOTA。

背景与动机¶

医学图像分割领域存在两个未解决的瓶颈：(1) 大多数方法针对单一数据集/模态优化，跨模态泛化能力差；(2) 研究重心过度集中在编码器（用大型预训练 backbone），解码器设计长期被忽视。现有 Mamba 方法（Mamba-UNet, U-Mamba, Swin-UMamba 等）主要用 Mamba 增强编码器，没有充分发挥其在解码阶段的长程建模优势。传统深度监督通过 resize 中间输出到全分辨率，造成信息损失。

核心问题¶

如何设计一个计算高效且跨模态泛化的解码器，以低参数量实现精细的多尺度特征重建和边界恢复？

方法详解¶

整体框架¶

类 U-Net 结构，编码器双分支（7×7 CNN 保留高分辨细节 + PVT-V2 Transformer 捕捉全局依赖），解码器六阶段由 Co-Attention Gate → VSSM Block → 可变形残差块（DRB）级联组成，配合多尺度分布感知监督。两个版本：V0 (PVT-B0, 9.67M) 和 V1 (PVT-B2, 46.93M)。

关键设计¶

Co-Attention Gate (CAG): 改进传统 Attention Gate 的单向门控——将编码器特征和解码器特征互为输入和门控信号，得到两路注意力输出后拼接，再经通道注意力（自适应最大+平均池化 → 双 1×1 卷积 → sigmoid）选择最具信息量的通道。公式：\(D_i' = CA[AG(x=X_i, g=D_{i+1}), AG(x=D_{i+1}, g=X_i)]\)
视觉状态空间 Mamba 块（VSSMB）: 采用连续时间 SSM，沿水平、垂直及其逆方向进行选择性扫描，以线性复杂度建模全局上下文。瓶颈层用 2 个 VSSMB，第 2-5 解码阶段各 1 个，最后阶段省略
可变形残差块（DRB）: 标准 3×3 卷积 + 可变形卷积，预测像素级偏移和调制掩码（sigmoid 约束到 [0,2]），恢复 SSM 可能平滑的局部细节和边界
多尺度分布感知深度监督（MSDA）: 不将中间输出 resize 到全分辨率，而是在每个解码器原生分辨率上计算窗口内类频率分布 \(\tilde{P}^{(s)}\)，与预测的 softmax 分布用 KL 散度对齐。边界加权：\(W_{h,w}^{(s)} = (1 - \max_n \tilde{P}_{h,w,n}^{(s)})^\alpha\)，混合类别区域（即边界附近）获得更高权重

损失函数 / 训练策略¶

\(\mathcal{L}_{total} = \mathcal{L}_{dice} + \sum_s \lambda_s \mathcal{L}_{dist}^{(s)}\)，各阶段权重递增 \(\lambda_1 < \lambda_2 < ... < \lambda_S\)。AdamW + cosine 学习率调度（warm restart \(T=2\)），224×224 输入，lr 1e-4 batch 16（主数据集），A5000 24GB GPU 训练。

实验关键数据¶

数据集	指标	Deco-Mamba-V1	之前SOTA	提升
Synapse (8类)	DSC/HD95	85.07/14.72	83.59/15.99 (Cascaded-MERIT)	+1.48/+1.27
BTCV (13类)	DSC/HD95	78.45/11.77	75.87/17.02 (PAG-TransYnet)	+2.58/+5.25
ACDC (心脏)	DSC	92.35	92.12 (PVT-EMCAD-B2)	+0.23
MoNuSeg	DSC	85.14	81.45 (Swin-UMamba)	+3.69
GlaS	DSC	96.91	96.91 (Cascaded-MERIT)	持平

Deco-Mamba-V0 (仅 9.67M 参数) 的性能已接近 150M 级 Transformer 方法。

消融实验要点¶

去掉 CNN 分支：DSC 84.07（-1.0），去掉 VSSMB：DSC 83.51（-1.56）
CAG vs 传统 AG：82.98 → 85.07，vs LGAG：82.69 → 85.07，vs CBAM：84.01 → 85.07
可变形卷积 vs 标准卷积：84.53 vs 85.07，vs 动态卷积：83.77 vs 85.07
MSDA 深度监督 vs 传统深度监督：后者 DSC 提升但 HD95 恶化（15.89 vs 14.72），MSDA 两项都改善
vs 边界感知/距离边界损失：HD95 分别为 21.43/20.64 vs MSDA 的 14.72
不同 backbone：PVT-B0 (9.67M) DSC 83.16，Swin-T (70.12M) DSC 83.76，PVT-B2 DSC 85.07

亮点¶

令人印象深刻的效率-精度平衡：V0 仅 9.67M 参数即超越 SliceMamba/VM-UNet 等 Mamba 方法，逼近 148M 的 Cascaded-MERIT
MSDA 损失避免了传统深度监督中 resize 造成的信息损失，直接在原生分辨率操作
7 个跨模态基准（CT/MRI/超声/皮肤镜/病理）的全面验证证明泛化性

局限性 / 可改进方向¶

仅在 2D 切片上验证，未扩展到 3D 体积分割
依赖 PVT 预训练权重，未探索其他预训练策略（如自监督）
VSSM 的多方向扫描策略选择缺少系统消融

与相关工作的对比¶

vs EMCAD (CVPR 2024)：同为解码器增强方法，但 EMCAD 不含长程依赖建模，Deco-Mamba-V0 用 PVT-B0 即超越 EMCAD 用 PVT-B2 的结果
vs Cascaded-MERIT (147.86M)：Deco-Mamba-V1 仅用约 1/3 参数即高 1.48% DSC
vs Swin-UMamba：在 MoNuSeg 上高 3.69% DSC，参数量也更少

启发与关联¶

解码器中心设计的理念值得关注——用轻量编码器+强解码器可能比重编码器+轻解码器更高效
分布感知深度监督可推广到其他密集预测任务

评分¶

新颖性: ⭐⭐⭐ CAG、VSSM、MSDA 各自有增量，组合有效但单项创新有限
实验充分度: ⭐⭐⭐⭐⭐ 7 个数据集、20+ 对比方法、全面消融
写作质量: ⭐⭐⭐⭐ 图表清晰，模块描述详细
价值: ⭐⭐⭐ 实用性强，对医学分割社区有价值，设计可推广