Representing Topological Self-Similarity Using Fractal Feature Maps for Accurate Segmentation of Tubular Structures¶

会议: ECCV 2024
arXiv: 2407.14754
代码: 有 (https://github.com/cbmi-group/FFM-Multi-Decoder-Network)
领域: 分割
关键词: 管状结构分割, 分形特征图, 拓扑自相似性, 多解码器网络, 边界与骨架

一句话总结¶

利用分形理论将分形维数（FD）从图像级扩展到像素级，生成分形特征图（FFM）作为深度学习模型的额外输入和损失权重，并设计包含边缘解码器和骨架解码器的多解码器网络（MD-Net），在五个管状结构数据集上显著提升分割性能。

研究背景与动机¶

管状结构的精确分割在多个领域至关重要：

生物学：内质网（ER）分割用于人类疾病机制研究
医学：血管分割用于视网膜病变和中风的早期诊断
遥感：道路提取用于导航和路线规划

管状结构分割面临的核心挑战： 1. 复杂的形态和几何形状 2. 低信噪比和低对比度

互连结构的断裂问题——分割结果中管状结构频繁出现中断

现有深度学习方法主要从三个方面改进：卷积核设计（如可变形卷积）、模型架构设计、损失函数设计。但这些方法主要关注网络本身的优化，未给模型提供额外的结构先验信息。

本文的核心观察：管状结构具有拓扑自相似性——大型复杂管状结构在不同尺度上展现相似的拓扑模式（"一个节点连接多条边"这一基本组件在不同尺度重复出现）。这一特性可用分形理论量化。

方法详解¶

整体框架¶

本文贡献包含两个独立但互补的模块：

分形特征图（FFM）：将分形维数扩展到像素级，作为模型输入和损失权重
多解码器网络（MD-Net）：在 U-Net 基础上增加边缘解码器和骨架解码器

关键设计¶

分形维数的像素级扩展：

传统分形维数针对整幅图像计算一个标量值。本文通过滑动窗口技术将其扩展到每个像素：

使用 5×5 窗口在图像上滑动（步长为1）
每个窗口内用盒计数法（Box-counting）计算局部 FD
所有像素位置的 FD 值组成 FFM

盒计数法：将灰度图像建模为3D空间 \((x,y,z)\)，z 为灰度值。以不同尺度 \(k\) 将空间划分为 \(k \times k \times h\) 的立方体，统计覆盖整个灰度面所需的最少盒数 \(N_r\)。FD 通过 \(\log N_r\) vs. \(\log(1/r)\) 的最小二乘线性拟合得到。

FFM 的两种用法：

FFM 类型	来源	用途
\(FFM_{image}\)	原始图像	作为模型的额外输入通道
\(FFM_{label}\)	标注掩码	作为损失函数的像素级权重

\(FFM_{image}\) 帮助模型感知纹理复杂度和自相似结构，\(FFM_{label}\) 使模型对更复杂区域（FD 更高）分配更大的损失权重。

多解码器网络（MD-Net）：

在 U-Net 的编码器-解码器基础上，增加两个平行解码器：

目标解码器：预测分割掩码
边缘解码器：预测管状结构的边界
骨架解码器：预测管状结构的骨架

三个解码器共享编码器的特征，通过跳跃连接获取多尺度信息。推理时仅使用目标解码器的输出。

损失函数 / 训练策略¶

全局损失：

\[\mathcal{L}_{global} = \alpha\mathcal{L}_{object} + \beta\mathcal{L}_{edge} + \gamma\mathcal{L}_{skeleton}\]

目标分割使用 Soft IoU Loss
边缘和骨架使用 BCE Loss
权重默认 \(\alpha=1.0, \beta=0.5, \gamma=0.5\)

分形约束损失：用 \(FFM_{label}\) 作为目标分割损失的像素级权重：

\[\mathcal{L}_{constrained} = \alpha\mathcal{L}_{object} \cdot FFM_{label} + \beta\mathcal{L}_{edge} + \gamma\mathcal{L}_{skeleton}\]

训练细节：SGD 优化器，初始学习率 0.05，对所有数据集使用固定 batch size 32，训练 50 个 epoch。

实验关键数据¶

主实验（表格）¶

ER（内质网）和 MITO（线粒体）数据集上的分割性能：

模型	损失	ER IoU↑	ER clDice↑	ER β Error↓	MITO IoU↑	MITO clDice↑
U-Net	\(\mathcal{L}_{iou}\)	75.44	94.63	28.72	79.77	96.91
U-Net++	\(\mathcal{L}_{iou}\)	75.02	94.67	26.02	79.70	97.30
DSC-Net	\(\mathcal{L}_{iou}\)	75.51	94.44	34.51	80.32	97.16
U-Net* (+ FFM)	\(\mathcal{L}_{iou}\)	76.59	95.43	20.78	80.71	97.42
HR-Net* (+ FFM)	\(\mathcal{L}_{iou}\)	76.43	95.47	20.52	80.62	97.29
MD-Net*	\(\mathcal{L}_{constrained}\)	77.09	95.74	19.52	81.18	97.61

消融实验（表格）¶

FFM 作为插件模块的效果（IoU 提升）：

基础模型	原始 IoU (ER)	+ FFM IoU (ER)	提升
U-Net	75.44	76.59	+1.15
HR-Net	75.83	76.43	+0.60
MD-Net	77.01	77.09	+0.08

FFM + 约束损失 vs. 仅 FFM 输入：MD-Net 使用约束损失后 ER 的 HD（Hausdorff Distance）从 6.77 降至 6.72，ACC 从 92.06 升至 92.14。

关键发现¶

FFM 作为通用插件有效：无论是 U-Net 还是 HR-Net，加入 \(FFM_{image}\) 均提升性能，验证了其通用性
多解码器设计比单解码器更优：MD-Net 在所有指标上超越基线 U-Net
分形约束损失提供额外增益：使用 \(FFM_{label}\) 加权的损失进一步提升了边界精度（HD 下降）
拓扑错误显著减少：在 ER 数据集上，β Error 从 U-Net 的 28.72 降至 MD-Net* 的 19.52（降低 32%）
FFM 在 ROSE、STARE 等视网膜血管数据集和 ROAD 遥感道路数据集上同样有效

亮点与洞察¶

分形理论与深度学习的创新融合：首次将像素级分形特征引入深度学习分割模型，为 "结构先验注入" 提供了新思路
即插即用的设计：FFM 不依赖特定网络架构，可作为任意分割模型的插件模块
双重利用 FFM：既作为输入通道增强特征表示，又作为损失权重引导优化方向
边缘+骨架辅助解码器：虽然推理时不使用，但训练时的多任务学习有效提升了主解码器的分割质量
使用标准差替代灰度值计算 FD，增强了对图像噪声的鲁棒性

局限与展望¶

FFM 的滑动窗口计算有一定开销（但为离线预计算，不影响推理速度）
滑动窗口大小（5×5）和盒计数法的尺度参数为手工设定，可探索自适应方案
FFM 在非管状结构（如 NUCLEUS 数据集的椭圆形细胞核）上提升有限，说明其优势主要体现在拓扑自相似的结构上
仅在2D图像上验证，可扩展到3D管状结构分割（如3D血管）
骨架和边缘的 ground truth 由算法自动提取，可能引入噪声

评分¶

维度	分数 (1-5)
新颖性	4
技术深度	4
实验充分性	5
写作质量	4
实用价值	4
综合	4.2