Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging for Osteoporosis Classification¶
会议: CVPR2026
arXiv: 2603.09137
代码: 暂无
领域: 医学图像
关键词: HR-pQCT, 骨质疏松分类, SegFormer, 语义分割, 影像组学, 机器学习
一句话总结¶
提出基于 SegFormer 的全自动多区域 HR-pQCT 分割框架,结合影像组学特征与机器学习实现骨质疏松二分类,发现软组织(肌腱/脂肪)特征的诊断价值优于传统骨骼特征。
背景与动机¶
- 骨质疏松诊断局限:临床金标准 DXA 仅测量面积骨密度(aBMD),无法评估骨微结构、三维形态及周围软组织质量,漏诊率高
- HR-pQCT 高分辨优势:HR-pQCT 可提供 60.7 µm 各向同性体素的外周骨三维微结构成像,辐射极低(<5 µSv),但现有分析流程仅关注矿化骨区域,大量采集数据未被利用
- 软组织与骨质疏松关联:肌肉减少症(Sarcopenia)与骨质疏松高度共病,肌肉质量指标(如腰大肌指数)与骨密度显著相关,但现有研究几乎忽略软组织的诊断贡献
- 分割自动化需求:现有 HR-pQCT 分割金标准为半自动方法,需人工校正,耗时且操作者间变异大;唯一的全自动方法(U-Net)仅分割皮质/松质骨两个区域
- CNN 的长程依赖缺陷:U-Net 等 CNN 难以建模全局空间关系,对 HR-pQCT 中小目标(如腓骨)分割精度不足
- 影像组学的多区域潜力:已有研究证明影像组学在骨质疏松检测中的有效性,但均聚焦单一解剖区域/组织类型,不同区域(皮质骨、松质骨、软组织)的比较诊断价值尚不清楚
方法详解¶
整体框架¶
完整的端到端流水线包含三阶段:(1) 基于 SegFormer 的五类语义分割 → (2) 后处理 + 软组织细分为七类区域 → (3) 从各区域提取影像组学特征 → 机器学习分类器进行骨质疏松二分类。
分割网络设计¶
- 架构:采用 SegFormer-B3,基于 Cityscapes 预训练权重进行迁移学习
- 输入适配:将 RGB 三通道权重取平均初始化单通道灰度输入的 patch embedding 层
- 编码器:四层层级化 Transformer 编码器,分别输出 200×200×64、100×100×128、50×50×320、25×25×512 的特征图,早期层捕获高分辨率局部细节,后期层捕获全局语义
- 解码器:轻量 MLP 解码器,将四层特征统一上采样到 200×200×768 后拼接,最终输出 200×200×6(五类 + 背景)
- 预处理:裁剪至 1600×1600,HU 值裁剪到 [-4000, 6000] 并归一化至 [0,1],双三次降采样至 800×800
- 五类标注:胫骨皮质骨、胫骨松质骨、腓骨皮质骨、腓骨松质骨、软组织
损失函数¶
\[L_{Total} = L_{CE} + L_{Dice}\]
等权组合交叉熵损失(逐像素分类精度)与 Dice 损失(基于重叠的分割性能),兼顾像素级精度与区域整体覆盖。
后处理与软组织细分¶
- 形态学约束:每类保留最大连通分量,皮质连续性用凸包检测 + 形态学闭运算修复
- 软组织细分:外边界 2 mm 为皮肤;基于 HU 阈值种子生长(肌腱:100–600 HU,脂肪:-600–-200 HU),未分配像素以 -50 HU 阈值决断
影像组学特征提取与选择¶
- 每区域提取 939 个特征:7 类特征(一阶统计、2D 形状、GLCM、GLSZM、GLRLM、NGTDM、GLDM)× 9 种滤波器(原始 + LoG + Wavelet + 平方 + 平方根 + 对数 + 指数 + 梯度 + LBP)
- 三阶段降维:方差阈值(0.02)→ 相关分析(Pearson |r|>0.9)→ LASSO 回归,最终每区域保留 3–14 个特征
实验关键数据¶
数据集¶
| 数据集 | 用途 | 规模 | 来源 |
|---|---|---|---|
| 分割集 | SegFormer 训练/评估 | 6,720 张图 / 40 scans / 22 人 | CUIMC + ICMH 双中心 |
| 分类集 | 骨质疏松预测 | 20,496 张图 / 122 scans / 122 人(61 骨质疏松 + 61 对照) | ICMH 单中心 |
分割性能(测试集,Mean ± SD)¶
| 模型 | 软组织 IoU | 胫骨皮质 IoU | 腓骨松质 IoU | 平均 F1 |
|---|---|---|---|---|
| U-Net | 98.0±7.5 | 86.1±6.4 | 74.4±23.4 | — |
| Attention U-Net | 98.2±6.2 | 87.0±4.6 | 72.1±24.7 | — |
| SegFormer | 99.2±0.2 | 86.5±3.6 | 89.6±5.6 | 95.36% |
SegFormer 在腓骨松质骨(小目标)IoU 提升 +20.43%,整体变异最低(IoU SD 3.74% vs U-Net 11.5%)。
图像级骨质疏松分类(Logistic Regression,测试集)¶
| 解剖区域 | Accuracy | F1 | AUROC |
|---|---|---|---|
| 胫骨皮质 | 76.69% | 0.734 | 0.777 |
| 胫骨松质 | 78.55% | 0.759 | 0.799 |
| 腓骨皮质 | 78.99% | 0.762 | 0.847 |
| 肌腱组织 | 80.08% | 0.787 | 0.850 |
| 脂肪组织 | 77.73% | 0.760 | 0.857 |
核心发现:软组织特征(肌腱 / 脂肪)的分类性能全面优于骨骼区域。
患者级分类(Logistic Regression,测试集 24 人)¶
| 模型 | Accuracy | Sensitivity | AUROC |
|---|---|---|---|
| 非影像组学(临床+DXA+HR-pQCT) | 0.792 | 0.667 | 0.792 |
| 影像组学-胫骨 | 0.792 | 0.833 | 0.826 |
| 影像组学-软组织 | 0.875 | 0.917 | 0.875 |
消融实验:软组织距离效应¶
以胫骨外表面为中心的不同半径:10 mm 区域 XGBoost AUROC 达 0.875(最佳),说明靠近骨骼的软组织包含更强的骨质疏松关联信号。
亮点¶
- 首个 Transformer 用于 HR-pQCT 多区域分割:SegFormer 同时分割四类骨 + 软组织,全自动端到端,小目标(腓骨)IoU 提升 20%
- 软组织 > 骨骼的反直觉发现:肌腱/脂肪影像组学特征在骨质疏松分类中优于传统骨骼特征,AUROC 从 0.792 提升至 0.875
- 完整七类分割:深度学习五类 + 后处理细分软组织为皮肤/肌腱/脂肪,是 HR-pQCT 最细粒度的全自动分割方案
- 系统的多区域比较:首次系统比较皮质骨、松质骨、肌腱、脂肪等不同区域的影像组学诊断价值
- 首个 HR-pQCT 分割标注数据集:6,720 张五类像素级标注,承诺发表后公开
局限性 / 可改进方向¶
- 患者级样本量小:仅 122 人(测试集 24 人),统计功效有限,结论的泛化性需验证
- 单中心分类数据:分类集仅来自 ICMH,跨中心泛化能力未验证
- 2D 切片处理:HR-pQCT 本身是 3D 体数据,逐切片 2D 处理丢失了层间连续性信息
- HR-pQCT 临床可及性差:相较 DXA 设备极稀缺,限制近期临床转化
- 仅二分类:未区分骨量减少(osteopenia)vs 骨质疏松 vs 正常的多类场景
- 无 3D 分割对比:未与 3D U-Net / nnU-Net 等体积分割方法比较
与相关工作的对比¶
| 方法 | 成像模态 | 分割方式 | 分析区域 | 本文优势 |
|---|---|---|---|---|
| Neeteson et al. (U-Net) | HR-pQCT | 自动/2类 | 皮质+松质 | 扩展至5+2=7类,含软组织 |
| Wang et al. (Radiomics) | 双能CT | 手动ROI | 椎体 | 多区域自动分割+系统比较 |
| Huang et al. | 腹部CT | 手动ROI | 腰大肌 | 全自动分割+多软组织类型 |
| Kim et al. (Deep Radiomics) | 髋部X光 | — | 股骨 | HR-pQCT 高分辨率+多区域 |
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 Transformer 用于 HR-pQCT 多区域分割,软组织优于骨骼的发现有临床启发性
- 实验充分度: ⭐⭐⭐ — 分割评估充分,但分类数据量偏小(122人/24人测试),缺乏多中心验证
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,方法描述详尽,图表丰富
- 价值: ⭐⭐⭐⭐ — 挑战了"骨质疏松只看骨"的范式,提示软组织在代谢骨病诊断中的潜在价值