Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding¶

会议: CVPR 2026
arXiv: 2603.12514
代码: GitHub
领域: 医学图像 / 3D目标检测 / 自监督学习
关键词: 腹部创伤检测, MIM预训练, 半监督学习, VDETR, 3D顶点相对位置编码

一句话总结¶

在仅 206 例标注(其中 144 例用于训练)的极端稀缺条件下，通过 patch-based MIM 预训练 3D U-Net + VDETR 顶点 RPE 检测器 + 2000 例未标注数据的半监督一致性正则化，将 3D 腹部创伤检测 mAP@0.50 从 26.36% 提升至 56.57%(验证集,+115%)，冻结编码器的 7 类分类达 94.07% 准确率。

研究背景与动机¶

领域现状：腹部 CT 创伤检测在急诊放射学中至关重要——需要快速、准确地检测和定位内部损伤。RSNA 2023 竞赛推动了该领域发展，冠军方案使用多阶段管线+集成策略达到 98% AUC，但依赖大量标注数据。

现有痛点：标注极其昂贵——RSNA 数据集 4711 个序列中仅 206 个有分割标注(4.4%)。传统 2D 切片分析丢失 3D 空间关系；直接 3D 卷积处理全分辨率体积(512×336×336)计算量巨大；基于中心点的检测方法无法表征不规则器官和损伤的复杂几何形状。

核心矛盾：深度学习 3D 检测需要大量标注数据，但医学影像标注成本极高(仅 4.4% 有标注)；通用 3D 预训练(自然视频/合成数据)迁移到医学影像效果差(HU 分布、解剖模式完全不同)。

本文目标 如何在仅百例级别标注 3D CT 的极端稀缺条件下，实现可靠的腹部创伤检测和定位。

切入角度：两阶段学习——先在全部无标注 CT 上自监督预训练学习解剖先验，再结合少量标注和大量未标注数据做半监督检测微调。

核心 idea：MIM 预训练提供解剖先验 + 3D 顶点 RPE 建模复杂几何 + Mean Teacher 半监督利用未标注数据，三者协同解决极端标注稀缺。

方法详解¶

整体框架¶

两阶段学习框架：Stage 1 在 1206 例无标注 CT 上用 patch-based MIM(75% 遮蔽率)预训练 3D U-Net 编码器(50 epochs, MSE 损失)；Stage 2 将预训练编码器接入 VDETR 解码器(带 3D 顶点 RPE)做检测，同时用 2000 例未标注体积做 Mean Teacher 半监督一致性正则化。另有分类分支：冻结编码器 + 轻量分类头(33,799 参数)做 7 类损伤分类。

关键设计¶

Patch-based MIM 自监督预训练:
- 功能：从每个 CT 体积中提取 128×128×128 patch，切分为 8×8×8 子块并随机遮蔽 75%，训练 3D U-Net 重建被遮蔽区域
- 核心思路：标准 encoder-decoder U-Net 架构，encoder 通过 3D 卷积+池化逐步下采样，decoder 通过转置卷积重建。用 MSE 损失训练 50 epochs，Adam 优化器。每个 epoch 从每卷中采样多个 patch 确保解剖结构全覆盖。训练完成后冻结 encoder 作为固定特征提取器
- 设计动机：75% 的高遮蔽率迫使网络学习有意义的解剖模式和空间关系而非简单插值；patch-based 策略避免处理全分辨率体积的内存瓶颈
VDETR + 3D 顶点相对位置编码(3DV-RPE):
- 功能：将编码器输出的 32×21×21 特征图(256维)采样 4096 个 token 输入 Transformer 解码器，用 8 角顶点位置编码增强注意力
- 核心思路：对每个 query \(q\) 和体素位置 \(\mathbf{p}_v\)，计算到预测框全部 8 个顶点的偏移向量 \(\Delta\mathbf{P}_i \in \mathbb{R}^{K \times N \times 3}\)，通过 MLP 转换为注意力偏置 \(\mathbf{R} = \sum_{i=1}^{8} \mathbf{P}_i\)，叠加到标准 attention：\(\mathbf{A} = \text{softmax}(\mathbf{QK}^T + \mathbf{R})\)
- 设计动机：传统中心距离度量无法表征不规则器官——一个体素到框中心距离相同但可能在框内/外/边界上。8 角 RPE 提供完整的几何关系信息，使模型在少量数据下也能学到有效的空间归纳偏置
两阶段训练 + 半监督一致性正则化:
- 功能：Phase I (epochs 0-20) 冻结编码器训练解码器；Phase II (epochs 20-100) 解冻编码器联合微调，同时引入 2000 例未标注数据的半监督学习
- 核心思路：对未标注体积施加弱增强(\(\sigma=0.01\), \(\pm 2\%\))生成教师伪标签和强增强(\(\sigma=0.05\), \(\pm 10\%\), blur, elastic)生成学生预测。一致性损失三组件：\(\mathcal{L}_{center}\)(MSE) + \(\mathcal{L}_{size}\)(MSE) + \(\mathcal{L}_{cls}\)(KL, T=2.0)。权重 \(\lambda(t)\) 从 epoch 20→60 线性从 0 升至 0.3
- 设计动机：Phase I 防止随机初始化的解码器梯度破坏预训练特征；Phase II 编码器用 3-epoch warmup 渐进解冻(lr=1e-5，仅解码器的 1/10)防止灾难性遗忘；半监督在 epoch 20 之后才激活避免训练不稳定

损失函数 / 训练策略¶

\(\mathcal{L}_{total} = \mathcal{L}_{supervised} + \lambda(t) \times (\mathcal{L}_{center} + \mathcal{L}_{size} + \mathcal{L}_{cls})\)。分类任务用加权 BCEWithLogits（正类权重 \(w_i^{pos} = N_i^{neg}/N_i^{pos}\)，如 bowel injury \(w^{pos}=4.45\)）。分类头仅 33,799 可训练参数，AdamW + cosine scheduling 训练 50 epochs。数据增强：Gaussian noise、intensity shift/scale、gamma correction。

实验关键数据¶

主实验¶

任务	指标	无SSL	有SSL	提升
验证集检测	mAP@0.50	26.36%	56.57%	+115%
验证集检测	mAP@0.75	6.82%	45.12%	+562%
测试集检测	mAP@0.50	23.03%	45.30%	+97%
测试集检测	mAP@0.75	16.67%	28.72%	+72%
分类(冻结编码)	7类均值Acc	—	94.07%	—
分类(冻结编码)	bowel AUC	—	0.975	—

消融实验¶

训练策略	Encoder	测试Acc	测试AUC	说明
Fine-tune+增强	Unfrozen	77.7%	57.7%	144样本基线
Fine-tune+增强+SSL	Unfrozen	75.4%	57.3%	伪标签噪声反而降低性能
Fine-tune+增强+Focal	Unfrozen	75.9%	56.0%	Focal loss无显著增益
Linear probe(全数据)	Frozen	94.07%	51.4%	2244样本,冻结编码器最优

关键发现¶

纯监督训练在 epoch 5 达峰值后急剧坍塌至约 8%——这是极端标注稀缺下训练不稳定的典型表现
半监督一致性正则化完全消除了灾难性坍塌，实现稳定收敛
mAP@0.75 提升 562% 说明一致性正则化不仅提高检出率，更显著改善定位精度
冻结编码器在 epoch 0 即达 94.07% 最优分类精度，后续训练无提升——自监督特征已充分判别，是预训练质量的最佳证明
扩展到 2244 样本的分类(94.07%)远优于 144 样本+伪标签(75.4%)——标注数据质量优于伪标签数量

亮点与洞察¶

115% 的 mAP 提升和训练从坍塌到稳定收敛的质变，是 SSL 在极端稀缺场景价值的有力证据
3D 顶点 RPE 优雅地解决了中心距离无法表征不规则器官的根本问题
冻结编码器即达 94% 分类精度是预训练质量的最佳证明——特征已 maximally discriminative
设计选择(两阶段训练、学习率差异化、半监督延迟激活)体现了对训练动态的深入理解

局限与展望¶

仅在腹部创伤 CT 上验证，其他解剖区域/病变类型的泛化性未知
分类 AUC 仅 51.4%(置信度校准问题)，需要后处理温度缩放但未实施
28.72% mAP@0.75 说明严格 IoU 下定位精度仍有较大改善空间
与 RSNA 2023 竞赛冠军(98% AUC, 多阶段+集成)有差距，但本文重在少标注方法论
未探索更大规模未标注数据(如全部 4505 例)的效果

评分¶

新颖性: ⭐⭐⭐ 各组件(MIM/VDETR/半监督)已有，贡献在于首次系统集成并在极端稀缺的 3D 医学场景验证
实验充分度: ⭐⭐⭐⭐ 消融全面(检测+分类双任务)，训练动态分析透彻(坍塌→稳定的可视化)
写作质量: ⭐⭐⭐⭐ 结构清晰，实验细节充分，代码开源，可复现性好
价值: ⭐⭐⭐ 对医学影像少标注场景有实用参考价值，方法框架可迁移到其他 3D 检测任务