Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding¶

会议: CVPR 2026
arXiv: 2603.12514
代码: GitHub (有)
领域: 医学图像 / 3D目标检测 / 自监督学习
关键词: 腹部创伤检测, MIM预训练, 半监督学习, VDETR, 3D顶点相对位置编码

一句话总结¶

在仅206例标注CT中，通过patch-based MIM预训练3D U-Net + VDETR顶点RPE + 半监督一致性正则化的两阶段框架，将3D创伤检测mAP@0.50从26.36%提升至56.57%（验证集），同时冻结编码器的7类分类达94.07%准确率。

背景与动机¶

腹部CT创伤检测在急诊放射学中至关重要，但标注极其昂贵：RSNA数据集4711个序列中仅206个有分割标注(4.4%)。传统2D切片分析无法捕获3D空间关系，而直接3D卷积处理全分辨率体积(512×336×336)计算量巨大。解剖结构形状不规则且个体差异大，基于中心点的检测方法无法表征复杂几何关系。通用3D特征提取器（自然视频/合成数据预训练）迁移到医学影像效果差，因为医学影像具有独特的HU分布和解剖模式。

核心问题¶

如何在仅百例级别标注3D CT的极端稀缺条件下，实现可靠的腹部创伤检测和定位？

方法详解¶

整体框架¶

两阶段学习：(1) 在1206例无标注CT上用MIM预训练3D U-Net编码器；(2) 将预训练编码器接入VDETR解码器+3D顶点RPE做检测，同时用2000例未标注体积做半监督一致性正则化。

关键设计¶

Patch-based MIM预训练: 从每个CT体积中提取128³ patch，切分为8³子块并随机遮蔽75%，训练3D U-Net重建被遮蔽区域。用MSE损失训练50 epochs，在全部1206例上学习解剖先验，无需标注
VDETR + 3D顶点RPE检测: 编码器输出32×21×21特征图(256维)，采样4096个token输入Transformer解码器。对每个体素计算其与预测框全部8个顶点的偏移向量ΔP_i∈R^{K×N×3}，通过MLP转换为注意力偏置R=Σ P_i，叠加到标准attention分数A=softmax(QK^T + R)，使模型学习点在框"内/外/边界"的几何关系
两阶段训练: Phase I (epochs 0-20)冻结编码器仅训练解码器，防止随机初始化梯度破坏预训练特征；Phase II (epochs 20-100)解冻编码器joint fine-tune，编码器用3-epoch warmup将lr从0渐升至1×10⁻⁵（解码器的1/10）
半监督一致性正则化: Mean Teacher风格，对2000例未标注CT施加弱增强(σ=0.01, ±2%)生成教师伪标签和强增强(σ=0.05, ±10%, blur, elastic)生成学生预测。一致性损失: L_center(MSE) + L_size(MSE) + L_cls(KL, T=2.0)，权重λ从epoch 20→60线性从0升至0.3

损失函数 / 训练策略¶

L_total = L_supervised + λ(t) × (L_center + L_size + L_cls)。分类任务用加权BCEWithLogits(正类权重按负/正比，bowel injury w_pos=4.45)。分类头仅33,799可训练参数，AdamW + cosine scheduling训练50 epochs。

实验关键数据¶

评估	指标	无SSL	有SSL	提升
验证集检测	mAP@0.50	26.36%	56.57%	+115%
验证集检测	mAP@0.75	6.82%	45.12%	+562%
测试集检测	mAP@0.50	23.03%	45.30%	+97%
测试集检测	mAP@0.75	16.67%	28.72%	+72%
分类(冻结编码)	7类准确率	—	94.07%	—
分类(冻结编码)	bowel AUC	—	0.975	—

消融实验要点¶

纯监督训练在epoch 5达到峰值后急剧坍塌至~8%，半监督完全消除灾难性不稳定
mAP@0.75提升562%说明一致性正则化显著改善定位精度，而不仅是检出能力
144样本+重增强=77.7%分类准确率，+半监督反而降至75.4%（伪标签噪声干扰），扩展到2244样本冻结编码器=94.07%——数据质量优于伪标签
冻结编码器epoch 0即达94.07%最优分类精度，后续训练无提升——自监督特征已充分判别

亮点¶

115%的mAP提升和训练从崩溃到稳定收敛的质变，是SSL在极稀缺场景价值的有力证据
3D顶点RPE解决了中心距离无法表征不规则器官的根本问题
冻结编码器即达94%分类精度是预训练质量的最佳证明

局限性 / 可改进方向¶

仅在腹部创伤CT验证，其他解剖区域/病变类型的泛化性未知
分类AUC仅51.4%（置信度校准问题），需后处理温度缩放
28.72% mAP@0.75说明严格IoU下定位精度仍有改善空间
与RSNA 2023竞赛冠军(98% AUC, 多阶段+集成)相比有差距，但本文重在少标注方法论

与相关工作的对比¶

vs Eckstein et al.[2024]: 前者证明预训练对3D医学检测有益但未结合半监督，本文将两者整合且引入3D RPE
vs V-DETR[Shen 2023]: 本文将V-DETR的8角位置编码首次应用于3D医学影像检测，配合domain-specific预训练
vs MAE[He 2022]: 将遮蔽重建扩展到3D patch-based医学场景，75%遮蔽率与原论文一致

启发与关联¶

医学影像"预训练→少样本微调"范式的成功案例，对其他标注稀缺的3D检测场景有参考价值
半监督的一致性正则化对训练稳定性的贡献可能比对精度提升更关键

评分¶

新颖性: ⭐⭐⭐ 各组件(MIM/VDETR/半监督)已有，贡献在于首次系统集成并在医学场景验证
实验充分度: ⭐⭐⭐⭐ 消融全面，检测+分类双任务，训练动态分析透彻
写作质量: ⭐⭐⭐⭐ 结构清晰，实验细节充分，可复现性好
价值: ⭐⭐⭐ 对医学影像少标注场景有实用参考价值