TG-Field: Geometry-Aware Radiative Gaussian Fields for Tomographic Reconstruction¶
会议: AAAI 2026
arXiv: 2602.11705
代码: 无
领域: 3D视觉
关键词: CT重建, 3D高斯溅射, 稀疏视角, 动态CT, 形变场
一句话总结¶
提出 TG-Field,一种面向极端稀疏视角 CT 重建的几何感知高斯形变框架,通过多分辨率哈希编码器建模空间几何先验、时空注意力模块和运动流网络处理动态 CT,在静态和动态 CT 重建中均实现了 SOTA 性能。
研究背景与动机¶
问题定义¶
锥束计算机断层扫描(CBCT)广泛用于医学、生物学和工业领域。高质量 3D 重建通常需要数百个 X 射线投影,但密集角度采样会带来辐射暴露风险。稀疏视角 CBCT 重建旨在减少投影数量的同时保持重建保真度。
已有方法的不足¶
传统方法: - FDK(Feldkamp 滤波反投影):在稀疏视角下质量急剧下降 - SART(迭代重建):计算成本高,对超参数敏感
NeRF 基方法(NAF, SAX-NeRF 等): - 自监督,无需配对数据,但大多针对静态重建 - 需要密集射线采样,计算代价高 - STNF4D 尝试动态 CT 但收敛慢且重建质量不佳
3DGS 基方法的两大关键挑战:
极端稀疏视角下的鲁棒性不足:缺乏显式几何正则化,单高斯优化无法维持几何一致性,导致严重伪影
动态 CT 重建困难:无法建模呼吸运动等非刚体形变,时间一致性难以保证
核心动机¶
现有 3DGS CT 方法(如 R²-Gaussian、X-Gaussian)在中等稀疏条件下表现尚可,但极端稀疏时性能骤降。关键原因是:每个高斯原语独立优化,缺乏空间几何上下文的约束。作者提出引入几何感知的形变场,通过哈希编码器捕捉局部空间先验,约束高斯原语之间的空间相关性,从而在极端稀疏条件下也能保持结构连贯性。
方法详解¶
整体框架¶
TG-Field 的流程为: 1. 通过迭代式初始化生成高质量初始点云 2. 使用多分辨率哈希编码器捕捉空间几何特征 3. 通过多头形变解码器预测高斯原语的属性偏移 4. 对于动态 CT,加入时空注意力模块和运动流网络 5. 使用语义一致性正则化增强跨视角一致性
最终,形变后的高斯原语渲染为 X 射线投影并体素化为 CT 体积。
关键设计¶
1. 迭代式初始化策略:高质量几何先验的点云初始化¶
功能:两阶段迭代初始化——先用 CGLS(共轭梯度最小二乘法)获得粗略体积重建,再用 ASD-POCS(自适应最速下降-凸集投影)施加 TV 约束进行精化。
核心思路:不同于现有方法的均匀立方体采样(缺乏几何信息)或 FDK 初始化(稀疏条件下质量差),迭代式方法能从稀疏投影中提取更多几何信息: - 第一阶段:CGLS 迭代逼近稀疏投影约束下的体积解 - 第二阶段:ASD-POCS 强制 TV 约束,减少噪声并保留结构边缘
设计动机:高质量初始化对 3DGS 收敛至关重要。在 5 视角这种极端稀疏条件下,均匀采样的点云几乎不包含有意义的结构信息,导致优化困难。
2. 几何感知的溅射场:用哈希编码器建模空间相关性¶
功能:使用多分辨率哈希网格编码器捕捉每个高斯原语的空间上下文,然后通过多头解码器预测属性偏移。
核心思路:对于位置 \(\boldsymbol{\mu}_i\) 的高斯原语,通过哈希编码得到多尺度特征:
多头解码器分别预测位置、旋转、缩放和密度的偏移:
设计动机:哈希编码器天然地将空间上近邻的高斯原语映射到相似的特征空间,从而强制它们之间保持几何一致性。这在极端稀疏视角下尤为重要——当观测信息严重不足时,空间先验约束可以弥补缺失的几何信息。
3. 时空注意力模块(STAB):解决 4D CT 中的哈希碰撞和时间漂移¶
功能:对联合编码的时空哈希特征施加注意力机制,消除时空歧义。
核心思路:对于每个高斯原语 \(i\),堆叠时间窗口内的嵌入:
然后应用缩放点积注意力:
设计动机:联合哈希空间和时间坐标会导致哈希碰撞——当相同或近似的空间位置在不同时间反复出现时,哈希桶产生歧义嵌入。STAB 通过聚合时间上下文,消除碰撞桶中的歧义,产生更稳定的动态形变。
4. 运动流网络:建模细粒度呼吸运动¶
功能:使用 ResFields MLP 预测精细位移场,在形变场输出的基础上进一步修正高斯中心位置。
设计动机:初始形变场可能遗漏微妙的局部解剖形变(如肺部呼吸运动中的局部组织滑移),运动流网络作为残差修正模块捕捉这些细粒度运动。
损失函数 / 训练策略¶
总损失:\(\mathcal{L}_{total} = \mathcal{L}_1 + \lambda_{SSIM}\mathcal{L}_{SSIM} + \lambda_{TV}\mathcal{L}_{TV} + \lambda_{sem}\mathcal{L}_{sem}\)
- L1 损失 + D-SSIM:监督渲染 X 射线投影
- 3D TV 正则化:同质性先验
- 语义一致性正则化 \(\mathcal{L}_{sem}\):使用预训练 DINO-ViT 提取视觉特征,强制跨视角语义一致性
训练分两阶段:先预训练 R²-Gaussian 5000 迭代(warm-up),再加入形变场精化。
实验关键数据¶
主实验¶
静态 CT 重建(合成 + 真实数据集):
| 方法 | 合成5视角 PSNR/SSIM | 合成10视角 PSNR/SSIM | 合成20视角 PSNR/SSIM | 真实10视角 PSNR/SSIM |
|---|---|---|---|---|
| FDK | 11.83/0.112 | 15.21/0.186 | 18.48/0.293 | 17.57/0.225 |
| SART | 22.10/0.683 | 24.32/0.768 | 27.24/0.845 | 28.72/0.846 |
| SAX-NeRF | 24.05/0.740 | 27.55/0.801 | 31.93/0.875 | 32.26/0.835 |
| R²-Gaussian | 23.81/0.735 | 28.15/0.833 | 32.25/0.923 | 32.73/0.859 |
| Ours | 24.54/0.779 | 28.95/0.849 | 32.92/0.936 | 33.59/0.872 |
动态 CT 重建:
| 方法 | XCAT PSNR/SSIM | TCIA PSNR/SSIM | SPARE PSNR/SSIM | 平均 PSNR/SSIM |
|---|---|---|---|---|
| Hex-plane | 21.79/0.866 | 23.91/0.835 | 26.43/0.856 | 24.04/0.852 |
| K-plane | 20.57/0.847 | 24.59/0.855 | 26.59/0.876 | 23.92/0.859 |
| STNF4D | 25.73/0.928 | 29.37/0.919 | 28.75/0.887 | 27.95/0.911 |
| 4DGS | 33.95/0.955 | 34.44/0.948 | 30.01/0.898 | 32.80/0.933 |
| Ours | 35.51/0.969 | 35.41/0.955 | 30.41/0.905 | 33.78/0.943 |
消融实验¶
| 设置 | 组件 | PSNR↑ | SSIM↑ | 说明 |
|---|---|---|---|---|
| 静态 | HE only | 28.71 | 0.841 | 仅哈希编码器 |
| 静态 | HE + SR | 28.95 | 0.849 | +语义正则化,提升0.24dB |
| 动态 | HE + STAB | 34.89 | 0.945 | +时空注意力 |
| 动态 | HE + STAB + MF | 35.23 | 0.952 | +运动流网络,提升0.34dB |
| 动态 | 全部 (HE+STAB+MF+SR) | 35.41 | 0.955 | 全组件 |
关键发现¶
- 极端稀疏视角优势显著:5 视角下比 R²-Gaussian 高 0.73dB(合成),0.65dB(真实),说明几何先验约束在信息极度匮乏时尤为关键
- 动态 CT 全面领先:平均 PSNR 比 4DGS 高 0.98dB,XCAT 上高 1.56dB
- 初始化策略影响显著:迭代式初始化在 2-8 视角设置下均优于 FDK 和均匀采样
- 各组件贡献递增:HE → +STAB → +MF → +SR 逐步提升性能
- 运动流网络主要改善运动敏感区域:如肺部呼吸运动导致的局部形变
亮点与洞察¶
- 几何先验的关键作用:通过哈希编码器将空间相关性注入到高斯优化中,是本文最核心的贡献。这解决了独立优化每个高斯原语时缺乏全局一致性的问题
- 迭代式初始化标新立异:巧妙结合经典迭代重建方法(CGLS + ASD-POCS)为 3DGS 提供高质量起点
- VFM 用于 CT 正则化:使用预训练视觉基础模型(DINO-ViT)的语义特征进行跨视角一致性约束,是将自然图像领域的 foundation model 迁移到医学成像的有益尝试
- 统一的静态/动态框架:同一框架通过加入时间维度即可扩展到 4D CT
局限与展望¶
- 计算开销未详细报告:哈希编码器和注意力模块增加的训练/推理时间未量化对比
- 语义正则化的合理性:使用自然图像预训练的 DINO-ViT 对 X 射线图像的作用可能有限,领域差异可能削弱效果
- 仅针对 CBCT:未在平行束 CT 或其他成像模态中验证
- SPARE 数据集上优势较小:PSNR 仅比 4DGS 高 0.4dB,说明在临床真实数据上的提升空间有限
相关工作与启发¶
- R²-Gaussian 提出的可微体素化为 3DGS 直接重建 CT 体积奠定了基础
- 4DGaussians 的形变场思路被本文继承,但加入了几何感知编码器使其更鲁棒
- 语义一致性正则化思路可推广到其他稀疏重建任务
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将几何先验引入 3DGS CT 重建的思路有价值,但各组件(哈希编码器、注意力、运动流)均非全新
- 实验充分度: ⭐⭐⭐⭐⭐ — 静态/动态 × 合成/真实 × 多视角设置的全面评估,消融完整
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,但公式密集
- 价值: ⭐⭐⭐⭐ — 在医学成像中的潜在临床应用价值高
相关论文¶
- [AAAI 2026] GT2-GS: Geometry-aware Texture Transfer for Gaussian Splatting
- [ICCV 2025] Discretized Gaussian Representation for Tomographic Reconstruction
- [AAAI 2026] SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction
- [AAAI 2026] OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction
- [CVPR 2025] Geometry Field Splatting with Gaussian Surfels