GLINT: Modeling Scene-Scale Transparency via Gaussian Radiance Transport¶

会议: CVPR 2026
arXiv: 2603.26181
代码: https://youngju-na.github.io/GLINT
领域: 3D视觉
关键词: 高斯溅射、透明表面重建、辐射传输分解、混合渲染、场景重建

一句话总结¶

GLINT 通过将高斯表征分解为界面、透射、反射三个组件，结合光栅化+光线追踪的混合渲染管线，在场景级透明表面（如玻璃墙、展示柜）的几何和外观重建上取得了 SOTA 效果。

研究背景与动机¶

领域现状：3D 高斯溅射（3DGS）凭借实时渲染和高视觉保真度成为 3D 重建的主流范式。大量后续工作改进了几何精度（2DGS、PGSR 等平面约束高斯）和非朗伯效应建模（GaussianShader、EnvGS 等反射分解方法）。

现有痛点：3DGS 的核心 alpha-blending 机制无法处理透明表面。在透明场景中（如建筑玻璃、展示柜、窗户），单个像素接收来自不同物理位置的反射和透射分量的叠加辐射。为了渲染真实的透射效果，位于玻璃位置的高斯需要极低的 opacity 或被剪枝，但这会导致玻璃的几何信息丢失。反之，高 opacity 会把玻璃当作不透明遮挡物，阻断透射背景。这就是"透明-深度困境"。

核心矛盾：alpha-blending 将几何和外观耦合在单一合成流中——同一个 opacity 参数同时控制着几何存在性和辐射贡献度，这对透明物体是根本性的冲突（几何上存在but辐射上需要透过去）。

本文目标 (1) 如何在高斯溅射框架下解耦透明表面的几何和外观？(2) 如何同时重建透射和反射辐射而不需要手动分割掩码？(3) 如何扩展到场景级的复杂透明结构？

切入角度：现有方法要么是 object-centric 需要分割掩码（TransparentGS、TSGS），要么只处理反射不处理透射（EnvGS、DeferredGS）。作者提出将场景显式分解为三个功能集：第一可见界面、透射几何、反射环境，分别用独立的高斯集合表示和优化。

核心 idea：将高斯溅射的表征分解为界面/透射/反射三组件，用光栅化+光线追踪的混合管线实现物理一致的透明辐射传输。

方法详解¶

整体框架¶

GLINT 的输入是多视角图像，输出是包含透明表面的完整 3D 场景重建（几何+外观）。场景的高斯被显式划分为三组：界面高斯 \(\mathcal{G}_{\text{intr}}\)（捕捉第一可见表面，包括透明和不透明边界）、透射高斯 \(\mathcal{G}_{\text{trans}}\)（建模通过透明表面看到的背景几何）、反射高斯 \(\mathcal{G}_{\text{refl}}\)（编码从界面反射的环境辐射）。界面组件通过光栅化产生 G-buffer（深度、法线、透明度、高光度），然后通过光线追踪查询透射和反射组件，最终按透明度和菲涅尔反射率加权合成出射辐射。

关键设计¶

分解高斯表征 (Decomposed Gaussian Representation):
- 功能：解耦透明场景中的多路径辐射，分别建模界面、透射和反射
- 核心思路：界面组件 \(\mathcal{G}_{\text{intr}}\) 通过 2DGS 光栅化产生 G-buffer \(\mathcal{B} = \{z, \mathbf{n}, t, s\}\)（深度、法线、透明度 \(t \in [0,1]\)、高光度 \(s \in [0,1]\)）。透明度 \(t\) 决定该点是走不透明路径还是透明路径，高光度 \(s\) 控制漫反射和镜面反射的比例。透射组件 \(\mathcal{G}_{\text{trans}}\) 和反射组件 \(\mathcal{G}_{\text{refl}}\) 各自独立优化，避免了传统 alpha-blending 中几何和外观的耦合
- 设计动机：标准 alpha-blending 对透明物体有根本性冲突。通过显式分解，每个组件只需关注自己的光学角色——界面管几何，透射管背景可见性，反射管环境映射
透明感知辐射传输 (Transparency-Aware Radiance Transport):
- 功能：物理一致地合成透明/不透明场景的出射辐射
- 核心思路：出射辐射 \(L_o = (1-t) L_{\text{opaque}} + t L_{\text{transparent}}\)。不透明分支用 Schlick 菲涅尔近似 \(F(\omega_o) = F_0 + (1-F_0)(1 - \max(0, \omega_o \cdot \mathbf{n}))^5\)，混合界面基色和反射辐射 \(L_{\text{opaque}} = (1-k_s) L_{\text{intr}} + k_s L_{\text{refl}}\)，其中 \(k_s = s + (1-s) F(\omega_o)\)。透明分支类似但透射取代漫反射 \(L_{\text{transparent}} = (1-k_s) L_{\text{trans}} + k_s L_{\text{refl}}\)。采用光学薄假设（\(\omega_t \approx \omega_o\)），折射弯曲可忽略。透射和反射辐射通过光线追踪查询各自的高斯组件：\(L_{\text{refl}} = \text{Trace}(\mathcal{G}_{\text{refl}}, \mathbf{x}, \omega_r)\)，\(L_{\text{trans}} = \text{Trace}(\mathcal{G}_{\text{trans}}, \mathbf{x}, \omega_t)\)
- 设计动机：受 BSDF 启发的分解将反射和透射路径基于表面属性显式分离，使优化不再需要在 opacity 上做违反物理的妥协
透明度自举与几何先验 (Transparency Bootstrapping & Geometric Priors):
- 功能：无需手动分割掩码即可定位透明区域，并稳定优化过程
- 核心思路：透明度自举利用分解表征优化过程中自然涌现的信号：(a) 界面-透射深度差 \(\Delta z = |z_{\text{intr}} - z_{\text{trans}}|\)，深度差大说明该区域存在多层深度→可能为玻璃；(b) 漫反射 albedo 图 \(\hat{a}\)（来自预训练视频重光照模型），albedo 低说明为镜面主导传输。二值透明度掩码 \(M_{\text{trans}} = \mathbf{1}((\Delta z > \tau_d) \land (\hat{a} < \gamma_a))\) 通过 L1 损失监督预测的透明度 \(t\)。几何正则化使用预训练视频重光照模型的编码器预测的深度 \(\hat{z}\) 和法线 \(\hat{\mathbf{n}}\)，通过尺度不变深度损失和法线角度损失稳定界面几何
- 设计动机：现有分割模块在场景级透明中常失败（模糊边界、重叠透射辐射）。分解表征自然产生的深度差信号提供了更可靠的透明度定位线索。视频重光照模型的先验比单目深度估计更帧间一致

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{\text{photo}} = \lambda_1 \mathcal{L}_1 + \lambda_{\text{ssim}} \mathcal{L}_{\text{SSIM}} + \lambda_{\text{lpips}} \mathcal{L}_{\text{LPIPS}}\)（光度重建）+ \(\mathcal{L}_{\text{geo}} = \lambda_d \mathcal{L}_{\text{depth}} + \lambda_n \mathcal{L}_{\text{normal}}\)（几何正则化）+ \(\mathcal{L}_{\text{trans}} = \lambda_t \|M_{\text{trans}} - t\|_1\)（透明度监督）。使用 2DGS 光栅化器 + 修改版 OptiX 光线追踪器。自适应密化和剪枝+边缘感知法线平滑。\(\tau_d = 0.01\)，\(\gamma_a = 0.05\)。单卡 RTX 4090 训练。

实验关键数据¶

主实验 — 合成数据集 3D-FRONT-T (几何评估)¶

方法	Normal MAE↓	11.25°↑	Depth AbsRel↓	CD↓	F1↑
2DGS	25.97	52.19	0.20	0.85	0.688
EnvGS	14.37	68.22	0.13	0.87	0.640
TSGS	9.89	86.29	0.08	0.52	0.798
GLINT	7.96	86.37	0.04	0.34	0.836

主实验 — 渲染质量¶

方法	DL3DV-10K PSNR↑	DL3DV-10K SSIM↑	3D-FRONT-T PSNR↑
EnvGS	29.65	0.91	33.71
TSGS	25.94	0.85	28.80
GLINT	30.21	0.92	34.50

消融实验¶

配置	PSNR↑	MAE↓	AbsRel↓
Full model	34.50	7.96	0.035
w/o \(\mathcal{G}_{\text{trans}}\)	32.26	8.11	0.038
w/o \(\mathcal{G}_{\text{refl}}\)	32.70	8.78	0.038
w/o \(\mathcal{L}_{\text{trans}}\)	33.57	8.07	0.037
w/o \(\mathcal{L}_{\text{geo}}\)	33.62	24.69	0.126

关键发现¶

去掉透射组件 \(\mathcal{G}_{\text{trans}}\) 导致最大的性能下降（PSNR -2.24），因为背景内容错误地混入界面高斯，产生几何歧义
去掉几何正则化 \(\mathcal{L}_{\text{geo}}\) 导致法线 MAE 从 7.96 飙升到 24.69，深度 AbsRel 从 0.035 飙升到 0.126，说明先验对稳定透明区域几何至关重要
TSGS 虽然在几何上有一定效果，但渲染质量明显低于 GLINT（PSNR 差 5+ dB），因为它只建模第一表面无法恢复透射辐射
透明度自举成功识别了各种场景中的玻璃区域，无需任何手动标注

亮点与洞察¶

三组件分解设计直接且优雅地解决了"透明-深度困境"。将光学角色显式分离为界面/透射/反射，使得每个组件的 opacity 不再承受矛盾约束。这种结构化分解的思路可推广到其他光学现象（如半透明、次表面散射）
透明度自举的方法非常聪明：利用深度差作为主要信号、albedo 作为辅助信号来检测透明区域，完全来自分解优化过程的副产物，不需要额外的分割模型
混合渲染（光栅化+光线追踪）的设计平衡了效率和物理正确性。界面用高效的光栅化，二次反射/透射用光线追踪，是实用的工程选择

局限与展望¶

基于光学薄假设，即折射弯曲可忽略。对于厚玻璃、水族箱等有明显折射的场景，该假设不成立
需要预训练的视频重光照模型作为先验，增加了依赖和部署复杂度
光线追踪部分的计算开销限制了实时应用的可能性（虽然在 RTX 4090 上可行）
仅在 5 个合成场景和 8 个真实场景上评估，场景多样性有待扩展
透明度掩码的阈值 \(\tau_d\) 和 \(\gamma_a\) 在所有场景中固定，可能不是最优的

评分¶

新颖性: ⭐⭐⭐⭐⭐ 三组件分解+混合渲染管线的设计对透明场景重建是本质性的推进
实验充分度: ⭐⭐⭐⭐ 合成+真实数据集，完整消融，但场景数量有限
写作质量: ⭐⭐⭐⭐⭐ 物理建模严谨，图表丰富直观
价值: ⭐⭐⭐⭐⭐ 解决了3DGS的根本性限制，引入的3D-FRONT-T基准对后续工作有重要价值