LTGS: Long-Term Gaussian Scene Chronology From Sparse View Updates¶
会议: CVPR 2026 arXiv: 2510.09881 代码: 无 领域: 3D视觉 关键词: 3D高斯泼溅, 场景更新, 稀疏视角, 时序重建, 物体级跟踪
一句话总结¶
提出 LTGS 框架,通过构建可复用的物体级高斯模板,从时空稀疏的观测图像中高效更新 3DGS 场景重建,实现长期环境演化的时序建模。
研究背景与动机¶
3DGS/NeRF 等新视角合成方法能从常规相机输入重建高质量静态 3D 场景,但日常环境中物体频繁移动(如家具搬动、物品增减),导致重建迅速过时。现有应对策略存在明显不足:
- 从头重建:丢弃已有信息,计算冗余极大
- 4D 表示(如 4DGS、NSC):要求连续密集观测,只能处理平滑运动,无法应对突变式几何变化
- 持续学习方法(如 CL-NeRF、CL-Splats):需要较多更新图像(>10张),缺乏结构先验,在稀疏输入下性能退化
- 少样本重建(如 InstantSplat):无法保持初始重建信息,自由视角下出现严重浮动伪影
核心诉求:用极少量(如3张)随机拍摄的更新图像,在保持初始重建质量的同时,高效检测并更新场景中的物体级变化。
方法详解¶
整体框架¶
LTGS 是一个集成化管线,给定初始 3DGS 重建 \(\mathcal{G}_0\) 和多个时间步的稀疏图像 \(\mathcal{I} = \{I^i\}_t\),输出时序场景演化 \(\mathcal{S} = \{\mathcal{G}_0, \mathcal{G}_1, \ldots, \mathcal{G}_M\}\)。管线包含四个阶段:变化检测 → 物体跟踪与模板构建 → 模板关联与配准 → 长期高斯优化。
关键设计¶
-
变化检测模块:结合语义和光度两种准则检测场景变化。语义差异使用 SAM 特征的余弦相似度度量(对光照鲁棒),光度差异使用 SSIM 捕捉细微偏移。将两者融合并二值化得到伪掩码,再用 SAM 掩码过滤浮动伪影,提取可靠的物体级变化区域。掩码膨胀 3 像素以保留充分的 3D 聚合信息。设计动机:纯光度方法受光照干扰,纯语义方法漏检细微变化,二者互补更鲁棒。
-
物体模板构建与 2D 实例匹配:对稀疏观测进行跨视角和跨时间步的物体关联。时间步内使用 MASt3R 几何特征建立密集匹配图,通过图结构分配实例 ID;跨时间步聚合 SAM 特征计算余弦相似度矩阵,用匈牙利匹配建立实例对应。初始时间步的物体模板从 \(\mathcal{G}_0\) 中通过最优标签分配分割得到;后续时间步的新物体用 MASt3R 估计的 3D 点云初始化高斯参数。设计动机:稀疏设定下小物体的低级特征难以匹配,MASt3R+SAM 组合利用密集几何与语义特征互补。
-
物体模板跟踪与 3D 配准:为匹配的物体实例计算 6DoF 变换。由于 MASt3R 点云不完整且密度不均,传统 ICP/RANSAC 配准失败。方法为每个点增加 DINO 特征,使用鲁棒点云配准管线估计 \(P_{t \to \tilde{t}, k} = \{R_{t \to \tilde{t}, k}, T_{t \to \tilde{t}, k}\}\),并通过 Chamfer 距离阈值验证几何一致性。对于关节运动等非刚性变化,自然表示为不同实例。设计动机:每个实例选择单一共享模板配合相对变换,避免冗余重建,实现跨时间步复用。
-
长期高斯优化:将选定模板通过 6DoF 变换映射到各时间步: $\((\mu_{t,k}, R_{t,k}, c_{t,k}) = (\mu_{0,k} R_{0 \to t,k}^\top + T_{0 \to t,k}^\top, R_{0 \to t,k} R_{0,k}, c_{0,k} \mathcal{R}_{\text{SH}}(R_{0 \to t,k})^\top)\)$ 引入时序不透明度滤波器 \(\mathcal{M}_{t,o}\) 控制瞬态物体可见性,并将 6DoF 位姿设为可优化参数以补偿配准的像素级误差。同时利用初始时间步的训练视角渲染图做一致性约束,防止对少量后续观测过拟合。
损失函数 / 训练策略¶
- 渲染损失:标准 L1 + D-SSIM(与原版 3DGS 一致)
- 仅需 5000 次迭代即可收敛(无需 densify/clone/opacity reset)
- 背景 \(\mathcal{B}_0\) 从初始重建初始化,物体遮挡暴露区域用 MASt3R 点云补充
- 总处理时间约 6.5 分钟(RTX 4090):变化检测 2.5min + 实例匹配 0.5min + 优化 3.5min
实验关键数据¶
主实验¶
| 数据集 | 指标 | LTGS (本文) | CL-Splats | 4DGS | CL-NeRF | 提升 |
|---|---|---|---|---|---|---|
| CL-NeRF (合成) | PSNR↑ | 27.17 | 25.84 | 26.13 | 25.53 | +1.33 vs 4DGS |
| CL-NeRF (合成) | SSIM↑ | 0.795 | 0.772 | 0.786 | 0.730 | +0.009 vs 4DGS |
| CL-NeRF (合成) | LPIPS↓ | 0.376 | 0.416 | 0.411 | 0.465 | -0.035 vs 4DGS |
| 真实数据集 | PSNR↑ | 23.46 | 21.12 | 21.49 | 20.95 | +1.97 vs 4DGS |
| 真实数据集 | SSIM↑ | 0.889 | 0.829 | 0.850 | 0.815 | +0.039 vs 4DGS |
| 真实数据集 | LPIPS↓ | 0.230 | 0.312 | 0.322 | 0.379 | -0.092 vs 4DGS |
| 真实数据集 | 时间↓ | 7min | 3min | 29min | 2h | 4x快于4DGS |
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ | 说明 |
|---|---|---|---|---|
| Full (LTGS) | 23.46 | 0.889 | 0.230 | 完整方法 |
| w/o 物体跟踪 | 23.26 | 0.885 | 0.234 | 去掉模板关联,每步独立重建 |
| w/o 位姿优化 | 23.33 | 0.886 | 0.232 | 不优化6DoF位姿 |
| w/o 背景初始化 | 23.29 | 0.885 | 0.233 | 不补充遮挡暴露区域 |
| w/o 训练视角约束 | 23.11 | 0.885 | 0.240 | 不使用初始训练视角 |
关键发现¶
- 在真实场景上优势更显著(PSNR +1.97 vs 4DGS),说明物体模板先验对稀疏输入的约束至关重要
- 物体跟踪是最重要的组件:若不复用模板,稀疏视角无法消除已移除物体的残影
- 对基础模型(MASt3R、SAM)的噪声注入实验表明框架鲁棒性强,轮廓聚合和图匹配可平滑局部扰动
- 支持非刚性/关节运动,通过为不同状态创建独立模板自然处理
亮点与洞察¶
- 物体模板复用思想极其优雅:一次构建、多步变换,将 \(O(M)\) 的重建问题简化为 \(O(1)\) 模板 + \(O(M)\) 刚性变换
- 同时利用 SAM(语义)+ MASt3R(几何)+ DINO(外观)三大基础模型的互补特征,各司其职
- 实际部署友好:每步仅需 3 张随机拍摄图像,处理时间 ~7 分钟,适合数字孪生、位置服务等实际应用
- 新采集的真实世界数据集填补了长期稀疏更新场景的评测空白
局限性 / 可改进方向¶
- 仅处理几何变化:对显著光照变化、阴影变化、显示屏内容变化等无能为力
- 假设物体为刚体:虽然通过多模板机制间接处理关节运动,但缺乏显式的形变建模
- 依赖初始高质量重建 \(\mathcal{G}_0\) 作为起点,若初始重建本身质量差则后续更新受限
- 消融实验中各组件对 PSNR 的提升幅度较小(~0.2dB),整体增益主要在视觉质量上
- 可结合物体关节建模(如 [13])实现更精细的非刚性跟踪
相关工作与启发¶
- CL-Splats/CL-NeRF(持续学习):保留时序信息但需较多输入,LTGS 通过结构先验突破了稀疏瓶颈
- InstantSplat(少样本重建):每步独立重建丢失历史信息,LTGS 通过背景保持和模板复用解决
- 3DGS-CD(变化检测):仅检测不跟踪,LTGS 增加了完整的物体关联和模板优化
- 启发:场景理解(检测+分割+匹配)与场景重建(3DGS优化)的深度融合是实用 3D 系统的关键方向
评分¶
- 新颖性: ⭐⭐⭐⭐ 物体模板复用的思路新颖,将日常场景变化建模为可分解的结构化更新
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据集,7个Baseline,消融+鲁棒性分析完整
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,管线图直观,各模块动机与设计自洽
- 价值: ⭐⭐⭐⭐ 高度实用的问题设定,对数字孪生、机器人等应用落地有直接价值