LTGS: Long-Term Gaussian Scene Chronology From Sparse View Updates¶

会议: CVPR 2026 arXiv: 2510.09881 代码: 无领域: 3D视觉 关键词: 3D高斯泼溅, 场景更新, 稀疏视角, 时序重建, 物体级跟踪

一句话总结¶

提出 LTGS 框架，通过构建可复用的物体级高斯模板，从时空稀疏的观测图像中高效更新 3DGS 场景重建，实现长期环境演化的时序建模。

研究背景与动机¶

3DGS/NeRF 等新视角合成方法能从常规相机输入重建高质量静态 3D 场景，但日常环境中物体频繁移动（如家具搬动、物品增减），导致重建迅速过时。现有应对策略存在明显不足：

从头重建：丢弃已有信息，计算冗余极大
4D 表示（如 4DGS、NSC）：要求连续密集观测，只能处理平滑运动，无法应对突变式几何变化
持续学习方法（如 CL-NeRF、CL-Splats）：需要较多更新图像（>10张），缺乏结构先验，在稀疏输入下性能退化
少样本重建（如 InstantSplat）：无法保持初始重建信息，自由视角下出现严重浮动伪影

核心诉求：用极少量（如3张）随机拍摄的更新图像，在保持初始重建质量的同时，高效检测并更新场景中的物体级变化。

方法详解¶

整体框架¶

LTGS 是一个集成化管线，给定初始 3DGS 重建 $\mathcal{G}_0$ 和多个时间步的稀疏图像 $\mathcal{I} = \{I^i\}_t$，输出时序场景演化 $\mathcal{S} = \{\mathcal{G}_0, \mathcal{G}_1, \ldots, \mathcal{G}_M\}$。管线包含四个阶段：变化检测 → 物体跟踪与模板构建 → 模板关联与配准 → 长期高斯优化。

关键设计¶

变化检测模块：结合语义和光度两种准则检测场景变化。语义差异使用 SAM 特征的余弦相似度度量（对光照鲁棒），光度差异使用 SSIM 捕捉细微偏移。将两者融合并二值化得到伪掩码，再用 SAM 掩码过滤浮动伪影，提取可靠的物体级变化区域。掩码膨胀 3 像素以保留充分的 3D 聚合信息。设计动机：纯光度方法受光照干扰，纯语义方法漏检细微变化，二者互补更鲁棒。
物体模板构建与 2D 实例匹配：对稀疏观测进行跨视角和跨时间步的物体关联。时间步内使用 MASt3R 几何特征建立密集匹配图，通过图结构分配实例 ID；跨时间步聚合 SAM 特征计算余弦相似度矩阵，用匈牙利匹配建立实例对应。初始时间步的物体模板从 $\mathcal{G}_0$ 中通过最优标签分配分割得到；后续时间步的新物体用 MASt3R 估计的 3D 点云初始化高斯参数。设计动机：稀疏设定下小物体的低级特征难以匹配，MASt3R+SAM 组合利用密集几何与语义特征互补。
物体模板跟踪与 3D 配准：为匹配的物体实例计算 6DoF 变换。由于 MASt3R 点云不完整且密度不均，传统 ICP/RANSAC 配准失败。方法为每个点增加 DINO 特征，使用鲁棒点云配准管线估计 $P_{t \to \tilde{t}, k} = \{R_{t \to \tilde{t}, k}, T_{t \to \tilde{t}, k}\}$，并通过 Chamfer 距离阈值验证几何一致性。对于关节运动等非刚性变化，自然表示为不同实例。设计动机：每个实例选择单一共享模板配合相对变换，避免冗余重建，实现跨时间步复用。
长期高斯优化：将选定模板通过 6DoF 变换映射到各时间步： $$(\mu_{t,k}, R_{t,k}, c_{t,k}) = (\mu_{0,k} R_{0 \to t,k}^\top + T_{0 \to t,k}^\top, R_{0 \to t,k} R_{0,k}, c_{0,k} \mathcal{R}_{\text{SH}}(R_{0 \to t,k})^\top)$$ 引入时序不透明度滤波器 $\mathcal{M}_{t,o}$ 控制瞬态物体可见性，并将 6DoF 位姿设为可优化参数以补偿配准的像素级误差。同时利用初始时间步的训练视角渲染图做一致性约束，防止对少量后续观测过拟合。

损失函数 / 训练策略¶

渲染损失：标准 L1 + D-SSIM（与原版 3DGS 一致）
仅需 5000 次迭代即可收敛（无需 densify/clone/opacity reset）
背景 $\mathcal{B}_0$ 从初始重建初始化，物体遮挡暴露区域用 MASt3R 点云补充
总处理时间约 6.5 分钟（RTX 4090）：变化检测 2.5min + 实例匹配 0.5min + 优化 3.5min

实验关键数据¶

主实验¶

数据集	指标	LTGS (本文)	CL-Splats	4DGS	CL-NeRF	提升
CL-NeRF (合成)	PSNR↑	27.17	25.84	26.13	25.53	+1.33 vs 4DGS
CL-NeRF (合成)	SSIM↑	0.795	0.772	0.786	0.730	+0.009 vs 4DGS
CL-NeRF (合成)	LPIPS↓	0.376	0.416	0.411	0.465	-0.035 vs 4DGS
真实数据集	PSNR↑	23.46	21.12	21.49	20.95	+1.97 vs 4DGS
真实数据集	SSIM↑	0.889	0.829	0.850	0.815	+0.039 vs 4DGS
真实数据集	LPIPS↓	0.230	0.312	0.322	0.379	-0.092 vs 4DGS
真实数据集	时间↓	7min	3min	29min	2h	4x快于4DGS

消融实验¶

配置	PSNR↑	SSIM↑	LPIPS↓	说明
Full (LTGS)	23.46	0.889	0.230	完整方法
w/o 物体跟踪	23.26	0.885	0.234	去掉模板关联，每步独立重建
w/o 位姿优化	23.33	0.886	0.232	不优化6DoF位姿
w/o 背景初始化	23.29	0.885	0.233	不补充遮挡暴露区域
w/o 训练视角约束	23.11	0.885	0.240	不使用初始训练视角

关键发现¶

在真实场景上优势更显著（PSNR +1.97 vs 4DGS），说明物体模板先验对稀疏输入的约束至关重要
物体跟踪是最重要的组件：若不复用模板，稀疏视角无法消除已移除物体的残影
对基础模型（MASt3R、SAM）的噪声注入实验表明框架鲁棒性强，轮廓聚合和图匹配可平滑局部扰动
支持非刚性/关节运动，通过为不同状态创建独立模板自然处理

亮点与洞察¶

物体模板复用思想极其优雅：一次构建、多步变换，将 $O(M)$ 的重建问题简化为 $O(1)$ 模板 + $O(M)$ 刚性变换
同时利用 SAM（语义）+ MASt3R（几何）+ DINO（外观）三大基础模型的互补特征，各司其职
实际部署友好：每步仅需 3 张随机拍摄图像，处理时间 ~7 分钟，适合数字孪生、位置服务等实际应用
新采集的真实世界数据集填补了长期稀疏更新场景的评测空白

局限性 / 可改进方向¶

仅处理几何变化：对显著光照变化、阴影变化、显示屏内容变化等无能为力
假设物体为刚体：虽然通过多模板机制间接处理关节运动，但缺乏显式的形变建模
依赖初始高质量重建 $\mathcal{G}_0$ 作为起点，若初始重建本身质量差则后续更新受限
消融实验中各组件对 PSNR 的提升幅度较小（~0.2dB），整体增益主要在视觉质量上
可结合物体关节建模（如 [13]）实现更精细的非刚性跟踪

评分¶

新颖性: ⭐⭐⭐⭐ 物体模板复用的思路新颖，将日常场景变化建模为可分解的结构化更新
实验充分度: ⭐⭐⭐⭐ 合成+真实数据集，7个Baseline，消融+鲁棒性分析完整
写作质量: ⭐⭐⭐⭐ 问题定义清晰，管线图直观，各模块动机与设计自洽
价值: ⭐⭐⭐⭐ 高度实用的问题设定，对数字孪生、机器人等应用落地有直接价值