ReScene4D: Temporally Consistent Semantic Instance Segmentation of Evolving Indoor 3D Scenes¶

会议: CVPR 2026
arXiv: 2601.11508
代码: 项目主页
领域: 自动驾驶 / 3D视觉 / 实例分割
关键词: 4D语义实例分割, 时序一致性, 室内场景变化, 对比学习, 时空查询

一句话总结¶

定义并形式化了时间稀疏的 4D 室内语义实例分割（4DSIS）任务，提出 ReScene4D 方法通过时空对比损失、时空掩码池化和时空序列化三种时序信息共享策略，将 3D 实例分割架构扩展到 4D 维度，在 3RScan 数据集上实现 SOTA，同时提出新的 t-mAP 指标联合评估分割质量和时序身份一致性。

研究背景与动机¶

领域现状：3D 语义实例分割（3DSIS）在静态场景上取得了优异表现，代表方法包括 Mask3D、SPFormer、Relation3D 等基于查询的 Transformer 架构。同时，4D 激光雷达全景分割方法（Mask4D、Mask4Former）在密集采样的自动驾驶序列上取得进展。大规模自监督点云编码器（Sonata、Concerto）在多种 3D 任务上刷新了 SOTA。
现有痛点：(a) 3DSIS 方法独立处理每次观测，忽略时序身份连续性——两次扫描中同一把椅子会被割裂为两个独立实例；(b) 4D 激光雷达方法依赖高频密集采样和极小帧间变化的假设（光流跟踪、运动模型）——但室内场景的观测间隔可能是天、月甚至年，此间物体位置、外观甚至拓扑发生重大变化；(c) 变化检测方法能发现差异但不建立语义或实例级对应关系；(d) 没有现有指标能联合评估分割质量和时序身份一致性。
核心矛盾：室内环境的4D理解面临一个独特挑战——观测在时间上稀疏（间隔数天到数年），但场景变化可以很大（物体移动、出现或消失），传统依赖连续观测或运动模型的方法完全失效。需要在没有密集观测的情况下维持跨时间扫描的实例身份一致性。
本文目标：(1) 形式化定义时间稀疏 4DSIS 任务；(2) 设计无需密集观测的时序信息共享方法；(3) 提出联合评估分割和时序一致性的指标。
切入角度：跨时间观测共享信息——即使场景发生变化——不仅改善 4DSIS 也能提升单阶段 3DSIS。可以灵活利用几何和语义先验而非硬性要求几何对齐。
核心 idea：用时空查询联合预测所有时间阶段的实例掩码，通过三种渐进式时序信息共享策略（对比损失、时空掩码、时空序列化）在不依赖密集观测的前提下实现时序一致的实例分割。

方法详解¶

整体框架¶

ReScene4D 基于 Mask3D 的掩码Transformer架构进行 4D 扩展。输入为同一场景的 \(T\) 次 3D 扫描序列，注册到统一坐标系但保留时间维度区分（4D 体素化）。特征骨干网络独立提取每个时间阶段的层次化特征，时空查询通过联合掩码注意力跨所有时间阶段进行迭代精炼，掩码模块预测跨时间序列一致的实例掩码和语义标签。三种时序信息共享模块（对比损失、ST掩码、ST序列化）贯穿架构不同层级促进跨时间一致性。

关键设计¶

时空 4D 输入与架构适配:
- 功能：将多次扫描统一表示为 4D 点云，支持端到端联合预测
- 核心思路：将序列点云注册到全局坐标系形成 \(\mathcal{P} \in \mathbb{R}^{N \times 4}\)（x,y,z,t），关键区别于 LiDAR 方法——不将时间维度压缩为 3D，保持不同时间观测的点在体素化时独立。采用时空共享查询联合预测所有阶段的实例掩码，无需独立匹配步骤。位置编码使用 4D 傅里叶特征。未匹配预测用更高的 no-object 语义损失（\(\lambda_{noobj}=0.2\)）惩罚，抑制跨时间的重复预测。
- 设计动机：LiDAR 方法将多帧叠加成 3D 后丢失了时间区分信息，导致假设空间对齐的点共享实例标签——这在稀疏观测场景中不成立。
跨时间对比损失 (Contrastive Loss):
- 功能：强化实例判别性，在特征层面传播时序信息
- 核心思路：在池化的超点特征上施加监督式对比学习。用实例标注构建二元关系矩阵 \(R_{GT} \in \{0,1\}^{S \times S}\)（同一实例的超点为正对、不同实例为负对），跨越整个时间序列采样正负对。使用 InfoNCE 损失 \(\mathcal{L}_{cont} = -\frac{1}{|S^+|}\sum_{i \in S^+}\log\frac{\sum_{j \in P(i)}\exp(L_{ij})}{\sum_k \exp(L_{ik})}\) 鼓励网络学习时序一致的特征表示——同一实例在不同时间阶段的特征应该相近，不同实例的特征应该分离。
- 设计动机：不修改网络结构，仅通过损失函数在训练时将跨时间的身份一致性信号注入特征学习，是最轻量的时序信息共享方式。
时空掩码池化 (Spatio-Temporal Masking):
- 功能：让不同时间阶段的查询能够引导彼此关注相同的时空位置
- 核心思路：在掩码注意力的查询精炼中，将不同阶段的辅助掩码通过逻辑 OR 操作进行时间池化，使查询能关注跨时间对齐的体素位置。在粗分辨率层级，体素重叠概率高，促进时序信息共享；在细分辨率层级，重叠减少，掩码自然回归独立精炼。不强制空间对齐的点必须在最终掩码中共享标签。
- 设计动机：利用几何对齐先验但不硬性依赖——当有体素重叠时利用它引导注意力，没有重叠时不产生影响。适应室内场景中物体移动但大部分静态的特点。
时空解码器序列化 (Spatio-Temporal Decoder Serialization):
- 功能：让解码器能同时关注空间和时间邻居，丰富上下文
- 核心思路：针对 PTv3 骨干（Sonata/Concerto），在解码器中将所有时间阶段的点云合并后应用四种空间填充曲线（Z-order、Hilbert 等）生成序列化模式，与原始空间序列化模式随机混合。编码器保持与预训练一致的固定空间序列化模式（冻结参数），避免域偏移。
- 设计动机：PTv3 的序列化注意力机制天然支持通过修改序列化顺序来扩展有效感受野。将序列化从纯空间扩展到时空域，使解码器在精炼特征时能利用来自其他时间步的互补信息。

损失函数 / 训练策略¶

主损失沿用 Mask3D 的掩码预测损失（包含语义分类和二值掩码损失）
附加跨时间对比损失 \(\mathcal{L}_{cont}\)
未匹配查询使用更高的 no-object 惩罚权重
混合训练集：3RScan 双阶段序列与 ScanNet 单扫描以 1.0:0.8 比例混合
对于 PTv3 骨干，编码器冻结（利用预训练权重），解码器从头训练

实验关键数据¶

主实验¶

4DSIS 评估（3RScan 数据集）：

方法	t-mAP	t-mAP50	t-mAP25	mAP	mAP50	mAP25
Mask4D	1.3	2.9	8.7	2.1	5.5	21.2
Mask4Former	17.0	38.9	59.1	21.7	45.6	66.3
Mask3D+语义匹配	20.1	32.9	38.6	25.9	42.3	73.9
Mask3D+几何匹配	20.7	43.1	62.4	29.7	54.1	70.9
ReScene4D (Mink.)	31.6	49.5	61.6	39.2	60.7	74.1
ReScene4D (Sonata)	33.2	50.7	63.3	40.9	62.8	79.1
ReScene4D (Concerto)	34.8	52.5	66.8	43.3	64.3	81.9

单阶段 3DSIS 性能（4D 预测按阶段独立评估）：

方法	Stage	mAP	mAP50	mAP25
Mask3D (纯3D)	-	46.4	68.5	78.5
Mask3D+几何匹配	2	21.9	46.4	68.4
ReScene4D (C)	1	47.8	68.4	82.0
ReScene4D (C)	2	48.3	69.8	83.0

消融实验¶

时序信息共享策略消融（Concerto 骨干）：

对比损失	ST-序列化	ST-掩码	t-mAP	t-mREC	模糊实例	刚性变化	非刚性变化
×	×	×	28.4	41.8	20.4	44.9	62.1
✓	×	×	34.1	49.6	42.8	48.4	63.2
×	✓	×	32.9	48.8	43.2	40.9	67.0
×	×	✓	32.4	48.5	42.3	40.2	70.7
✓	✓	×	34.8	52.1	47.2	48.6	66.5

关键发现¶

LiDAR 方法在室内稀疏 4D 场景上严重退化：Mask4D 的 t-mAP 仅 1.3，因为其 LiDAR 特定骨干从头训练在有限 3RScan 数据上效果很差。Mask4Former 依赖密集观测和平滑运动假设，也表现不佳。
骨干选择决定最佳时序策略：Concerto 骨干最优策略是对比损失+ST序列化；Sonata 最优是 ST序列化+ST掩码；Minkowski 从对比损失获益最多。不同骨干的特征表示和潜在空间差异导致最优时序策略不同。
4D 联合推理反过来提升 3D 性能：ReScene4D 的单阶段 mAP（47.8/48.3）超越了专门训练的 Mask3D（46.4），说明时序信息共享相当于一种数据和观测增强。
不同变化类型对策略的需求不同：对比损失对模糊实例和刚性变化最有效（通过负对区分视觉相似实例），ST掩码对非刚性变化最有效（通过空间对齐帮助局部几何变化大但位移小的物体）。

亮点与洞察¶

t-mAP 指标设计非常精心——使用 min-IoU 跨时间阶段取最小值，确保时序任一阶段的身份不一致都会被惩罚；同时通过迭代赋值策略处理模糊实例组（如一组外观相同的椅子互换位置不应算错）。这个指标可以直接被整个室内 4D 理解社区采用。
"不叠加、不对齐、不匹配"的设计哲学：不像 LiDAR 方法将多帧叠加到 3D 中，ReScene4D 保持 4D 独立性但通过柔性策略共享信息，对稀疏观测和大幅变化的鲁棒性远超硬对齐方法。
将 ScanNet 单扫描数据混合训练是一个实用技巧——因为模型不需要显式的时序瓶颈，可以同时处理单阶段和多阶段输入，利用更大规模的 ScanNet 数据增强语义覆盖。

局限与展望¶

受限于 3RScan 数据集的规模和标注质量：仅 17% 的验证集实例发生变化，时序标注不一致（主要针对前景物体），限制了时序策略的充分验证。
目前仅支持 \(T=2\) 的序列长度，更长的时间序列（\(T>2\)）下的可扩展性未验证。
PTv3 编码器由于计算限制未进行端到端微调，仅冻结使用——作者指出微调可能带来进一步提升。
小物体（如枕头）的分割仍然困难——3RScan 中小物体的非系统性标注导致模型倾向于忽略它们。
需要更大规模、更多样的 4D 室内场景数据集来推动此方向的研究。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 形式化定义新任务、新指标、新方法三位一体，开辟了室内 4DSIS 这个新方向
实验充分度: ⭐⭐⭐⭐ 三种骨干×三种策略的全面消融、基线对比充分，但受限于数据集单一（仅 3RScan）
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰严谨，t-mAP 指标的设计论证（含 toy example）非常到位
价值: ⭐⭐⭐⭐ 为室内场景的长期动态理解提供了系统性的任务定义和基准方法，对数字孪生、设施管理等应用有直接价值