Continuous 3D Perception Model with Persistent State¶

会议: CVPR 2025
arXiv: 2501.12387
代码: cut3r.github.io
领域: 3D视觉 / 3D重建
关键词: 在线3D重建, 持续感知, 循环状态, 点图预测, 动态场景

一句话总结¶

提出CUT3R（Continuous Updating Transformer for 3D Reconstruction），一个维持持续内部状态的循环模型，能从图像流中在线、增量地进行度量级3D重建、相机位姿估计，并能推断未观测区域的3D结构。

研究背景与动机¶

领域现状¶

领域现状：传统3D重建方法（SfM、SLAM、NeRF等）从头开始处理每个场景（tabula rasa），难以应对稀疏观测、退化运动等情况

现有痛点¶

现有痛点：DUSt3R等学习方法仅能处理图像对，扩展到多视图需要耗时的全局对齐，且无法在线更新

核心矛盾¶

核心矛盾：Spann3R虽支持连续重建，但其空间记忆仅作为缓存，不能推断未观测区域

解决思路¶

解决思路：人类是在线视觉学习者：持续处理视觉流、累积观测、利用先验知识推断遮挡区域

补充说明¶

补充说明：需要一个统一框架：(1)从少量观测重建3D，(2)随新观测持续细化，(3)推断未观测区域

方法详解¶

整体框架¶

CUT3R使用ViT编码器将每帧图像编码为visual tokens，这些tokens与一组持续维护的状态tokens进行双向交互——状态更新（将新信息融入状态）和状态读出（从状态中检索历史上下文），产生世界坐标系和相机坐标系下的稠密点图及相机位姿。

关键设计¶

持续状态机制（Persistent State）:
- 功能：以固定大小的token集合编码对场景的累积理解
- 核心思路：状态由768个768维可学习token组成，初始化共享。图像tokens通过两个互联Transformer解码器与状态双向交互：状态更新融入新观测，状态读出提取历史上下文
- 设计动机：固定大小的压缩状态不仅缓存已观测内容，还能编码未观测区域的推断，类似人类对环境的心理模型
虚拟视角查询（Unseen View Query）:
- 功能：在不添加新观测的情况下，从状态中推断未见区域的3D结构和颜色
- 核心思路：将虚拟相机的内参/外参编码为raymap（6通道图像，每像素编码光线原点和方向），经ViT编码后与状态交互读出（不更新状态），预测对应的点图和颜色
- 设计动机：类比MAE中的patch补全，此处是图像级别的补全，利用状态中编码的场景全局上下文
冗余预测与部分标注训练:
- 功能：预测自身坐标系和世界坐标系两份点图及6-DoF位姿
- 核心思路：\(\hat{X}_t^{\text{self}}, \hat{X}_t^{\text{world}}, \hat{P}_t\) 分别由 HeadSelf（DPT）、HeadWorld（DPT+pose token）、HeadPose（MLP）输出
- 设计动机：看似冗余但简化训练——每个输出独立监督，且支持在仅有位姿或仅有单视图深度的数据集上训练

损失函数 / 训练策略¶

3D回归损失：置信度感知的点图回归 \(\mathcal{L}_{conf} = \sum (c \cdot \|\hat{x}/\hat{s} - x/s\|_2 - \alpha \log c)\)
位姿损失：四元数和平移的L2损失
颜色损失：raymap查询时的MSE重建损失
课程训练：4阶段——(1)4视图静态场景224×224，(2)加入动态场景和部分标注，(3)高分辨率（最大边512），(4)冻结编码器在4-64视图长序列上训练
32个训练数据集覆盖：合成/真实、静态/动态、室内/室外

实验关键数据¶

主实验（单帧深度）¶

数据集	方法	Abs Rel ↓	δ<1.25 ↑
Bonn	DUSt3R	0.141	82.5
Bonn	MonST3R	0.076	93.9
Bonn	CUT3R	0.063	96.2
NYU-v2	DUSt3R	0.080	90.7
NYU-v2	CUT3R	0.086	90.9
KITTI	MASt3R	0.079	94.7
KITTI	CUT3R	0.092	91.3

消融实验¶

配置	关键指标	说明
无状态（仅图像对）	多视图不一致	退化为DUSt3R式成对预测
无raymap查询	无法推断未见区域	缺失场景先验推断能力
短序列训练（无第4阶段）	长序列性能下降	长上下文推理不足

关键发现¶

在线处理速度16.58 FPS（A100, 512×144），显著快于需要全局对齐的方法
在Bonn和NYU-v2上单帧深度估计达到SOTA
视频深度估计在多个数据集上与需要全局对齐的方法竞争甚至超越
能无缝处理静态和动态场景（包括运动的人/物体）
支持度量尺度预测（不同于DUSt3R的相对尺度）

亮点与洞察¶

将3D重建建模为"持续感知"问题，固定大小的状态token是优雅的设计
虚拟视角查询类比MAE的图像级补全，概念上简洁且有效
灵活性极强：统一处理视频流、无序照片集、静态/动态场景
冗余输出设计看似浪费实则精妙，使训练数据利用率最大化
从DUSt3R的成对→全局对齐范式升级为在线循环范式，是3D重建领域的重要推进

局限与展望¶

固定大小状态token可能限制对超大场景的表达能力
训练需要8×A100，计算成本高
动态场景的重建质量仍不如专门的动态SLAM方法
虚拟视角查询的质量依赖于状态中积累的信息量
可探索自适应状态大小或层次化状态表示

评分¶

新颖性: ⭐⭐⭐⭐⭐ 持续状态+虚拟查询的统一框架在3D重建领域极具创新性
实验充分度: ⭐⭐⭐⭐⭐ 涵盖深度、位姿、重建等多任务，多数据集全面评测
写作质量: ⭐⭐⭐⭐⭐ 叙事流畅，类比清晰（人类视觉、MAE），图表精美
价值: ⭐⭐⭐⭐⭐ 统一框架解决多种3D任务，在线特性有广泛应用前景