FunREC: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos¶

会议: CVPR 2026
arXiv: 2604.05621
代码: https://functionalscenes.github.io/
领域: 3D视觉
关键词: 功能性3D重建, 自我中心视频, 关节物体重建, 数字孪生, 运动估计

一句话总结¶

本文提出 FunREC，一个无需训练的优化式方法，直接从自我中心 RGB-D 交互视频中重建功能性的铰接式 3D 数字孪生场景——自动发现铰接部件、估计运动学参数、追踪 3D 运动并重建静态和运动几何，在所有基准上大幅超越先前方法（部件分割 mIoU 提升 50+，关节角度误差降低 5-10 倍），并支持仿真导出和机器人交互。

研究背景与动机¶

领域现状：3D 场景重建取得了长足进展，但现有大规模 RGB-D 数据集（ScanNet、ARKitScenes 等）仅捕获环境的单一静态状态，无法表达门的开合、抽屉的滑动等功能性交互。数字孪生要求不仅捕获几何，还要理解物体如何运动和铰接。
现有痛点：（1）MultiScan 需要同一房间拍两次（开/关状态）并手动对齐标注，效率极低；（2）SceneFun3D/Articulate3D 在静态 LiDAR 扫描上标注功能性信息，但无法直接观察到运动学属性；（3）digital cousins 方法检索 CAD 代理模型来替代，与实际几何只有松散关联；（4）物体级铰接重建方法普遍假设控制环境、固定相机或已知 CAD 模型，无法处理野外场景级别的重建。
核心矛盾：人类交互自然地揭示了哪些部件会运动、绕什么关节运动、暴露了什么内部体积——这些丰富的信号没有被利用。现有方法要么依赖多次扫描+手动标注，要么依赖 CAD 检索这种弱代理。
本文目标 能否从一段普通的自我中心交互视频中，自动重建出完整的、可交互的、物理仿真兼容的功能性 3D 数字孪生？
切入角度：人类交互提供了最直接和丰富的功能性监督信号。当人们操作环境时，自我中心观察自然揭示了铰接信息。FunREC 利用视觉基础模型的语义和运动先验，无需训练即可完成整个 pipeline。
核心 idea：通过将自我中心交互视频分段、用基础模型的语义和运动先验发现铰接部件并追踪其运动、联合优化部件位姿和关节参数，直接从视频重建功能性 3D 数字孪生。

方法详解¶

整体框架¶

FunREC 是一个无需训练的优化式 pipeline。输入为自我中心 RGB-D 交互视频。流程为：（1）将视频分为静态和动态片段；（2）对每个动态片段执行相机位姿估计、稀疏 3D 轨迹计算、铰接感知运动聚类以发现运动部件；（3）对发现的运动部件进行像素级分割、位姿和关节参数联合优化；（4）分别重建静态场景和运动部件的 TSDF 体积；（5）全局对齐所有片段得到统一的功能性数字孪生。

关键设计¶

片段构建与动态/静态分类
- 功能：将长视频分解为可独立处理的片段，自动识别交互发生的时间段和关节类型
- 核心思路：使用视觉-语言模型（VLM）自动将视频分为交互片段（动态）和无交互片段（静态），同时预测每个交互的关节类型（旋转 revolute 或平移 prismatic）
- 设计动机：分片段处理降低了问题复杂度，利用 VLM 的语义理解自动化了原本需要手动标注的步骤
铰接感知运动聚类
- 功能：从稀疏 3D 点轨迹中发现运动部件，并将其与静态背景分离
- 核心思路：首先用 TAPIP3D 获取稀疏 3D 点轨迹。过滤掉运动量小于阈值 \(\epsilon_s\) 的静态点。对每个运动点拟合独立的关节假设（直线/圆弧），保留拟合误差低于 \(\epsilon_f\) 的点。然后用 HDBSCAN 按关节参数（轴向、枢轴点、运动模式）的相似性进行聚类。通过比较每个聚类与 VISOR 提供的交互物体 mask 的一致性得分 \(s_\gamma\)，选出得分最高的聚类作为被操作的运动部件
- 设计动机：直接从几何层面发现运动部件，比依赖分割模型更鲁棒。HDBSCAN 不需要预设聚类数，适合未知数量的运动部件
像素对齐的部件分割
- 功能：从稀疏的运动轨迹获得稠密的像素级运动部件 mask
- 核心思路：在选定的关键帧上用 SAM 的自动 mask 生成器进行过分割。将运动点和静态点投影到关键帧上，统计每个分割区域中运动点和静态点的比例 \(\gamma_r = n_r^m / (n_r^m + n_r^s + \epsilon)\)，超过阈值 \(\eta_m\) 的区域被标记为运动部件。关键帧 mask 作为 prompt 输入 SAM2 的视频传播模块，生成时间一致的稠密分割序列
- 设计动机：稀疏轨迹直接投影可能有噪声和遮挡问题，通过与 SAM 的过分割结合，用"区域级投票"代替"点级投影"，大幅提高分割鲁棒性
部件位姿与关节参数联合优化
- 功能：从带噪声的3D轨迹恢复全局一致的部件位姿序列和关节参数
- 核心思路：为每对帧构建 3D-3D 对应并用 SupeRANSAC 估计相对变换。构建位姿图优化目标 \(\mathcal{L}(T^m, L^m, \phi^m)\)，包含相邻帧约束、回环约束（带可优化的置信度 \(l_{ij}^m\)）以及关节参数约束。用 Ceres Solver 进行非线性优化，使用流形优化保证关节参数（如旋转轴在单位球上、角度在单位圆上）的约束
- 设计动机：单独的逐帧估计会产生累计漂移，联合优化位姿图和关节参数确保时间一致性和物理合理性

损失函数 / 训练策略¶

FunREC 是无需训练的优化方法，核心优化目标为位姿图能量 \(\mathcal{L} = \sum_i f(T_i^m, T_{i+1}^m, T_{i \to i+1}^m) + \sum_{i,j} l_{ij}^m f(T_i^m, T_j^m, T_{i \to j}^m) + \mu \sum_{i,j}(\sqrt{l_{ij}^m} - 1)^2\)
静态背景和运动部件分别使用 TSDF volume 重建
全局片段对齐使用 PREDATOR 提取几何对应

实验关键数据¶

主实验——关节运动估计¶

方法	OmniFun4D轴误差(°)	位置误差(m)	状态误差(°/m)	失败率(%)
MonST3R (CoTr3)	46.8/58.9	1.20	45.3/0.18	11.7
BundleSDF (GT mask)	38.2/55.9	0.95	23.4/0.20	55.0
FunREC	5.3/5.4	0.03	5.0/0.02	1.7

FunREC 的轴方向误差仅 5.3°，比 BundleSDF 低 30° 以上；位置误差低一个数量级。

6D部件位姿与重建质量¶

方法	OmniFun4D ADD-S(%)	CD(cm)	HOI4D ADD-S(%)	CD(cm)
MonST3R (GT depth+CoTr3)	37.12	13.9	54.83	1.3
SpatialTrackerV2 (GT depth)	29.71	9.88	60.98	0.8
BundleSDF (GT mask)	22.84	17.1	53.12	1.4
FunREC	78.96	3.2	79.43	0.7

ADD-S 精度翻倍以上，Chamfer Distance 大幅降低。

运动部件分割¶

方法	OmniFun4D mIoU	HOI4D mIoU	RealFun4D mIoU
MonST3R	23.6	26.8	23.7
SpatialTrackerV2 (SAM2)	6.2	5.8	13.4
FunREC	77.9	76.4	74.8

mIoU 提升 50+ 个百分点。

关键发现¶

FunREC 在所有三个数据集（合成/受控/真实）和所有四个评估任务上都以大幅度领先基线
基线方法的失败率很高（BundleSDF 在 OmniFun4D 上 55%），而 FunREC 接近零失败率
即使给基线提供 GT depth 和 GT mask 这样的有利条件，FunREC 仍然大幅领先
联合优化位姿和关节参数是性能跃升的关键，简单地用 3D tracker + RANSAC 拟合关节参数远远不够

亮点与洞察¶

"交互即监督"的范式：不需要多次扫描或手动标注，人的交互行为本身就是功能性理解的最佳监督信号。这一思路可以迁移到其他需要理解物体功能的任务
无需训练的系统设计：完全基于现有基础模型（VLM、TAPIP3D、SAM2、RoMA、PREDATOR）的能力组合，不训练任何新模型，展示了基础模型组合的强大潜力
从稀疏到稠密的分割策略：稀疏3D轨迹→区域级投票→SAM2 视频传播的三步策略，巧妙地解决了从噪声稀疏信号获得精确稠密分割的问题
新数据集贡献：RealFun4D（351个真实交互视频，4个国家60个公寓）和 OmniFun4D（127个仿真交互序列）填补了功能性场景理解的数据空白

局限与展望¶

依赖 RGB-D 输入（需要深度传感器），限制了实际部署场景
每次只处理单个铰接部件的交互，无法同时处理多个部件同时运动的复杂场景
VLM 的关节类型分类可能出错，会导致下游全部失败
对于非常小的运动（阈值 \(\epsilon_s\) 以下）或完全被手遮挡的部件可能检测不到
3D 点追踪器在有遮挡时可能不准确，虽然管线中有过滤机制，但强遮挡仍然是挑战

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从自我中心交互视频直接重建场景级功能性数字孪生
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集（含两个新数据集）、四个评估任务、多个基线对比，差距巨大且一致
写作质量: ⭐⭐⭐⭐ 方法描述清晰，实验结果令人信服
价值: ⭐⭐⭐⭐⭐ 对具身智能和机器人场景理解有重要推动作用，应用演示（URDF导出、机器人交互）展示了实际价值