FunREC: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos¶
会议: CVPR 2026
arXiv: 2604.05621
代码: https://functionalscenes.github.io/
领域: 3D视觉
关键词: 功能性3D重建, 自我中心视频, 关节物体重建, 数字孪生, 运动估计
一句话总结¶
本文提出 FunREC,一个无需训练的优化式方法,直接从自我中心 RGB-D 交互视频中重建功能性的铰接式 3D 数字孪生场景——自动发现铰接部件、估计运动学参数、追踪 3D 运动并重建静态和运动几何,在所有基准上大幅超越先前方法(部件分割 mIoU 提升 50+,关节角度误差降低 5-10 倍),并支持仿真导出和机器人交互。
研究背景与动机¶
-
领域现状:3D 场景重建取得了长足进展,但现有大规模 RGB-D 数据集(ScanNet、ARKitScenes 等)仅捕获环境的单一静态状态,无法表达门的开合、抽屉的滑动等功能性交互。数字孪生要求不仅捕获几何,还要理解物体如何运动和铰接。
-
现有痛点:(1)MultiScan 需要同一房间拍两次(开/关状态)并手动对齐标注,效率极低;(2)SceneFun3D/Articulate3D 在静态 LiDAR 扫描上标注功能性信息,但无法直接观察到运动学属性;(3)digital cousins 方法检索 CAD 代理模型来替代,与实际几何只有松散关联;(4)物体级铰接重建方法普遍假设控制环境、固定相机或已知 CAD 模型,无法处理野外场景级别的重建。
-
核心矛盾:人类交互自然地揭示了哪些部件会运动、绕什么关节运动、暴露了什么内部体积——这些丰富的信号没有被利用。现有方法要么依赖多次扫描+手动标注,要么依赖 CAD 检索这种弱代理。
-
本文目标 能否从一段普通的自我中心交互视频中,自动重建出完整的、可交互的、物理仿真兼容的功能性 3D 数字孪生?
-
切入角度:人类交互提供了最直接和丰富的功能性监督信号。当人们操作环境时,自我中心观察自然揭示了铰接信息。FunREC 利用视觉基础模型的语义和运动先验,无需训练即可完成整个 pipeline。
-
核心 idea:通过将自我中心交互视频分段、用基础模型的语义和运动先验发现铰接部件并追踪其运动、联合优化部件位姿和关节参数,直接从视频重建功能性 3D 数字孪生。
方法详解¶
整体框架¶
FunREC 是一个无需训练的优化式 pipeline。输入为自我中心 RGB-D 交互视频。流程为:(1)将视频分为静态和动态片段;(2)对每个动态片段执行相机位姿估计、稀疏 3D 轨迹计算、铰接感知运动聚类以发现运动部件;(3)对发现的运动部件进行像素级分割、位姿和关节参数联合优化;(4)分别重建静态场景和运动部件的 TSDF 体积;(5)全局对齐所有片段得到统一的功能性数字孪生。
关键设计¶
-
片段构建与动态/静态分类
- 功能:将长视频分解为可独立处理的片段,自动识别交互发生的时间段和关节类型
- 核心思路:使用视觉-语言模型(VLM)自动将视频分为交互片段(动态)和无交互片段(静态),同时预测每个交互的关节类型(旋转 revolute 或平移 prismatic)
- 设计动机:分片段处理降低了问题复杂度,利用 VLM 的语义理解自动化了原本需要手动标注的步骤
-
铰接感知运动聚类
- 功能:从稀疏 3D 点轨迹中发现运动部件,并将其与静态背景分离
- 核心思路:首先用 TAPIP3D 获取稀疏 3D 点轨迹。过滤掉运动量小于阈值 \(\epsilon_s\) 的静态点。对每个运动点拟合独立的关节假设(直线/圆弧),保留拟合误差低于 \(\epsilon_f\) 的点。然后用 HDBSCAN 按关节参数(轴向、枢轴点、运动模式)的相似性进行聚类。通过比较每个聚类与 VISOR 提供的交互物体 mask 的一致性得分 \(s_\gamma\),选出得分最高的聚类作为被操作的运动部件
- 设计动机:直接从几何层面发现运动部件,比依赖分割模型更鲁棒。HDBSCAN 不需要预设聚类数,适合未知数量的运动部件
-
像素对齐的部件分割
- 功能:从稀疏的运动轨迹获得稠密的像素级运动部件 mask
- 核心思路:在选定的关键帧上用 SAM 的自动 mask 生成器进行过分割。将运动点和静态点投影到关键帧上,统计每个分割区域中运动点和静态点的比例 \(\gamma_r = n_r^m / (n_r^m + n_r^s + \epsilon)\),超过阈值 \(\eta_m\) 的区域被标记为运动部件。关键帧 mask 作为 prompt 输入 SAM2 的视频传播模块,生成时间一致的稠密分割序列
- 设计动机:稀疏轨迹直接投影可能有噪声和遮挡问题,通过与 SAM 的过分割结合,用"区域级投票"代替"点级投影",大幅提高分割鲁棒性
-
部件位姿与关节参数联合优化
- 功能:从带噪声的3D轨迹恢复全局一致的部件位姿序列和关节参数
- 核心思路:为每对帧构建 3D-3D 对应并用 SupeRANSAC 估计相对变换。构建位姿图优化目标 \(\mathcal{L}(T^m, L^m, \phi^m)\),包含相邻帧约束、回环约束(带可优化的置信度 \(l_{ij}^m\))以及关节参数约束。用 Ceres Solver 进行非线性优化,使用流形优化保证关节参数(如旋转轴在单位球上、角度在单位圆上)的约束
- 设计动机:单独的逐帧估计会产生累计漂移,联合优化位姿图和关节参数确保时间一致性和物理合理性
损失函数 / 训练策略¶
- FunREC 是无需训练的优化方法,核心优化目标为位姿图能量 \(\mathcal{L} = \sum_i f(T_i^m, T_{i+1}^m, T_{i \to i+1}^m) + \sum_{i,j} l_{ij}^m f(T_i^m, T_j^m, T_{i \to j}^m) + \mu \sum_{i,j}(\sqrt{l_{ij}^m} - 1)^2\)
- 静态背景和运动部件分别使用 TSDF volume 重建
- 全局片段对齐使用 PREDATOR 提取几何对应
实验关键数据¶
主实验——关节运动估计¶
| 方法 | OmniFun4D轴误差(°) | 位置误差(m) | 状态误差(°/m) | 失败率(%) |
|---|---|---|---|---|
| MonST3R (CoTr3) | 46.8/58.9 | 1.20 | 45.3/0.18 | 11.7 |
| BundleSDF (GT mask) | 38.2/55.9 | 0.95 | 23.4/0.20 | 55.0 |
| FunREC | 5.3/5.4 | 0.03 | 5.0/0.02 | 1.7 |
FunREC 的轴方向误差仅 5.3°,比 BundleSDF 低 30° 以上;位置误差低一个数量级。
6D部件位姿与重建质量¶
| 方法 | OmniFun4D ADD-S(%) | CD(cm) | HOI4D ADD-S(%) | CD(cm) |
|---|---|---|---|---|
| MonST3R (GT depth+CoTr3) | 37.12 | 13.9 | 54.83 | 1.3 |
| SpatialTrackerV2 (GT depth) | 29.71 | 9.88 | 60.98 | 0.8 |
| BundleSDF (GT mask) | 22.84 | 17.1 | 53.12 | 1.4 |
| FunREC | 78.96 | 3.2 | 79.43 | 0.7 |
ADD-S 精度翻倍以上,Chamfer Distance 大幅降低。
运动部件分割¶
| 方法 | OmniFun4D mIoU | HOI4D mIoU | RealFun4D mIoU |
|---|---|---|---|
| MonST3R | 23.6 | 26.8 | 23.7 |
| SpatialTrackerV2 (SAM2) | 6.2 | 5.8 | 13.4 |
| FunREC | 77.9 | 76.4 | 74.8 |
mIoU 提升 50+ 个百分点。
关键发现¶
- FunREC 在所有三个数据集(合成/受控/真实)和所有四个评估任务上都以大幅度领先基线
- 基线方法的失败率很高(BundleSDF 在 OmniFun4D 上 55%),而 FunREC 接近零失败率
- 即使给基线提供 GT depth 和 GT mask 这样的有利条件,FunREC 仍然大幅领先
- 联合优化位姿和关节参数是性能跃升的关键,简单地用 3D tracker + RANSAC 拟合关节参数远远不够
亮点与洞察¶
- "交互即监督"的范式:不需要多次扫描或手动标注,人的交互行为本身就是功能性理解的最佳监督信号。这一思路可以迁移到其他需要理解物体功能的任务
- 无需训练的系统设计:完全基于现有基础模型(VLM、TAPIP3D、SAM2、RoMA、PREDATOR)的能力组合,不训练任何新模型,展示了基础模型组合的强大潜力
- 从稀疏到稠密的分割策略:稀疏3D轨迹→区域级投票→SAM2 视频传播的三步策略,巧妙地解决了从噪声稀疏信号获得精确稠密分割的问题
- 新数据集贡献:RealFun4D(351个真实交互视频,4个国家60个公寓)和 OmniFun4D(127个仿真交互序列)填补了功能性场景理解的数据空白
局限与展望¶
- 依赖 RGB-D 输入(需要深度传感器),限制了实际部署场景
- 每次只处理单个铰接部件的交互,无法同时处理多个部件同时运动的复杂场景
- VLM 的关节类型分类可能出错,会导致下游全部失败
- 对于非常小的运动(阈值 \(\epsilon_s\) 以下)或完全被手遮挡的部件可能检测不到
- 3D 点追踪器在有遮挡时可能不准确,虽然管线中有过滤机制,但强遮挡仍然是挑战
相关工作与启发¶
- vs MultiScan:后者需要同一房间扫描两次+手动对齐,FunREC 从一段交互视频自动完成全部流程,实用性大幅提升
- vs BundleSDF:后者需要 GT mask 和固定相机,且假设物体已被预扫描。FunREC 无需任何先验信息,在更难的设置下仍大幅领先
- vs ArtGS:后者需要两个静态状态的多视图(开和关),FunREC 处理连续视频,更自然也更实用
- vs 4D重建方法 (MonST3R):这些方法缺乏对铰接语义的理解,无法区分旋转/平移关节,更无法估计关节参数
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次从自我中心交互视频直接重建场景级功能性数字孪生
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集(含两个新数据集)、四个评估任务、多个基线对比,差距巨大且一致
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验结果令人信服
- 价值: ⭐⭐⭐⭐⭐ 对具身智能和机器人场景理解有重要推动作用,应用演示(URDF导出、机器人交互)展示了实际价值
相关论文¶
- [CVPR 2026] MotionScale: Reconstructing Appearance, Geometry, and Motion of Dynamic Scenes with Scalable 4D Gaussian Splatting
- [CVPR 2026] Human Interaction-Aware 3D Reconstruction from a Single Image
- [CVPR 2025] Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning
- [CVPR 2026] DeepShapeMatchingKit: Accelerated Functional Map Solver and Shape Matching Pipelines Revisited
- [CVPR 2026] CrowdGaussian: Reconstructing High-Fidelity 3D Gaussians for Human Crowd from a Single Image