跳转至

FunREC: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos

会议: CVPR 2026
arXiv: 2604.05621
代码: https://functionalscenes.github.io/
领域: 3D视觉
关键词: 功能性3D重建, 自我中心视频, 关节物体重建, 数字孪生, 运动估计

一句话总结

本文提出 FunREC,一个无需训练的优化式方法,直接从自我中心 RGB-D 交互视频中重建功能性的铰接式 3D 数字孪生场景——自动发现铰接部件、估计运动学参数、追踪 3D 运动并重建静态和运动几何,在所有基准上大幅超越先前方法(部件分割 mIoU 提升 50+,关节角度误差降低 5-10 倍),并支持仿真导出和机器人交互。

研究背景与动机

  1. 领域现状:3D 场景重建取得了长足进展,但现有大规模 RGB-D 数据集(ScanNet、ARKitScenes 等)仅捕获环境的单一静态状态,无法表达门的开合、抽屉的滑动等功能性交互。数字孪生要求不仅捕获几何,还要理解物体如何运动和铰接。

  2. 现有痛点:(1)MultiScan 需要同一房间拍两次(开/关状态)并手动对齐标注,效率极低;(2)SceneFun3D/Articulate3D 在静态 LiDAR 扫描上标注功能性信息,但无法直接观察到运动学属性;(3)digital cousins 方法检索 CAD 代理模型来替代,与实际几何只有松散关联;(4)物体级铰接重建方法普遍假设控制环境、固定相机或已知 CAD 模型,无法处理野外场景级别的重建。

  3. 核心矛盾:人类交互自然地揭示了哪些部件会运动、绕什么关节运动、暴露了什么内部体积——这些丰富的信号没有被利用。现有方法要么依赖多次扫描+手动标注,要么依赖 CAD 检索这种弱代理。

  4. 本文目标 能否从一段普通的自我中心交互视频中,自动重建出完整的、可交互的、物理仿真兼容的功能性 3D 数字孪生?

  5. 切入角度:人类交互提供了最直接和丰富的功能性监督信号。当人们操作环境时,自我中心观察自然揭示了铰接信息。FunREC 利用视觉基础模型的语义和运动先验,无需训练即可完成整个 pipeline。

  6. 核心 idea:通过将自我中心交互视频分段、用基础模型的语义和运动先验发现铰接部件并追踪其运动、联合优化部件位姿和关节参数,直接从视频重建功能性 3D 数字孪生。

方法详解

整体框架

FunREC 是一个无需训练的优化式 pipeline。输入为自我中心 RGB-D 交互视频。流程为:(1)将视频分为静态和动态片段;(2)对每个动态片段执行相机位姿估计、稀疏 3D 轨迹计算、铰接感知运动聚类以发现运动部件;(3)对发现的运动部件进行像素级分割、位姿和关节参数联合优化;(4)分别重建静态场景和运动部件的 TSDF 体积;(5)全局对齐所有片段得到统一的功能性数字孪生。

关键设计

  1. 片段构建与动态/静态分类

    • 功能:将长视频分解为可独立处理的片段,自动识别交互发生的时间段和关节类型
    • 核心思路:使用视觉-语言模型(VLM)自动将视频分为交互片段(动态)和无交互片段(静态),同时预测每个交互的关节类型(旋转 revolute 或平移 prismatic)
    • 设计动机:分片段处理降低了问题复杂度,利用 VLM 的语义理解自动化了原本需要手动标注的步骤
  2. 铰接感知运动聚类

    • 功能:从稀疏 3D 点轨迹中发现运动部件,并将其与静态背景分离
    • 核心思路:首先用 TAPIP3D 获取稀疏 3D 点轨迹。过滤掉运动量小于阈值 \(\epsilon_s\) 的静态点。对每个运动点拟合独立的关节假设(直线/圆弧),保留拟合误差低于 \(\epsilon_f\) 的点。然后用 HDBSCAN 按关节参数(轴向、枢轴点、运动模式)的相似性进行聚类。通过比较每个聚类与 VISOR 提供的交互物体 mask 的一致性得分 \(s_\gamma\),选出得分最高的聚类作为被操作的运动部件
    • 设计动机:直接从几何层面发现运动部件,比依赖分割模型更鲁棒。HDBSCAN 不需要预设聚类数,适合未知数量的运动部件
  3. 像素对齐的部件分割

    • 功能:从稀疏的运动轨迹获得稠密的像素级运动部件 mask
    • 核心思路:在选定的关键帧上用 SAM 的自动 mask 生成器进行过分割。将运动点和静态点投影到关键帧上,统计每个分割区域中运动点和静态点的比例 \(\gamma_r = n_r^m / (n_r^m + n_r^s + \epsilon)\),超过阈值 \(\eta_m\) 的区域被标记为运动部件。关键帧 mask 作为 prompt 输入 SAM2 的视频传播模块,生成时间一致的稠密分割序列
    • 设计动机:稀疏轨迹直接投影可能有噪声和遮挡问题,通过与 SAM 的过分割结合,用"区域级投票"代替"点级投影",大幅提高分割鲁棒性
  4. 部件位姿与关节参数联合优化

    • 功能:从带噪声的3D轨迹恢复全局一致的部件位姿序列和关节参数
    • 核心思路:为每对帧构建 3D-3D 对应并用 SupeRANSAC 估计相对变换。构建位姿图优化目标 \(\mathcal{L}(T^m, L^m, \phi^m)\),包含相邻帧约束、回环约束(带可优化的置信度 \(l_{ij}^m\))以及关节参数约束。用 Ceres Solver 进行非线性优化,使用流形优化保证关节参数(如旋转轴在单位球上、角度在单位圆上)的约束
    • 设计动机:单独的逐帧估计会产生累计漂移,联合优化位姿图和关节参数确保时间一致性和物理合理性

损失函数 / 训练策略

  • FunREC 是无需训练的优化方法,核心优化目标为位姿图能量 \(\mathcal{L} = \sum_i f(T_i^m, T_{i+1}^m, T_{i \to i+1}^m) + \sum_{i,j} l_{ij}^m f(T_i^m, T_j^m, T_{i \to j}^m) + \mu \sum_{i,j}(\sqrt{l_{ij}^m} - 1)^2\)
  • 静态背景和运动部件分别使用 TSDF volume 重建
  • 全局片段对齐使用 PREDATOR 提取几何对应

实验关键数据

主实验——关节运动估计

方法 OmniFun4D轴误差(°) 位置误差(m) 状态误差(°/m) 失败率(%)
MonST3R (CoTr3) 46.8/58.9 1.20 45.3/0.18 11.7
BundleSDF (GT mask) 38.2/55.9 0.95 23.4/0.20 55.0
FunREC 5.3/5.4 0.03 5.0/0.02 1.7

FunREC 的轴方向误差仅 5.3°,比 BundleSDF 低 30° 以上;位置误差低一个数量级。

6D部件位姿与重建质量

方法 OmniFun4D ADD-S(%) CD(cm) HOI4D ADD-S(%) CD(cm)
MonST3R (GT depth+CoTr3) 37.12 13.9 54.83 1.3
SpatialTrackerV2 (GT depth) 29.71 9.88 60.98 0.8
BundleSDF (GT mask) 22.84 17.1 53.12 1.4
FunREC 78.96 3.2 79.43 0.7

ADD-S 精度翻倍以上,Chamfer Distance 大幅降低。

运动部件分割

方法 OmniFun4D mIoU HOI4D mIoU RealFun4D mIoU
MonST3R 23.6 26.8 23.7
SpatialTrackerV2 (SAM2) 6.2 5.8 13.4
FunREC 77.9 76.4 74.8

mIoU 提升 50+ 个百分点。

关键发现

  • FunREC 在所有三个数据集(合成/受控/真实)和所有四个评估任务上都以大幅度领先基线
  • 基线方法的失败率很高(BundleSDF 在 OmniFun4D 上 55%),而 FunREC 接近零失败率
  • 即使给基线提供 GT depth 和 GT mask 这样的有利条件,FunREC 仍然大幅领先
  • 联合优化位姿和关节参数是性能跃升的关键,简单地用 3D tracker + RANSAC 拟合关节参数远远不够

亮点与洞察

  • "交互即监督"的范式:不需要多次扫描或手动标注,人的交互行为本身就是功能性理解的最佳监督信号。这一思路可以迁移到其他需要理解物体功能的任务
  • 无需训练的系统设计:完全基于现有基础模型(VLM、TAPIP3D、SAM2、RoMA、PREDATOR)的能力组合,不训练任何新模型,展示了基础模型组合的强大潜力
  • 从稀疏到稠密的分割策略:稀疏3D轨迹→区域级投票→SAM2 视频传播的三步策略,巧妙地解决了从噪声稀疏信号获得精确稠密分割的问题
  • 新数据集贡献:RealFun4D(351个真实交互视频,4个国家60个公寓)和 OmniFun4D(127个仿真交互序列)填补了功能性场景理解的数据空白

局限与展望

  • 依赖 RGB-D 输入(需要深度传感器),限制了实际部署场景
  • 每次只处理单个铰接部件的交互,无法同时处理多个部件同时运动的复杂场景
  • VLM 的关节类型分类可能出错,会导致下游全部失败
  • 对于非常小的运动(阈值 \(\epsilon_s\) 以下)或完全被手遮挡的部件可能检测不到
  • 3D 点追踪器在有遮挡时可能不准确,虽然管线中有过滤机制,但强遮挡仍然是挑战

相关工作与启发

  • vs MultiScan:后者需要同一房间扫描两次+手动对齐,FunREC 从一段交互视频自动完成全部流程,实用性大幅提升
  • vs BundleSDF:后者需要 GT mask 和固定相机,且假设物体已被预扫描。FunREC 无需任何先验信息,在更难的设置下仍大幅领先
  • vs ArtGS:后者需要两个静态状态的多视图(开和关),FunREC 处理连续视频,更自然也更实用
  • vs 4D重建方法 (MonST3R):这些方法缺乏对铰接语义的理解,无法区分旋转/平移关节,更无法估计关节参数

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次从自我中心交互视频直接重建场景级功能性数字孪生
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集(含两个新数据集)、四个评估任务、多个基线对比,差距巨大且一致
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验结果令人信服
  • 价值: ⭐⭐⭐⭐⭐ 对具身智能和机器人场景理解有重要推动作用,应用演示(URDF导出、机器人交互)展示了实际价值

相关论文