MonoMobility: Zero-Shot 3D Mobility Analysis from Monocular Videos¶
会议: ICCV 2025
arXiv: 2505.11868
代码: https://monomobility.github.io/MonoMobility (项目页)
领域: 3D视觉 / 关节物体分析
关键词: 关节物体分析, 单目视频, 零样本, 运动属性估计, 2D高斯泼溅
一句话总结¶
MonoMobility提出首个从单目视频零样本分析关节物体运动部件及运动属性(运动轴和运动类型)的框架,通过组合深度估计、光流分割等现成工具进行初始分析,再用2D高斯泼溅和专门设计的关节物体动态场景优化算法自监督精细化结果,无需任何标注数据即可处理旋转、平移和复合运动。
研究背景与动机¶
领域现状:准确解析动态环境中关节物体的运动部件及运动属性是具身智能和机器人操作的关键基础。日常环境中充满了关节物体(抽屉、旋转椅、订书机、按压瓶等),机器人与这些物体的高效交互依赖于对运动部件和运动参数的精确理解。
现有痛点:(1) 数据驱动方法(Shape2Motion、OPDMulti)依赖大规模标注数据集,对未见物体泛化差,且OPDMulti仅限可开启物体(门/窗),无法处理不规则关节物体如订书机;(2) 多视图重建方法(PARIS、Weng等)需要初始/终态的密集RGB(D)多视图图像且需精确位姿,在实际有限视野场景中获取困难,且仅限物体级别操作无法扩展到复杂场景;(3) 4D高斯泼溅方法(4D-GS、Shape of Motion)将每个高斯独立处理,未利用关节物体的部件级刚性约束。
核心矛盾:机器人通常只配备RGB相机且运行在有限视角下,需要从单目视频分析关节物体。现有方法要么需要密集多视图输入(获取困难),要么需要标注数据(昂贵且泛化差),要么处理能力受限(仅限特定物体类型)。
本文目标:实现场景级别的关节物体运动部件识别和运动属性分析,输入仅为一段单目视频,完全不需要标注数据(零样本)。
切入角度:两个关键洞察——(1) 关节物体的动态视频本身蕴含丰富的3D运动信息,可通过现成工具提取几何和运动先验进行初始分析;(2) 运动分析的准确性随估计的动态过程与真实运动模式的一致程度提高,因此可通过优化动态场景来精细化结果。
核心 idea:初始粗估计+自监督动态场景优化=零样本单目关节物体运动分析。
方法详解¶
整体框架¶
三阶段pipeline:初始分析→场景表示→端到端动态优化。输入单目视频,输出运动部件分割和运动属性(运动轴、运动类型:旋转/平移/复合)。
关键设计¶
-
初始分析与场景初始化:
- 功能:利用一系列现成方法从视频中提取几何和运动信息,构建初始的运动部件分割和运动轴估计,初始化2D高斯泼溅场景表示。
- 核心思路:相机位姿估计(DUSt3R/DROID-SLAM)→深度估计(DepthAnything)→光流分析(RAFT/FlowFormer)→光流图分割(SAM)获得运动部件mask→生成运动部件分割点云→首末帧点云配准(ICP等)初始化运动轴。初始假设所有运动部件经历复合运动(旋转+平移)。
- 设计动机:不从零训练检测器,而是最大化复用已有基础模型的能力,使方法对新类别关节物体天然具备零样本泛化能力。初始估计可能包含误分割(将静态区域误判为运动部件)和不准确的运动轴,但这些将在后续优化中被自动修正。
-
端到端动态场景优化:
- 功能:核心创新——专门为关节物体设计的自监督动态场景优化算法,通过迭代采样帧对、变换高斯、多目标联合优化来精细化运动参数。
- 核心思路:迭代随机采样帧对\((I_a, I_b)\)→根据当前运动轴和运动量将运动部件的高斯统一做刚性变换→渲染到目标帧→与真实帧比对→联合损失反向传播更新运动轴参数、运动量和高斯属性。关键区别在于同一运动部件的所有高斯共享一个刚性变换(旋转+平移),而非4D-GS那样逐高斯独立运动。
- 设计动机:关节物体的运动部件是刚体,约束同一部件所有高斯的运动一致性是强先验——既减少参数空间降低优化难度,又避免非物理的运动模式。三个损失从不同角度提供监督:渲染损失保证视觉一致,法线损失保证几何准确,运动损失保证估计动态与点云变换的一致性。
-
运动类型判定与部件裁剪:
- 功能:优化收敛后根据最终的运动量自动判定每个部件的运动类型(纯旋转/纯平移/复合),并裁剪掉误识别的运动部件。
- 核心思路:如果某个"运动部件"在优化后的累计运动量不显著(低于阈值),判定为静态区域误检,从运动部件列表中移除。对真实运动部件,根据旋转和平移分量的相对大小分类:仅旋转显著→纯旋转,仅平移显著→纯平移,两者均显著→复合运动。
- 设计动机:初始分析不可避免地引入噪声(光流分割可能过度分割),自动裁剪机制让系统具备自纠错能力。运动类型分类避免了需要预先指定物体类型的限制,使方法适用于任意关节物体。
损失函数 / 训练策略¶
- 渲染损失:将变换后的高斯渲染到目标帧,与真实帧计算RGB重建损失(L1 + SSIM),确保视觉一致性
- 法线损失:高斯法线与估计的表面法线之间的一致性损失,提升几何重建精度
- 运动损失:估计的运动变换与点云帧间配准变换之间的一致性损失,确保运动模式在独立几何估计和联合优化两个视角下吻合
- 三个损失联合优化运动轴(方向和位置)、运动量(旋转角和平移距离)、高斯属性(位置、颜色、尺度等)
实验关键数据¶
数据集¶
作者构建了综合评测数据集: - 合成场景:用模拟器生成,包含精确ground truth的运动轴和运动量 - 真实场景:多种关节物体(抽屉、门、订书机、按压瓶等),手工标注
主实验¶
| 运动类型 | 典型物体 | 能力 |
|---|---|---|
| 纯旋转 | 门、铰链、翻盖 | 准确估计旋转轴和角度 |
| 纯平移 | 抽屉、滑轨 | 准确估计平移方向和距离 |
| 复合运动 | 订书机、按压瓶 | 同时估计旋转+平移参数 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅初始分析(无优化) | 误差较大 | 运动轴方向偏差明显 |
| 加入动态优化 | 显著改进 | 轴方向和运动量均精细化 |
| 去掉法线损失 | 几何精度下降 | 导致部件边界模糊 |
| 去掉运动损失 | 运动参数不准 | 可能收敛到非物理解 |
关键发现¶
- 动态场景优化相比初始分析结果有决定性提升——证实了"通过优化动态场景来精细化分析结果"的核心洞察
- 系统在合成和真实场景上都能有效工作,对旋转、平移和复合运动均有良好处理能力
- 部件级刚性约束(vs 逐高斯独立运动)是获取物理合理运动的关键
- 零样本泛化能力使方法可处理训练集中未出现的新类别关节物体
- 方法在场景级别操作而非仅限于物体级别,更符合实际应用需求
亮点与洞察¶
- 零样本范式的设计思路值得借鉴——不训练专门的检测器/分割器,而是巧妙编排现成工具+自监督优化精细化,实现了对任意新类别的泛化
- 部件级刚性约束将关节物体先验注入到3DGS框架中——相比于4D-GS和Shape of Motion的逐点独立运动假设,这是更强更正确的归纳偏置
- 复合运动(旋转+平移)的支持扩大了适用范围——订书机、按压泵等在日常和工业场景中十分常见,之前的方法大多仅处理纯旋转或纯平移
- 自动部件裁剪和运动类型判定机制让系统具备自纠错和自分类能力——无需任何人工干预或预设物体类型
局限与展望¶
- 级联依赖——深度估计、光流、分割等上游工具的质量直接影响最终结果,任何环节的失败(如反光表面光流失败)会传导到后续步骤
- 单目视频的深度不确定性影响运动轴精度——深度缺乏绝对尺度,可能导致轴位置偏移
- 优化过程需要一定计算时间——每段视频需迭代优化数千步,不适合实时应用
- 论文缺少与现有方法的详细定量对比——大部分结果为定性可视化,缺少标准化指标下的数值比较
- 仅处理刚性关节运动——对非刚性形变(如弹性物体)不适用
相关工作与启发¶
- Shape2Motion / OPDMulti:数据驱动方法,需标注数据、泛化受限→MonoMobility通过零样本自监督避免了这些限制
- PARIS / Ditto:需密集多视图或两帧点云→MonoMobility仅需单目视频,输入要求大幅降低
- 4D-GS / Shape of Motion:逐高斯独立运动→MonoMobility的部件级刚性约束更适合关节物体
- A-SDF:神经隐式关节重建需3D监督→MonoMobility完全自监督
评分¶
- 新颖性: ⭐⭐⭐⭐ 零样本单目关节分析是新任务定义,部件级刚性约束+2DGS是新组合
- 实验充分度: ⭐⭐⭐ 数据集自建但缺乏与现有方法的标准化定量对比
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰、方法pipeline条理分明
- 价值: ⭐⭐⭐⭐ 对机器人操作和具身智能有直接应用价值
相关论文¶
- [ICCV 2025] Zero-Shot Inexact CAD Model Alignment from a Single Image
- [CVPR 2025] Zero-Shot Monocular Scene Flow Estimation in the Wild
- [ICCV 2025] One Look is Enough: Seamless Patchwise Refinement for Zero-Shot Monocular Depth Estimation on High-Resolution Images
- [ICCV 2025] Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling
- [ICCV 2025] Accelerate 3D Object Detection Models via Zero-Shot Attention Key Pruning