跳转至

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

会议: ICLR 2026
arXiv: 2512.14696
代码: 有(项目页面)
领域: 3D 视觉 / Real2Sim
关键词: Real2Sim, 单目视频, 平面场景原语, 人体-场景交互, 强化学习人形控制

一句话总结

提出 CRISP,一种从单目视频中恢复可仿真人体运动和场景几何的方法,通过拟合平面原语获取干净的仿真就绪几何体,结合人体-场景接触建模重建被遮挡区域,将人形控制器的运动追踪失败率从 55.2% 降至 6.9%。

研究背景与动机

Real2Sim(从真实环境到仿真环境的转换)是机器人学和 AR/VR 领域的核心问题。从单目视频中恢复可以用于物理仿真的人体运动和场景几何,对于机器人策略训练、运动重定向和虚拟现实内容创作具有重要价值。

现有痛点

基于数据驱动先验的联合优化方法:依赖学习到的先验对人体和场景进行联合重建,但没有物理引擎参与(no physics in the loop),导致重建结果可能在物理上不合理(如人体穿透物体)。

直接几何重建方法:虽然可以恢复场景几何,但结果通常包含噪声和伪影(artifacts),这些不干净的几何体在喂入运动追踪策略时会导致场景交互失败。例如,椅子表面的凹凸不平会使人形控制器坐下时发生物理碰撞异常。

核心矛盾:现有方法要么缺乏物理合理性,要么生成的几何体不够"干净"——无法直接用于物理仿真中的交互。

核心 idea:通过拟合平面原语(planar primitives)到场景点云来获取凸面、干净、仿真就绪的几何体,并利用人体-场景接触建模来恢复交互过程中被遮挡的几何部分。

方法详解

整体框架

输入:单目视频(RGB)。输出:可仿真的人体运动序列 + 干净的场景几何表示。Pipeline 包含三个主要阶段:(1)场景几何重建(平面原语拟合),(2)遮挡区域恢复(接触引导),(3)物理验证(人形控制器 + RL)。

关键设计

  1. 平面原语拟合(Planar Primitive Fitting)

    • 首先使用现有方法从视频中获取稠密点云重建
    • 对点云进行简单的聚类 pipeline:基于深度(depth)、法线(normals)和光流(flow)三个特征
    • 对每个聚类区域拟合一个平面原语(planar primitive)
    • 最终得到由凸平面组成的简洁场景表示
    • 设计动机:平面原语天然是凸的、干净的,非常适合物理仿真引擎处理。相比 mesh 或隐式表示,平面原语没有噪声伪影,碰撞检测高效且稳定
    • 额外优势:仿真吞吐量提升 43%,因为凸几何体的碰撞检测比复杂 mesh 快得多
  2. 接触引导的遮挡重建(Contact-Guided Occlusion Recovery)

    • 人与场景交互时,部分场景几何会被人体遮挡(如坐下时椅子座面被遮挡)
    • 利用人体-场景接触建模来推断被遮挡的几何
    • 核心思想:人体姿态本身编码了场景几何信息——例如,坐姿可以用来推断椅子座面的位置和形状
    • 通过估计人体关节与场景的接触点,反推场景中被遮挡部分的平面位置
    • 这种方法不依赖场景的先验 CAD 模型或模板
  3. 物理验证:人形控制器 + 强化学习

    • 使用恢复的人体运动和场景几何来驱动人形控制器
    • 通过强化学习(RL)训练控制策略,使人形角色在重建的场景中追踪原始视频中的运动
    • 这一步既是验证手段(如果重建质量差,RL 策略会失败),也是输出产品(生成可仿真的人体运动)
    • 物理仿真确保最终结果的物理合理性:无穿透、有平衡、接触合理

损失函数 / 训练策略

  • 聚类阶段:基于深度、法线和光流特征的距离度量进行无监督聚类
  • 平面拟合:最小二乘法拟合每个聚类的平面参数
  • RL 控制器训练:标准 PPO 或类似策略梯度方法,奖励函数包含运动追踪误差、物理合理性惩罚(如穿透、失去平衡)

实验关键数据

主实验

在人体中心视频基准 EMDB 和 PROX 上评估:

方法 运动追踪失败率↓ RL 仿真吞吐量 说明
先前方法(噪声几何) 55.2% 基线 几何伪影导致频繁失败
CRISP(本文) 6.9% +43% 更快 干净几何大幅降低失败

在野视频验证

视频类型 验证结果 说明
随意拍摄的日常视频 成功 泛化到非受控环境
互联网视频 成功 泛化到多样场景
Sora 生成的视频 成功 甚至适用于 AI 生成内容

消融实验

配置 关键指标 说明
无平面原语(原始 mesh) 失败率大幅上升 验证平面原语的关键作用
无接触引导重建 交互场景效果差 遮挡区域恢复对交互必要
无 RL 验证(直接输出) 物理不合理穿透 RL 确保物理真实性
不同聚类特征组合 深度+法线+光流最优 三特征互补

关键发现

  • 平面原语是 Real2Sim 场景表示的理想选择:干净、凸面、高效
  • 人体姿态是推断被遮挡场景几何的强大信号
  • 运动追踪失败率从 55.2% 降至 6.9%,降幅巨大(约 88% 的相对改善)
  • 仿真吞吐量提升 43% 来自凸几何体更高效的碰撞检测
  • 方法在 in-the-wild 视频上泛化良好,包括 Sora 这样的生成视频
  • 整个 pipeline 不依赖 CAD 模型库或场景类别先验

亮点与洞察

  • "用平面原语代替复杂 mesh"的 insight 简洁而有力——在合理损失细节精度的前提下,大幅提升仿真兼容性
  • 接触引导的遮挡重建是关键创新——利用人体姿态作为场景的"模具"来推断被遮挡几何
  • 将 RL 人形控制器作为物理合理性的验证器,形成有意义的闭环
  • 在 Sora 生成视频上的成功验证展示了方法的泛化潜力和前瞻性
  • 深度+法线+光流的聚类特征组合设计简洁但有效
  • 方法能大规模生成物理有效的人体运动和交互环境,对机器人和 AR/VR 有直接应用价值

局限与展望

  • 平面原语假设限制了对曲面物体(如球体、圆柱)的表示能力
  • 依赖前端点云重建的质量,如果深度估计不准则后续都会受影响
  • 接触建模基于人体姿态推断,对非接触的远距离遮挡无法处理
  • 聚类 pipeline 中的超参数(如聚类数、距离阈值)可能需要针对不同场景调整
  • 暂未处理动态场景(如移动物体)
  • RL 控制器的训练本身需要较多计算资源
  • 未来可扩展到多人交互场景和更复杂的物体操作

相关工作与启发

  • 与 PROX、LEMO 等人体-场景交互重建工作相关,但引入物理仿真验证
  • 与 PhysDiff 等物理约束运动生成工作互补
  • 平面原语拟合的思想与传统计算几何中的平面检测相关,但应用于 Real2Sim 是新颖的
  • 启发:1)简洁的几何表示在仿真应用中往往比精细但噪声大的表示更有用;2)人体姿态作为场景的隐式编码器是值得深入探索的方向;3)RL 作为验证工具的思路可迁移到其他重建任务

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐

相关论文