CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives¶
会议: ICLR 2026
arXiv: 2512.14696
代码: 有(项目页面)
领域: 3D 视觉 / Real2Sim
关键词: Real2Sim, 单目视频, 平面场景原语, 人体-场景交互, 强化学习人形控制
一句话总结¶
提出 CRISP,一种从单目视频中恢复可仿真人体运动和场景几何的方法,通过拟合平面原语获取干净的仿真就绪几何体,结合人体-场景接触建模重建被遮挡区域,将人形控制器的运动追踪失败率从 55.2% 降至 6.9%。
研究背景与动机¶
Real2Sim(从真实环境到仿真环境的转换)是机器人学和 AR/VR 领域的核心问题。从单目视频中恢复可以用于物理仿真的人体运动和场景几何,对于机器人策略训练、运动重定向和虚拟现实内容创作具有重要价值。
现有痛点:
基于数据驱动先验的联合优化方法:依赖学习到的先验对人体和场景进行联合重建,但没有物理引擎参与(no physics in the loop),导致重建结果可能在物理上不合理(如人体穿透物体)。
直接几何重建方法:虽然可以恢复场景几何,但结果通常包含噪声和伪影(artifacts),这些不干净的几何体在喂入运动追踪策略时会导致场景交互失败。例如,椅子表面的凹凸不平会使人形控制器坐下时发生物理碰撞异常。
核心矛盾:现有方法要么缺乏物理合理性,要么生成的几何体不够"干净"——无法直接用于物理仿真中的交互。
核心 idea:通过拟合平面原语(planar primitives)到场景点云来获取凸面、干净、仿真就绪的几何体,并利用人体-场景接触建模来恢复交互过程中被遮挡的几何部分。
方法详解¶
整体框架¶
输入:单目视频(RGB)。输出:可仿真的人体运动序列 + 干净的场景几何表示。Pipeline 包含三个主要阶段:(1)场景几何重建(平面原语拟合),(2)遮挡区域恢复(接触引导),(3)物理验证(人形控制器 + RL)。
关键设计¶
-
平面原语拟合(Planar Primitive Fitting):
- 首先使用现有方法从视频中获取稠密点云重建
- 对点云进行简单的聚类 pipeline:基于深度(depth)、法线(normals)和光流(flow)三个特征
- 对每个聚类区域拟合一个平面原语(planar primitive)
- 最终得到由凸平面组成的简洁场景表示
- 设计动机:平面原语天然是凸的、干净的,非常适合物理仿真引擎处理。相比 mesh 或隐式表示,平面原语没有噪声伪影,碰撞检测高效且稳定
- 额外优势:仿真吞吐量提升 43%,因为凸几何体的碰撞检测比复杂 mesh 快得多
-
接触引导的遮挡重建(Contact-Guided Occlusion Recovery):
- 人与场景交互时,部分场景几何会被人体遮挡(如坐下时椅子座面被遮挡)
- 利用人体-场景接触建模来推断被遮挡的几何
- 核心思想:人体姿态本身编码了场景几何信息——例如,坐姿可以用来推断椅子座面的位置和形状
- 通过估计人体关节与场景的接触点,反推场景中被遮挡部分的平面位置
- 这种方法不依赖场景的先验 CAD 模型或模板
-
物理验证:人形控制器 + 强化学习:
- 使用恢复的人体运动和场景几何来驱动人形控制器
- 通过强化学习(RL)训练控制策略,使人形角色在重建的场景中追踪原始视频中的运动
- 这一步既是验证手段(如果重建质量差,RL 策略会失败),也是输出产品(生成可仿真的人体运动)
- 物理仿真确保最终结果的物理合理性:无穿透、有平衡、接触合理
损失函数 / 训练策略¶
- 聚类阶段:基于深度、法线和光流特征的距离度量进行无监督聚类
- 平面拟合:最小二乘法拟合每个聚类的平面参数
- RL 控制器训练:标准 PPO 或类似策略梯度方法,奖励函数包含运动追踪误差、物理合理性惩罚(如穿透、失去平衡)
实验关键数据¶
主实验¶
在人体中心视频基准 EMDB 和 PROX 上评估:
| 方法 | 运动追踪失败率↓ | RL 仿真吞吐量 | 说明 |
|---|---|---|---|
| 先前方法(噪声几何) | 55.2% | 基线 | 几何伪影导致频繁失败 |
| CRISP(本文) | 6.9% | +43% 更快 | 干净几何大幅降低失败 |
在野视频验证¶
| 视频类型 | 验证结果 | 说明 |
|---|---|---|
| 随意拍摄的日常视频 | 成功 | 泛化到非受控环境 |
| 互联网视频 | 成功 | 泛化到多样场景 |
| Sora 生成的视频 | 成功 | 甚至适用于 AI 生成内容 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无平面原语(原始 mesh) | 失败率大幅上升 | 验证平面原语的关键作用 |
| 无接触引导重建 | 交互场景效果差 | 遮挡区域恢复对交互必要 |
| 无 RL 验证(直接输出) | 物理不合理穿透 | RL 确保物理真实性 |
| 不同聚类特征组合 | 深度+法线+光流最优 | 三特征互补 |
关键发现¶
- 平面原语是 Real2Sim 场景表示的理想选择:干净、凸面、高效
- 人体姿态是推断被遮挡场景几何的强大信号
- 运动追踪失败率从 55.2% 降至 6.9%,降幅巨大(约 88% 的相对改善)
- 仿真吞吐量提升 43% 来自凸几何体更高效的碰撞检测
- 方法在 in-the-wild 视频上泛化良好,包括 Sora 这样的生成视频
- 整个 pipeline 不依赖 CAD 模型库或场景类别先验
亮点与洞察¶
- "用平面原语代替复杂 mesh"的 insight 简洁而有力——在合理损失细节精度的前提下,大幅提升仿真兼容性
- 接触引导的遮挡重建是关键创新——利用人体姿态作为场景的"模具"来推断被遮挡几何
- 将 RL 人形控制器作为物理合理性的验证器,形成有意义的闭环
- 在 Sora 生成视频上的成功验证展示了方法的泛化潜力和前瞻性
- 深度+法线+光流的聚类特征组合设计简洁但有效
- 方法能大规模生成物理有效的人体运动和交互环境,对机器人和 AR/VR 有直接应用价值
局限与展望¶
- 平面原语假设限制了对曲面物体(如球体、圆柱)的表示能力
- 依赖前端点云重建的质量,如果深度估计不准则后续都会受影响
- 接触建模基于人体姿态推断,对非接触的远距离遮挡无法处理
- 聚类 pipeline 中的超参数(如聚类数、距离阈值)可能需要针对不同场景调整
- 暂未处理动态场景(如移动物体)
- RL 控制器的训练本身需要较多计算资源
- 未来可扩展到多人交互场景和更复杂的物体操作
相关工作与启发¶
- 与 PROX、LEMO 等人体-场景交互重建工作相关,但引入物理仿真验证
- 与 PhysDiff 等物理约束运动生成工作互补
- 平面原语拟合的思想与传统计算几何中的平面检测相关,但应用于 Real2Sim 是新颖的
- 启发:1)简洁的几何表示在仿真应用中往往比精细但噪声大的表示更有用;2)人体姿态作为场景的隐式编码器是值得深入探索的方向;3)RL 作为验证工具的思路可迁移到其他重建任务
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐
相关论文¶
- [ICCV 2025] Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting
- [ICCV 2025] SuperDec: 3D Scene Decomposition with Superquadric Primitives
- [CVPR 2026] 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
- [ICLR 2026] SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation
- [NeurIPS 2025] PlanarGS: High-Fidelity Indoor 3D Gaussian Splatting Guided by Vision-Language Planar Priors