CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives¶

会议: ICLR 2026
arXiv: 2512.14696
代码: 有（项目页面）
领域: 3D 视觉 / Real2Sim
关键词: Real2Sim, 单目视频, 平面场景原语, 人体-场景交互, 强化学习人形控制

一句话总结¶

提出 CRISP，一种从单目视频中恢复可仿真人体运动和场景几何的方法，通过拟合平面原语获取干净的仿真就绪几何体，结合人体-场景接触建模重建被遮挡区域，将人形控制器的运动追踪失败率从 55.2% 降至 6.9%。

研究背景与动机¶

Real2Sim（从真实环境到仿真环境的转换）是机器人学和 AR/VR 领域的核心问题。从单目视频中恢复可以用于物理仿真的人体运动和场景几何，对于机器人策略训练、运动重定向和虚拟现实内容创作具有重要价值。

现有痛点：

基于数据驱动先验的联合优化方法：依赖学习到的先验对人体和场景进行联合重建，但没有物理引擎参与（no physics in the loop），导致重建结果可能在物理上不合理（如人体穿透物体）。

直接几何重建方法：虽然可以恢复场景几何，但结果通常包含噪声和伪影（artifacts），这些不干净的几何体在喂入运动追踪策略时会导致场景交互失败。例如，椅子表面的凹凸不平会使人形控制器坐下时发生物理碰撞异常。

核心矛盾：现有方法要么缺乏物理合理性，要么生成的几何体不够"干净"——无法直接用于物理仿真中的交互。

核心 idea：通过拟合平面原语（planar primitives）到场景点云来获取凸面、干净、仿真就绪的几何体，并利用人体-场景接触建模来恢复交互过程中被遮挡的几何部分。

方法详解¶

整体框架¶

输入：单目视频（RGB）。输出：可仿真的人体运动序列 + 干净的场景几何表示。Pipeline 包含三个主要阶段：（1）场景几何重建（平面原语拟合），（2）遮挡区域恢复（接触引导），（3）物理验证（人形控制器 + RL）。

关键设计¶

平面原语拟合（Planar Primitive Fitting）：
- 首先使用现有方法从视频中获取稠密点云重建
- 对点云进行简单的聚类 pipeline：基于深度（depth）、法线（normals）和光流（flow）三个特征
- 对每个聚类区域拟合一个平面原语（planar primitive）
- 最终得到由凸平面组成的简洁场景表示
- 设计动机：平面原语天然是凸的、干净的，非常适合物理仿真引擎处理。相比 mesh 或隐式表示，平面原语没有噪声伪影，碰撞检测高效且稳定
- 额外优势：仿真吞吐量提升 43%，因为凸几何体的碰撞检测比复杂 mesh 快得多
接触引导的遮挡重建（Contact-Guided Occlusion Recovery）：
- 人与场景交互时，部分场景几何会被人体遮挡（如坐下时椅子座面被遮挡）
- 利用人体-场景接触建模来推断被遮挡的几何
- 核心思想：人体姿态本身编码了场景几何信息——例如，坐姿可以用来推断椅子座面的位置和形状
- 通过估计人体关节与场景的接触点，反推场景中被遮挡部分的平面位置
- 这种方法不依赖场景的先验 CAD 模型或模板
物理验证：人形控制器 + 强化学习：
- 使用恢复的人体运动和场景几何来驱动人形控制器
- 通过强化学习（RL）训练控制策略，使人形角色在重建的场景中追踪原始视频中的运动
- 这一步既是验证手段（如果重建质量差，RL 策略会失败），也是输出产品（生成可仿真的人体运动）
- 物理仿真确保最终结果的物理合理性：无穿透、有平衡、接触合理

损失函数 / 训练策略¶

聚类阶段：基于深度、法线和光流特征的距离度量进行无监督聚类
平面拟合：最小二乘法拟合每个聚类的平面参数
RL 控制器训练：标准 PPO 或类似策略梯度方法，奖励函数包含运动追踪误差、物理合理性惩罚（如穿透、失去平衡）

实验关键数据¶

主实验¶

在人体中心视频基准 EMDB 和 PROX 上评估：

方法	运动追踪失败率↓	RL 仿真吞吐量	说明
先前方法（噪声几何）	55.2%	基线	几何伪影导致频繁失败
CRISP（本文）	6.9%	+43% 更快	干净几何大幅降低失败

在野视频验证¶

视频类型	验证结果	说明
随意拍摄的日常视频	成功	泛化到非受控环境
互联网视频	成功	泛化到多样场景
Sora 生成的视频	成功	甚至适用于 AI 生成内容

消融实验¶

配置	关键指标	说明
无平面原语（原始 mesh）	失败率大幅上升	验证平面原语的关键作用
无接触引导重建	交互场景效果差	遮挡区域恢复对交互必要
无 RL 验证（直接输出）	物理不合理穿透	RL 确保物理真实性
不同聚类特征组合	深度+法线+光流最优	三特征互补

关键发现¶

平面原语是 Real2Sim 场景表示的理想选择：干净、凸面、高效
人体姿态是推断被遮挡场景几何的强大信号
运动追踪失败率从 55.2% 降至 6.9%，降幅巨大（约 88% 的相对改善）
仿真吞吐量提升 43% 来自凸几何体更高效的碰撞检测
方法在 in-the-wild 视频上泛化良好，包括 Sora 这样的生成视频
整个 pipeline 不依赖 CAD 模型库或场景类别先验

亮点与洞察¶

"用平面原语代替复杂 mesh"的 insight 简洁而有力——在合理损失细节精度的前提下，大幅提升仿真兼容性
接触引导的遮挡重建是关键创新——利用人体姿态作为场景的"模具"来推断被遮挡几何
将 RL 人形控制器作为物理合理性的验证器，形成有意义的闭环
在 Sora 生成视频上的成功验证展示了方法的泛化潜力和前瞻性
深度+法线+光流的聚类特征组合设计简洁但有效
方法能大规模生成物理有效的人体运动和交互环境，对机器人和 AR/VR 有直接应用价值

局限与展望¶

平面原语假设限制了对曲面物体（如球体、圆柱）的表示能力
依赖前端点云重建的质量，如果深度估计不准则后续都会受影响
接触建模基于人体姿态推断，对非接触的远距离遮挡无法处理
聚类 pipeline 中的超参数（如聚类数、距离阈值）可能需要针对不同场景调整
暂未处理动态场景（如移动物体）
RL 控制器的训练本身需要较多计算资源
未来可扩展到多人交互场景和更复杂的物体操作

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐