跳转至

PhysInOne: Visual Physics Learning and Reasoning in One Suite

会议: CVPR 2026
arXiv: 2604.09415
代码: https://vlar-group.github.io/PhysInOne.html
领域: 多模态VLM/物理推理
关键词: 物理学习, 合成数据集, 世界模型, 视频生成, 物理推理

一句话总结

PhysInOne是一个包含153,810个动态3D场景和200万个标注视频的大规模合成数据集,覆盖力学、光学、流体动力学和磁学的71种基本物理现象,为物理感知的世界模型建立了新基准。

研究背景与动机

领域现状:当前AI模型在物理世界理解上严重不足——AI生成的视频频繁违反基本物理定律(物体向上坠落、突然变速等)。已有物理数据集规模极小(几百到几千样本),限制了物理学习的进展。

现有痛点:缺乏大规模、高质量的训练数据来覆盖各种物理对象、场景和物理现象。现有数据集要么仅涉及单一物理现象(如碰撞),要么使用简单几何体,无法反映真实世界的复杂性。

核心矛盾:物理感知AI需要在多样化场景中学习多种物理现象的联合效果,但数据集规模不足以支撑。

本文目标:创建一个比现有数据集大数个数量级的合成物理数据集,覆盖日常生活中的绝大多数物理现象。

切入角度:基于大学物理教材系统性地识别71种关键物理现象,使用物理引擎生成严格遵循物理定律的动态3D场景。

核心idea:规模化合成物理数据+多对象复杂交互+完整的真值标注,为物理感知世界模型提供数据基础设施。

方法详解

整体框架

PhysInOne的构建流程:(1) 从物理教材识别4大领域71种现象;(2) 设计153,810个多对象交互的3D场景;(3) 每个场景录制13个视频(12固定+1运动相机);(4) 人工标注文本描述;(5) 自动生成几何、语义、运动、物理属性等标注。

关键设计

  1. 系统性物理现象覆盖:

    • 功能:确保数据集覆盖日常生活中所有相关的视觉物理现象
    • 核心思路:基于《Fundamentals of Physics》教材和相关研究,聚焦力学、光学、流体动力学和磁学四大领域。排除热力学和声学(非视觉/需额外传感数据)。识别出重力、反射、浮力、磁引力等71种关键现象
    • 设计动机:前人数据集通常只覆盖1-9种物理现象,PhysInOne旨在接近完整覆盖
  2. 多对象复杂场景设计:

    • 功能:反映真实世界中多物理现象同时/顺序发生的特性
    • 核心思路:每个场景包含多个对象,在复杂背景下进行多物理现象交互。所有动力学严格遵循牛顿定律、质量守恒、角动量守恒、胡克定律等基本物理定律。使用复杂几何物体而非简单基元
    • 设计动机:真实世界中物理现象往往是耦合的,单一现象的数据集无法训练出具有泛化能力的模型
  3. 全方位标注体系:

    • 功能:支持多种下游任务和评估
    • 核心思路:每个场景提供3D网格、运动轨迹、2D掩码、材质属性、深度图、相机姿态、文本描述等完整标注。200万视频的标注规模比所有现有物理数据集大数个数量级
    • 设计动机:完整标注使PhysInOne不仅是训练数据,还是评估物理理解能力的全面基准

损失函数 / 训练策略

PhysInOne本身是数据集而非模型。论文展示了在四个应用上的微调效果,使用各任务对应的标准训练策略。

实验关键数据

主实验

应用 模型 PhysInOne微调后 效果
物理感知视频生成 SVD/CogVideoX/WAN 物理合理性显著提升 运动更符合物理定律
未来帧预测 TiNeuVox/DefGS等 预测质量提升 时空一致性增强
物理属性估计 多种模型 暴露关键差距 内在属性估计仍困难
运动迁移 多种模型 效果提升 物理合理的运动转移

消融实验

配置 关键指标 说明
无PhysInOne微调 物理违反频繁 基础模型缺乏物理知识
少量子集微调 部分提升 数据量与物理理解正相关
完整微调 最优 大规模数据显著增益

关键发现

  • 在PhysInOne上微调显著提升了视频生成的物理合理性,证明了规模化合成物理数据的价值
  • 基础模型在内在物理属性(质量、摩擦力等)的估计上仍然存在根本性差距
  • 复杂多物理现象场景是当前模型最困难的场景,单一现象训练不足以泛化

亮点与洞察

  • 数量级的规模优势:153K场景/200万视频,比最大的前人数据集大几个数量级
  • 系统性的物理覆盖:71种现象覆盖日常物理的绝大部分,可作为物理AI的标准化训练数据
  • 暴露关键差距:实验同时展示了基础模型在物理推理上的进步和根本局限,为未来研究指明方向

局限与展望

  • 合成数据与真实物理仍存在域差距
  • 排除了热力学和声学,非视觉物理现象未覆盖
  • 文本描述为人工标注,可能成为扩展瓶颈

相关工作与启发

  • vs CLEVRER: CLEVRER仅覆盖碰撞一种现象,10K场景。PhysInOne覆盖71种现象,15万场景
  • vs Physion++: Physion++覆盖9种现象但使用简单对象,PhysInOne使用复杂几何和多对象交互

评分

  • 新颖性: ⭐⭐⭐⭐ 规模和覆盖范围的突破性提升
  • 实验充分度: ⭐⭐⭐⭐ 四种应用任务的全面验证
  • 写作质量: ⭐⭐⭐⭐ 组织清晰,动机充分
  • 价值: ⭐⭐⭐⭐⭐ 作为物理AI的基础设施级贡献

相关论文