PhysInOne: Visual Physics Learning and Reasoning in One Suite¶

会议: CVPR 2026
arXiv: 2604.09415
代码: https://vlar-group.github.io/PhysInOne.html
领域: 多模态VLM/物理推理
关键词: 物理学习, 合成数据集, 世界模型, 视频生成, 物理推理

一句话总结¶

PhysInOne是一个包含153,810个动态3D场景和200万个标注视频的大规模合成数据集，覆盖力学、光学、流体动力学和磁学的71种基本物理现象，为物理感知的世界模型建立了新基准。

领域现状：当前AI模型在物理世界理解上严重不足——AI生成的视频频繁违反基本物理定律（物体向上坠落、突然变速等）。已有物理数据集规模极小（几百到几千样本），限制了物理学习的进展。

现有痛点：缺乏大规模、高质量的训练数据来覆盖各种物理对象、场景和物理现象。现有数据集要么仅涉及单一物理现象（如碰撞），要么使用简单几何体，无法反映真实世界的复杂性。

核心矛盾：物理感知AI需要在多样化场景中学习多种物理现象的联合效果，但数据集规模不足以支撑。

本文目标：创建一个比现有数据集大数个数量级的合成物理数据集，覆盖日常生活中的绝大多数物理现象。

切入角度：基于大学物理教材系统性地识别71种关键物理现象，使用物理引擎生成严格遵循物理定律的动态3D场景。

核心idea：规模化合成物理数据+多对象复杂交互+完整的真值标注，为物理感知世界模型提供数据基础设施。

PhysInOne的构建流程：(1) 从物理教材识别4大领域71种现象；(2) 设计153,810个多对象交互的3D场景；(3) 每个场景录制13个视频（12固定+1运动相机）；(4) 人工标注文本描述；(5) 自动生成几何、语义、运动、物理属性等标注。

系统性物理现象覆盖:
- 功能：确保数据集覆盖日常生活中所有相关的视觉物理现象
- 核心思路：基于《Fundamentals of Physics》教材和相关研究，聚焦力学、光学、流体动力学和磁学四大领域。排除热力学和声学（非视觉/需额外传感数据）。识别出重力、反射、浮力、磁引力等71种关键现象
- 设计动机：前人数据集通常只覆盖1-9种物理现象，PhysInOne旨在接近完整覆盖
多对象复杂场景设计:
- 功能：反映真实世界中多物理现象同时/顺序发生的特性
- 核心思路：每个场景包含多个对象，在复杂背景下进行多物理现象交互。所有动力学严格遵循牛顿定律、质量守恒、角动量守恒、胡克定律等基本物理定律。使用复杂几何物体而非简单基元
- 设计动机：真实世界中物理现象往往是耦合的，单一现象的数据集无法训练出具有泛化能力的模型
全方位标注体系:
- 功能：支持多种下游任务和评估
- 核心思路：每个场景提供3D网格、运动轨迹、2D掩码、材质属性、深度图、相机姿态、文本描述等完整标注。200万视频的标注规模比所有现有物理数据集大数个数量级
- 设计动机：完整标注使PhysInOne不仅是训练数据，还是评估物理理解能力的全面基准

PhysInOne本身是数据集而非模型。论文展示了在四个应用上的微调效果，使用各任务对应的标准训练策略。

应用	模型	PhysInOne微调后	效果
物理感知视频生成	SVD/CogVideoX/WAN	物理合理性显著提升	运动更符合物理定律
未来帧预测	TiNeuVox/DefGS等	预测质量提升	时空一致性增强
物理属性估计	多种模型	暴露关键差距	内在属性估计仍困难
运动迁移	多种模型	效果提升	物理合理的运动转移