PhysInOne: Visual Physics Learning and Reasoning in One Suite¶
会议: CVPR 2026
arXiv: 2604.09415
代码: https://vlar-group.github.io/PhysInOne.html
领域: 多模态VLM/物理推理
关键词: 物理学习, 合成数据集, 世界模型, 视频生成, 物理推理
一句话总结¶
PhysInOne是一个包含153,810个动态3D场景和200万个标注视频的大规模合成数据集,覆盖力学、光学、流体动力学和磁学的71种基本物理现象,为物理感知的世界模型建立了新基准。
研究背景与动机¶
领域现状:当前AI模型在物理世界理解上严重不足——AI生成的视频频繁违反基本物理定律(物体向上坠落、突然变速等)。已有物理数据集规模极小(几百到几千样本),限制了物理学习的进展。
现有痛点:缺乏大规模、高质量的训练数据来覆盖各种物理对象、场景和物理现象。现有数据集要么仅涉及单一物理现象(如碰撞),要么使用简单几何体,无法反映真实世界的复杂性。
核心矛盾:物理感知AI需要在多样化场景中学习多种物理现象的联合效果,但数据集规模不足以支撑。
本文目标:创建一个比现有数据集大数个数量级的合成物理数据集,覆盖日常生活中的绝大多数物理现象。
切入角度:基于大学物理教材系统性地识别71种关键物理现象,使用物理引擎生成严格遵循物理定律的动态3D场景。
核心idea:规模化合成物理数据+多对象复杂交互+完整的真值标注,为物理感知世界模型提供数据基础设施。
方法详解¶
整体框架¶
PhysInOne的构建流程:(1) 从物理教材识别4大领域71种现象;(2) 设计153,810个多对象交互的3D场景;(3) 每个场景录制13个视频(12固定+1运动相机);(4) 人工标注文本描述;(5) 自动生成几何、语义、运动、物理属性等标注。
关键设计¶
-
系统性物理现象覆盖:
- 功能:确保数据集覆盖日常生活中所有相关的视觉物理现象
- 核心思路:基于《Fundamentals of Physics》教材和相关研究,聚焦力学、光学、流体动力学和磁学四大领域。排除热力学和声学(非视觉/需额外传感数据)。识别出重力、反射、浮力、磁引力等71种关键现象
- 设计动机:前人数据集通常只覆盖1-9种物理现象,PhysInOne旨在接近完整覆盖
-
多对象复杂场景设计:
- 功能:反映真实世界中多物理现象同时/顺序发生的特性
- 核心思路:每个场景包含多个对象,在复杂背景下进行多物理现象交互。所有动力学严格遵循牛顿定律、质量守恒、角动量守恒、胡克定律等基本物理定律。使用复杂几何物体而非简单基元
- 设计动机:真实世界中物理现象往往是耦合的,单一现象的数据集无法训练出具有泛化能力的模型
-
全方位标注体系:
- 功能:支持多种下游任务和评估
- 核心思路:每个场景提供3D网格、运动轨迹、2D掩码、材质属性、深度图、相机姿态、文本描述等完整标注。200万视频的标注规模比所有现有物理数据集大数个数量级
- 设计动机:完整标注使PhysInOne不仅是训练数据,还是评估物理理解能力的全面基准
损失函数 / 训练策略¶
PhysInOne本身是数据集而非模型。论文展示了在四个应用上的微调效果,使用各任务对应的标准训练策略。
实验关键数据¶
主实验¶
| 应用 | 模型 | PhysInOne微调后 | 效果 |
|---|---|---|---|
| 物理感知视频生成 | SVD/CogVideoX/WAN | 物理合理性显著提升 | 运动更符合物理定律 |
| 未来帧预测 | TiNeuVox/DefGS等 | 预测质量提升 | 时空一致性增强 |
| 物理属性估计 | 多种模型 | 暴露关键差距 | 内在属性估计仍困难 |
| 运动迁移 | 多种模型 | 效果提升 | 物理合理的运动转移 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无PhysInOne微调 | 物理违反频繁 | 基础模型缺乏物理知识 |
| 少量子集微调 | 部分提升 | 数据量与物理理解正相关 |
| 完整微调 | 最优 | 大规模数据显著增益 |
关键发现¶
- 在PhysInOne上微调显著提升了视频生成的物理合理性,证明了规模化合成物理数据的价值
- 基础模型在内在物理属性(质量、摩擦力等)的估计上仍然存在根本性差距
- 复杂多物理现象场景是当前模型最困难的场景,单一现象训练不足以泛化
亮点与洞察¶
- 数量级的规模优势:153K场景/200万视频,比最大的前人数据集大几个数量级
- 系统性的物理覆盖:71种现象覆盖日常物理的绝大部分,可作为物理AI的标准化训练数据
- 暴露关键差距:实验同时展示了基础模型在物理推理上的进步和根本局限,为未来研究指明方向
局限与展望¶
- 合成数据与真实物理仍存在域差距
- 排除了热力学和声学,非视觉物理现象未覆盖
- 文本描述为人工标注,可能成为扩展瓶颈
相关工作与启发¶
- vs CLEVRER: CLEVRER仅覆盖碰撞一种现象,10K场景。PhysInOne覆盖71种现象,15万场景
- vs Physion++: Physion++覆盖9种现象但使用简单对象,PhysInOne使用复杂几何和多对象交互
评分¶
- 新颖性: ⭐⭐⭐⭐ 规模和覆盖范围的突破性提升
- 实验充分度: ⭐⭐⭐⭐ 四种应用任务的全面验证
- 写作质量: ⭐⭐⭐⭐ 组织清晰,动机充分
- 价值: ⭐⭐⭐⭐⭐ 作为物理AI的基础设施级贡献
相关论文¶
- [ICCV 2025] Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models
- [CVPR 2026] ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps
- [CVPR 2026] CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning
- [CVPR 2026] DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
- [CVPR 2026] EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models