PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis¶
会议: CVPR 2026
arXiv: 2508.13911
代码: 项目页面
领域: 3D视觉 / 物理仿真
关键词: 4D合成, 物理感知高斯, 前馈推理, DPO对齐, 单图到4D, MPM仿真
一句话总结¶
首个从单张图像前馈预测3DGS+物理属性(材质类别/杨氏模量/泊松比)的框架,两阶段训练(监督预训练+DPO偏好微调)完全绕过SDS和可微物理引擎,配合50K+ PhysAssets数据集,1分钟内生成高保真4D物理仿真,CLIP_sim和人类偏好率均超越逐场景优化方法。
研究背景与动机¶
- 领域现状: 物理4D合成需先从多视图重建3DGS(数小时)、手动指定物理参数、再运行仿真。SDS基方法(OmniPhysGS/DreamPhysics)尝试从视频模型蒸馏物理先验,但需可微物理引擎,计算昂贵不稳定
- 现有痛点: 三大瓶颈——(a)依赖预重建3DGS(密集多视图+逐场景优化);(b)物理属性要么手工指定要么SDS优化(不灵活/不稳定);(c)3DGS与物理模块简单拼接忽略外观中的物理线索
- 核心矛盾: 逐场景优化天然不具备泛化性,每个新场景从头来过;SDS虽数据驱动但需差分物理引擎且不稳定
- 本文要解决: 能否完全绕过逐场景优化,学习一个能从稀疏输入直接前馈生成完整物理4D仿真的生成模型?
- 切入角度: 将问题从"慢迭代重建"重构为"摊还前馈推理"——用大规模数据训练Transformer大模型学习通用物理先验
- 核心idea: 联合预测3DGS+物理属性的前馈Transformer + 概率物理建模 + DPO偏好微调(而非SDS),一次前向传播完成4D推理
方法详解¶
整体框架¶
输入1-4张RGB图+相机参数 → DINOv3图像编码+Plücker射线相机编码 → token拼接+3个全局token → 24层Transformer → 双分支预测:DPT Head→3DGS参数ψ + Physics Head→物理属性分布θ → MPM仿真器→4D动态序列
关键设计¶
- 多模态Tokenization与全局物理token:
- 做什么: 将图像+几何信息统一编码,引入全局token聚合场景级物理信息
- 核心思路: DINOv3编码图像patch, Plücker射线坐标编码每像素主射线, 拼接后附加3个可学习全局token (用于物理头)。单图推理时用MVAdapter合成后/左/右辅助视图
-
设计动机: 全局token避免物理属性预测依赖局部特征,能综合全场景外观线索推断材质
-
概率物理属性预测头:
- 做什么: 从全局token预测材质类别(分类)和连续物理参数的概率分布(回归)
- 核心思路: 分类头 \(f_{material}(g_k) → C\),回归头输出均值和方差 \((\mu_\theta, \log\sigma_\theta^2) = f_{phys}(g_k)\),定义条件分布 \(P(\theta|I) = \mathcal{N}(\theta|\mu_\theta, \text{diag}(\sigma_\theta^2))\),推理时采样得到物理参数
-
设计动机: 概率建模捕获"同一外观可能对应多种物理参数"的不确定性,还为DPO提供采样多候选的能力
-
DPO偏好微调替代SDS:
- 做什么: 用偏好学习对齐仿真输出与GT视频,完全绕过可微分性要求
- 核心思路: 冻结预训练策略为 \(\pi_{ref}\),从 \(\pi_\omega\) 采样K组物理参数候选→分别MPM仿真+渲染→用SAM-2分割+CoTracker-3轨迹提取计算与GT的感知距离→最近/最远为winner/loser→最小化DPO损失 \(L_{DPO} = -\mathbb{E}[\log\sigma(\beta\log\frac{\pi_\omega(\phi_w|z)}{\pi_{ref}(\phi_w|z)} - \beta\log\frac{\pi_\omega(\phi_l|z)}{\pi_{ref}(\phi_l|z)})]\)
-
设计动机: SDS需要梯度穿过物理引擎,DPO将仿真/渲染视为黑盒——只需比较输出质量即可学习,大幅简化训练
-
PhysAssets数据集(50K+):
- 做什么: 构建首个配对3D资产-物理标注-仿真参考视频的大规模数据集
- 核心思路: 从Objaverse/OmniObject3D/ABO/HSSD聚合资产,用Qwen3VL多模态LLM从多视图推断材质类别和物理参数,用Framepack生成GT仿真视频
- 设计动机: 同时支持监督预训练(GT物理参数)和DPO微调(GT仿真视频),填补数据空白
训练策略¶
两阶段:Stage 1大规模监督预训练联合优化重建损失(MSE+Alpha+LPIPS)和物理预测损失;Stage 2冻结骨干仅微调物理头执行DPO。32卡A800训练3天,batch size 8/卡。MPM仿真参数: 子步时间 \(2×10^{-5}\)s, 帧时间 \(4×10^{-2}\)s, 每序列50帧。
实验关键数据¶
主实验(5种材质对比)¶
| 方法 | metal CLIP | jelly CLIP | plast. CLIP | snow CLIP | sand CLIP | avg CLIP | avg UPR |
|---|---|---|---|---|---|---|---|
| OmniPhysGS | 0.215 | 0.229 | 0.214 | 0.183 | 0.205 | 0.209 | 10% |
| DreamPhysics | 0.227 | 0.246 | 0.244 | 0.207 | 0.222 | 0.229 | 17.2% |
| PhysGM (w/o DPO) | 0.270 | 0.270 | 0.255 | 0.254 | 0.298 | 0.269 | 30% |
| PhysGM (w/ DPO) | 0.273 | 0.277 | 0.269 | 0.255 | 0.300 | 0.275 | 42.8% |
消融实验¶
| 配置 | avg CLIP_sim | avg UPR | 说明 |
|---|---|---|---|
| PhysGM w/o DPO | 0.269 | 30% | 仅预训练 |
| PhysGM w/ DPO | 0.275 | 42.8% | DPO显著提升UPR (+12.8%) |
关键发现¶
- 前馈超越逐场景优化: PhysGM在所有材质类型上CLIP_sim和UPR均超越需要数小时的SDS基线——证明前馈不牺牲质量
- DPO提升感知质量而非数值指标: DPO后CLIP_sim提升有限但UPR大幅提升12.8%——偏好微调主要改善人类感知的物理真实感
- 概率建模是DPO的基础: 删除概率分布(改为点估计)后DPO无法有效采样多候选,微调失效
- 联合训练优于分离: 联合预测外观+物理比分离模块效果更好——验证了外观蕴含物理线索的假设
- 速度: 1分钟完成完整4D仿真 vs SDS方法数小时
亮点与洞察¶
- 前馈物理推理范式 — 从"逐场景优化"到"摊还推理"的范式转变。PhysGM证明了大模型+大数据可以学习通用物理先验,一次前向传播代替数小时优化
- DPO在生成模型中的新应用 — 将DPO从语言模型偏好对齐迁移到物理仿真质量对齐,利用非可微仿真器输出构建偏好对的思路极具创新性
- 概率物理建模的设计优雅 — 预测分布而非点估计,既捕获不确定性又为DPO采样提供基础——一举两得
局限性 / 可改进方向¶
- 数据集标注依赖LLM: Qwen3VL推断的物理参数可能不够精确,专业物理测量数据更可靠
- GT视频质量: Framepack生成的参考仿真视频可能本身不够物理真实
- 材质类别有限: 仅覆盖5种材质类别,未处理复合材质或流体
- 单物体场景为主: 多物体交互场景的处理能力有待验证
- 改进思路: 引入真实物理实验视频作为GT;扩展材质类别包括流体/布料;支持用户交互式物理操控
相关工作与启发¶
- vs PhysGaussian: PhysGaussian首创3DGS+MPM耦合但需手动设参,PhysGM自动预测物理参数且无需预重建
- vs OmniPhysGS/DreamPhysics: 这些SDS方法每场景优化数小时,PhysGM前馈1分钟完成且效果更好
- vs LGM/GS-LRM: 这些前馈3D重建方法仅处理静态场景,PhysGM首次嵌入物理推理实现动态4D
- 启发: DPO+非可微仿真的范式可推广到任何需要黑盒仿真器反馈的生成任务(机器人控制、流体仿真等)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个前馈物理4D生成框架,DPO替代SDS的思路新颖
- 实验充分度: ⭐⭐⭐⭐ 5种材质对比+消融+用户研究,但缺少更多定量消融
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法系统、两阶段训练逻辑自然
- 价值: ⭐⭐⭐⭐⭐ 对4D合成和物理感知3D视觉领域具有开创性价值
实验¶
表1:物理仿真质量对比(5种材质)¶
| 方法 | metal CLIPsim | jelly CLIPsim | plasticine CLIPsim | snow CLIPsim | sand CLIPsim | 平均 CLIPsim | 平均 UPR |
|---|---|---|---|---|---|---|---|
| OmniPhysGS | 0.2149 | 0.2291 | 0.2135 | 0.1834 | 0.2047 | 0.2091 | 10% |
| DreamPhysics | 0.2273 | 0.2459 | 0.2437 | 0.2071 | 0.2217 | 0.2291 | 17.2% |
| PhysGM (w/o DPO) | 0.2698 | 0.2700 | 0.2547 | 0.2541 | 0.2980 | 0.2693 | 30% |
| PhysGM (w/ DPO) | 0.2732 | 0.2774 | 0.2691 | 0.2548 | 0.2997 | 0.2748 | 42.8% |
表2:多视图重建质量(GSO 数据集)¶
| 方法 | 分辨率 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|
| LGM | 256 | 21.44 | 0.832 | 0.122 |
| PhysGM (ours) | 256 | 25.47 | 0.916 | 0.071 |
| GS-LRM | 512 | 30.52 | 0.952 | 0.050 |
| PhysGM (ours) | 512 | 28.95 | 0.953 | 0.039 |
表3:效率与泛化对比¶
| 方法 | 训练方式 | 可泛化 | 推理时间 | CLIPsim |
|---|---|---|---|---|
| OmniPhysGS | SDS | ✗ | >12h | 0.2091 |
| DreamPhysics | SDS | ✗ | >0.5h | 0.2291 |
| PhysGM | DPO | ✓ | <1min | 0.2748 |
关键发现¶
- 前馈 vs 逐场景优化:PhysGM 在不到 1 分钟内完成单图到 4D 仿真(推理 <30s + MPM 仿真),而 OmniPhysGS 需要 >12h、DreamPhysics 需要 >0.5h
- DPO 显著提升仿真质量:加入 DPO 后 CLIPsim 从 0.2693 提升到 0.2748,UPR 从 30% 提升到 42.8%(用户偏好率提升 12.8 个百分点)
- 重建质量不逊于专用方法:在 GSO 256 分辨率上 PSNR 比 LGM 高 4.03dB,仅用 GS-LRM 10% 数据量即在 512 分辨率上 LPIPS 更优
- 唯一全自动方案:PhysGM 是唯一同时不需要预优化 3DGS、不需要预定义物理参数、可泛化、不依赖 LLM 且推理 <30s 的方法
亮点¶
- 范式创新:将物理 4D 合成从逐场景优化范式转变为前馈推理范式,速度提升 720× 以上(vs OmniPhysGS 的 12h)
- DPO 用于物理仿真对齐:首次将 DPO 引入物理仿真领域,绕过可微分物理引擎的限制,用黑盒仿真器输出构建偏好对
- 概率性物理预测:输出物理属性的分布而非点估计,自然地支持 DPO 采样和不确定性建模
- SAM-2 + CoTracker-3 构建偏好标签:自动化偏好标注流程,用实例分割和轨迹追踪量化仿真视频与 GT 的保真度
- 大规模物理标注数据集 PhysAssets:50K+ 资产涵盖金属、果冻、橡皮泥、雪、沙等多种材质,填补领域数据空白
局限性¶
- MPM 仿真计算瓶颈:MPM 仿真仍是 4D 合成的主要耗时环节(200³ 网格分辨率),限制了实时应用;缺乏高效替代方案处理流体和断裂
- Sim-to-Real 差距:训练数据基于合成仿真视频(Framepack 生成),简化的本构模型与真实物理存在固有差异,限制真实世界部署的鲁棒性
- SH 阶数限制:球谐函数设为 0 阶(仅漫反射),无法建模视角依赖的高光效果
- 单图深度模糊:从单张图像重建 3D 的精度受限于遮挡和深度不确定性
- 材质覆盖范围:虽有 50K 资产,但物理属性标注由 MLLM 推断(非实际测量),准确性有限
相关工作¶
- vs PhysGaussian:开创性地将 3DGS 与 MPM 耦合,但需手动逐场景调参;PhysGM 自动预测物理属性
- vs DreamPhysics/OmniPhysGS:用 SDS 从视频模型蒸馏物理参数,需可微仿真器且耗时数小时;PhysGM 用 DPO 绕过可微性
- vs PhysDreamer:同样用 SDS 优化杨氏模量但不可泛化;PhysGM 首次实现跨场景泛化
- vs PhysSplat:利用 LLM 推断物理参数但依赖预重建 3DGS;PhysGM 端到端前馈
- vs LGM/GS-LRM:前馈 3D 重建方法但仅预测静态几何,不包含物理属性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个前馈式物理感知 4D 合成框架,DPO 用于物理对齐是领域首创
- 实验充分度: ⭐⭐⭐⭐ 5 种材质定量对比 + 多视图重建消融 + 用户研究;缺少真实世界定量评估
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,两阶段动机充分;方法描述详实
- 价值: ⭐⭐⭐⭐⭐ 从根本上改变了物理 4D 合成的范式——从小时级优化到秒级推理