Pixel2Phys: Distilling Governing Laws from Visual Dynamics¶

会议: CVPR 2026
arXiv: 2602.19516
代码: 无
领域: 多模态VLM
关键词: 物理定律发现, 多智能体框架, 符号回归, 视频理解, AI for Science

一句话总结¶

提出 Pixel2Phys，一个基于 MLLM 的多智能体协作框架，通过 Plan-Variable-Equation-Experiment 四个 Agent 的迭代假设-验证-精化循环，从原始视频中自动发现可解释的物理控制方程，外推精度比基线提升 45.35%。

研究背景与动机¶

领域现状：从观测数据中发现物理规律是科学智能的核心目标。传统方法依赖人工提取物理量后进行符号回归，过程缓慢。
现有痛点：
监督式方程预测模型需要稀缺的方程-视频配对数据，泛化性差
无监督潜空间方法（Autoencoder + 符号回归）的潜空间由重建目标决定，物理无关因素（纹理、光照）容易混入
直接提示 MLLM 主要是检索训练语料中的先验知识，难以从原始视觉数据推导新规律
核心矛盾：物理变量提取与方程发现存在鸡和蛋的循环依赖——好的变量空间需要知道动力学，发现动力学需要干净的变量空间。
本文要解决什么：同时发现物理变量 \(z(t)\) 和控制方程 \(f\)，即 \(\frac{dz}{dt} = f(z(t))\)。
切入角度：模拟人类科学家的协作工作流——观察、假设、实验、精化——构建多智能体迭代框架。
核心idea：用 MLLM 协调四个专业 Agent 进行迭代式科学推理，打破变量提取与方程发现之间的循环依赖。

方法详解¶

整体框架¶

四个 Agent 协作：Plan Agent（全局协调）→ Variable Agent（提取物理变量）→ Equation Agent（符号回归发现方程）→ Experiment Agent（评估验证）→ Plan Agent 分析报告并决定下一轮精化方向。

关键设计¶

Plan Agent（全局规划）:
中央协调器，每轮汇聚三个 Agent 的报告进行两阶段诊断
先检查可视化评估定性拟合度，再检查定量指标定位瓶颈
根据诊断结果决定精化策略：变量精化（重新提取 \(\mathcal{Z}\)）或方程精化（调整搜索超参）
设计动机：打破变量-方程循环依赖，使两者互相精化
Variable Agent（多粒度变量提取）:
Object-level Tool：用 SAM 分割 + 追踪提取运动轨迹 \(z(t) = [x(t), y(t)]\)
Pixel-level Tool：用固定卷积核计算空间导数（Laplacian、bi-harmonic），适用于 PDE 驱动的物理场
Representation-level Tool：物理信息自编码器，损失 \(\mathcal{L} = \mathcal{L}_{recon} + \lambda_{eq}\mathcal{L}_{eq}\)，其中 \(\mathcal{L}_{eq} = \|\mathcal{F}(z) - f(z)\|^2\) 强制潜空间符合已发现的方程
设计动机：不同类型的物理系统需要不同粒度的变量提取方式
Equation Agent（动态符号回归）:
用中心差分估计时间导数 \(\dot{Z}\)
构建候选函数库 \(\Theta(Z)\)：多项式项 + 超越函数
用 STLSQ 在 \(\|\dot{Z} - \Theta(Z)\Xi\|_2^2 + \lambda_{sp}\|\Xi\|_1\) 下求解稀疏系数矩阵 \(\Xi\)
\(\lambda_{sp}\) 由 Plan Agent 指导调整
Experiment Agent（多维评估）:
方程质量：\(R^2\) 分数 + 复杂度（\(L_0\) of \(\Xi\)）
变量质量：相空间图可视化
外推保真度：从初始条件积分预测并计算 RMSE
汇聚定量指标和图表形成结构化报告

损失函数 / 训练策略¶

Variable Agent 中的 Representation-level Tool 通过物理信息自编码器训练，前期无方程先验时只用重建损失，后期加入物理一致性损失进行联合优化。

实验关键数据¶

主实验（Object-level dynamics）¶

案例	方法	Terms Found	False Positives	\(R^2\)@1000
Linear	Coord-Equ	Yes	1.10	0.8647
Linear	Pixel2Phys	Yes	0	0.9913
Cubic	Coord-Equ	No	3.40	0.2632
Cubic	Pixel2Phys	Yes	0.39	0.9886
VDP	Coord-Equ	Yes	2.31	0.4920
VDP	Pixel2Phys	Yes	0.99	0.9954

主实验（Pixel-level PDE dynamics）¶

数据集	方法	RMSE↓	VPS@0.5↑
Lambda-Omega	PDE-Find	0.67	492
Lambda-Omega	Pixel2Phys	0.03	1000
Brusselator	SGA-PDE	0.14	1000
Brusselator	Pixel2Phys	0.12	1000
FHN	PDE-Find	0.63	54
FHN	Pixel2Phys	0.16	1000

关键发现¶

隐式方法（Latent-ODE, AE-SINDy）在长期外推上完全崩溃（\(R^2 \approx 0\)），证明通用表示无法捕捉物理结构
Pixel2Phys 的假阳性项数远低于 Coord-Equ，发现的方程更简洁准确
在 PDE 场景下，神经算子（FNO/UNO）误差累积严重，而 Pixel2Phys 能正确识别高阶算子（bi-harmonic）
框架能从真实世界视频中恢复引力定律和 Navier-Stokes 方程

亮点与洞察¶

多智能体科学推理框架：用 MLLM 作为规划器协调专业 Agent，首次将"观察-假设-实验-精化"的科学方法论自动化，这个框架可以迁移到生物、化学等其他科学领域
物理信息自编码器的巧妙设计：在迭代过程中，已发现的方程反过来指导变量空间的精化，打破了变量-方程的循环依赖
多粒度工具选择：Object/Pixel/Representation 三级工具覆盖了从离散物体到连续场到隐式动力学的全谱系

局限性 / 可改进方向¶

依赖 GPT-4o 作为 backbone，成本较高
对多体相互作用（N-body problem）的处理能力有待验证
当物理变量维度很高时，符号回归的搜索空间爆炸
真实世界中的混沌系统可能导致迭代不收敛

评分¶

新颖性: ⭐⭐⭐⭐⭐ AI for Science 的全新范式，多智能体科学推理
实验充分度: ⭐⭐⭐⭐ 三类场景覆盖全面，包含真实世界验证
写作质量: ⭐⭐⭐⭐ 框架描述清晰，但公式较多需要仔细消化
价值: ⭐⭐⭐⭐⭐ 开辟了MLLM驱动的科学发现新方向