Representation Learning for Spatiotemporal Physical Systems¶

会议: CVPR 2026 arXiv: 2603.13227 代码: https://github.com/helenqu/physical-representation-learning (有) 领域: 自监督学习 关键词: JEPA, 物理系统, 表示学习, 参数估计, 时空PDE

一句话总结¶

在三个 PDE 物理系统上系统对比 JEPA、VideoMAE、自回归基础模型(MPP)和算子学习(DISCO) 四种范式，发现隐空间预测目标(JEPA)在物理参数估计下游任务上全面优于像素级预测方法，MSE 相对改善 28-51%，且数据效率更高。

研究背景与动机¶

机器学习在时空物理系统上的应用主要聚焦于"下一帧预测"式的自回归代理建模（surrogate modeling），目标是学习数值模拟的高效替代。但这类方法训练昂贵、存在累积误差问题，且更根本地——科学研究的核心需求往往不是逐帧预测，而是更高层的下游任务，如估计系统的控制参数（Reynolds 数、Prandtl 数等）或定性预测（层流 vs 湍流）。

关键矛盾是：哪种学习范式最能保留物理意义信息？直觉上，专为物理建模设计的方法（如自回归基础模型、神经算子）应该优于通用自监督方法。但事实是否如此？ 这一问题此前缺乏系统研究。

本文的切入角度是：用"物理参数估计精度"作为表示质量的可量化代理指标，系统评估不同学习范式（隐空间预测 JEPA、像素重建 MAE、自回归基础模型 MPP、算子学习 DISCO）在物理系统上的表示学习效果。核心 idea：预测隐空间表示（而非像素值）可能更好地捕获物理系统的高层动力学信息。

方法详解¶

整体框架¶

本文不提出新模型架构，而是设计了一个系统性的评估框架： 1. 在三个 PDE 物理系统上分别预训练四种模型 2. 冻结编码器，训练 attentive probe 做物理参数估计 3. 通过参数估计 MSE 评估各方法学到的表示质量

关键设计¶

JEPA（Joint Embedding Predictive Architecture）用于物理动力学:
做什么：学习一个编码器 $f: \mathcal{X} \to \mathcal{Z}$ 和预测器 $g: \mathcal{Z} \to \mathcal{Z}$，在隐空间预测下一时间段的表示
核心思路：给定样本的 $T$ 个时间步 $x_{0:T}$，将 $x_{t:t+k}$ 编码为 $z_i = f(x_i)$，然后最小化隐空间预测误差： $$\mathcal{L}(f,g) = \mathbb{E}_{x_i, x_{i+1} \sim \mathcal{X}}[\ell_{\text{VICReg}}(g(f(x_i)), f(x_{i+1}))]$$
使用 VICReg 损失防止模式坍塌： $$\ell_{\text{VICReg}}(z_i, z_{i+1}) = \lambda s(z_i, z_{i+1}) + \mu[v(z_i) + v(z_{i+1})] + \nu[c(z_i) + c(z_{i+1})]$$ 其中 $s$ 是不变性项（L2距离），$v$ 是方差正则化，$c$ 是协方差正则化
编码器：3D ConvNeXt 下采样 CNN；预测器：通道维度逆瓶颈 CNN
设计动机：JEPA 在表示空间而非像素空间最小化误差，避免学习低层视觉细节（如纹理），更关注高层动力学特征
VideoMAE 基线（像素级重建）:
做什么：学习 encoder-decoder 对，最小化掩码区域的像素重建误差
核心思路：时空 tube masking + 像素级 MSE 重建
架构：ViT-tiny/16，输出 $l/16 \times w/16 \times t/2 \times 384$
设计动机：作为像素级预测范式的代表，与 JEPA 形成对比
物理建模基线:
MPP（多物理预训练）：自回归基础模型，逐帧预测像素值，使用已发布的预训练权重（AViT-tiny）
DISCO：算子元学习框架，从短上下文窗口推断轨迹特定的算子网络，在 The Well 数据集上预训练
设计动机：测试专为物理设计的方法是否在下游科学任务上真的更优

损失函数 / 训练策略¶

JEPA 和 VideoMAE 对每个物理系统分别预训练（6 epoch），以学习系统特定的动力学
微调阶段：冻结编码器，训练 attentive probe 100 epoch（参照 V-JEPA 的微调方案）
MPP 因预训练未包含目标数据集，采用端到端微调
AdamW 优化器 + cosine 学习率调度
VICReg 超参：$\lambda=2, \mu=40, \nu=2$
输入：$l \times w \times d \times 16$（16 帧上下文）

实验关键数据¶

主实验¶

方法	类型	Active Matter MSE↓	Shear Flow MSE↓	Rayleigh-Bénard MSE↓
JEPA	隐空间预测	0.079	0.38	0.13
VideoMAE	像素重建	0.160	0.67	0.18
DISCO	算子学习	0.057	0.13	0.01
MPP (全微调)	自回归基础模型	0.230	0.59	0.08

JEPA vs VideoMAE 改善：Active Matter 51%，Shear Flow 43%，Rayleigh-Bénard 28%。

消融实验¶

微调数据比例	JEPA MSE↓	VideoMAE MSE↓	说明（Shear Flow）
10%	0.57	0.98	JEPA 10%数据已超 VideoMAE 100%数据
50%	0.40	0.75	JEPA 达 95% 最佳性能
100%	0.38	0.67	基线对比

关键发现¶

JEPA 在所有三个物理系统上全面优于 VideoMAE，且差距一致（28-51%）
非所有物理建模方法都优于通用自监督：MPP（自回归基础模型）尽管端到端微调，仍在 Active Matter 和 Shear Flow 上逊于冻结权重的 JEPA。这与 NLP 领域"自回归模型在非生成任务上表现不如编码器模型"（BERT vs GPT）的发现一致
DISCO 和 JEPA 是各自类别的最佳：两者都是隐空间预测模型（DISCO 通过超网络输出隐嵌入，JEPA 通过编码器预测隐表示），而 MPP 和 VideoMAE 都是像素级预测 → 强烈暗示隐空间机制是关键
JEPA 数据效率更高：仅用 10% 微调数据即超越 VideoMAE 用 100% 数据的性能
不同系统间方法的相对排序有变化：DISCO 在 Rayleigh-Bénard 上 MSE=0.01 远超其他方法，可能因为该系统的物理结构与 DISCO 的算子学习范式特别匹配

亮点与洞察¶

视角新颖：将自监督表示学习评估从"ImageNet 图像分类"转向"物理参数估计"，提供了独特的科学视角
核心发现深刻：隐空间预测 > 像素预测，这一结论跨三个不同物理系统一致成立，具有普遍意义
与 NLP 的类比：自回归模型在非生成下游任务上弱于编码器模型，这在物理建模领域得到了验证（MPP vs JEPA），呼应了 BERT vs GPT 的经典讨论
实验设计精巧：用可量化的物理参数作为表示质量代理，避免了传统评估中指标选择的主观性
简洁有力：论文短小精悍，不追求复杂方法，核心贡献是实验发现和洞察

局限性 / 可改进方向¶

仅评估了三个 2D PDE 系统，对 3D 系统、粒子系统、非 PDE 系统的泛化性未知
下游任务仅限于参数估计（回归），未涉及分类（如层流/湍流判断）或其他科学任务
JEPA 编码器是简单 3D CNN，未探索更大规模模型或更复杂架构的影响
未分析各方法学到的表示在物理上"到底在表示什么"——缺乏可视化或可解释性分析
DISCO 在某些系统上大幅领先（Rayleigh-Bénard MSE 0.01 vs JEPA 0.13），说明物理归纳偏置在特定场景仍有不可替代的优势

评分¶

新颖性: ⭐⭐⭐⭐ 视角新颖但方法本身(JEPA)非新提出，贡献在于系统性实验发现
实验充分度: ⭐⭐⭐ 三个系统+数据效率分析有说服力，但系统和任务多样性可进一步扩展
写作质量: ⭐⭐⭐⭐ 简洁清晰，核心信息突出，适合快速阅读
价值: ⭐⭐⭐⭐ "隐空间预测优于像素预测"的发现对科学ML方向有指导意义