Representation Learning for Spatiotemporal Physical Systems¶

会议: CVPR 2026
arXiv: 2603.13227
代码: 无
领域: 自监督/表示学习
关键词: JEPA, 物理系统, 表示学习, 参数估计, 自监督学习

一句话总结¶

通过在三个PDE物理系统（活性物质、剪切流、Rayleigh-Bénard对流）上对比JEPA、VideoMAE、MPP和DISCO，发现隐空间预测方法(JEPA)在物理参数估计任务上全面优于像素级预测方法(MAE/自回归模型)，MSE平均改善30-50%。

背景与动机¶

机器学习在时空物理系统上的工作主要聚焦于"下一帧预测"式的代理建模(surrogate modeling)，但这些自回归模型训练昂贵且存在累积误差。更重要的是，科学研究的实际需求往往不是逐帧预测，而是估计系统的物理参数（如Reynolds数、Prandtl数等）。然而，哪种学习范式最能保留物理意义信息，目前少有系统研究。

核心问题¶

通用自监督表示学习方法（JEPA vs MAE）在学习物理相关表示方面谁更有效？为物理建模设计的方法（自回归基础模型、算子学习）在下游科学任务上是否真的优于通用方法？

方法详解¶

整体框架¶

对比四种方法在三个物理系统上预训练后、通过冻结encoder+可训练probe进行参数估计的效果： - JEPA: 隐空间时序预测，ConvNeXt encoder，VICReg损失（方差+不变性+协方差正则化） - VideoMAE: 像素级masked重建，ViT-small/16 - DISCO: 基于算子学习的上下文推理，超网络生成轨迹特定演化算子 - MPP: 自回归物理基础模型，像素级下一帧预测

关键设计¶

JEPA动力学版本: 给定\(k\)帧上下文\(x_{t:t+k}\)，学习预测下\(k\)帧\(x_{t+k:t+2k}\)在隐空间中的表示。encoder \(f: \mathcal{X} \to \mathcal{Z}\) 和 predictor \(g: \mathcal{Z} \to \mathcal{Z}\)，用VICReg损失避免模式坍塌——invariance项对齐预测和目标、variance项保持维度方差、covariance项去相关。
物理参数估计作为评估任务: 物理参数（如Reynolds数、Rayleigh数）决定系统时间演化行为，因此参数估计误差直接量化了表示中包含多少物理信息。这比下一帧预测误差更能反映"模型是否理解了物理"。
冻结encoder+attentive probe: 保持预训练encoder权重不变，仅训练probe head，确保评估的是预训练表示质量而非微调能力。

损失函数 / 训练策略¶

JEPA/VideoMAE各系统单独预训练6 epochs
MPP用已发布预训练权重+端到端微调（因预训练不含这三个数据集）
DISCO使用The Well上的预训练权重
微调均100 epochs，AdamW + cosine lr

实验关键数据¶

方法	Active Matter MSE↓	Shear Flow MSE↓	Rayleigh-Bénard MSE↓
JEPA	0.079	0.38	0.13
VideoMAE	0.160	0.67	0.18
DISCO	0.057	0.13	0.01
MPP (full FT)	0.230	0.59	0.08

JEPA vs VideoMAE: 活性物质-51%，剪切流-43%，Rayleigh-Bénard -28%
DISCO（隐空间算子学习）全面最优
MPP（自回归）尽管端到端微调仍表现不佳

数据效率: 在shear flow上，JEPA用10%微调数据(0.57)即超过VideoMAE用100%数据(0.67)。

消融实验要点¶

隐空间预测(JEPA, DISCO)普遍优于像素级预测(VideoMAE, MPP)
自回归模型(MPP)在非生成任务上表现最差，与NLP中"自回归不如encoder-only"的结论一致
JEPA数据效率显著优于VideoMAE——50%数据即可达95%性能

亮点¶

核心insight深刻：物理理解≠像素预测，隐空间预测捕获高层动力学特征而非低层视觉细节
物理参数估计作为evaluation metric是巧妙的选择——提供了可量化的"物理相关性"指标
与NLP领域"BERT vs GPT"的类比有启发性：编码器方法在理解任务上优于生成方法
来自Flatiron/Polymathic AI/NYU的强阵容（Yann LeCun等），研究质量可靠

局限性 / 可改进方向¶

仅三个物理系统，泛化性有限
JEPA和VideoMAE使用不同架构(ConvNeXt vs ViT)，架构差异可能是混淆因素
仅评估全局参数估计，未探索场重建、异常检测等其他下游任务
论文较短（workshop论文级别），实验深度有待加强

与相关工作的对比¶

DISCO: 专门为物理系统设计的算子学习方法，在所有系统上最优，但需要更多物理先验知识
MPP: 自回归物理基础模型，在参数估计上反而最差(0.230 on active matter)，说明像素级生成目标与物理理解目标不一致
V-JEPA (Bardes et al.): 本文JEPA设计受其启发，但针对物理时序数据做了适配

启发与关联¶

对科学ML社区的重要提醒：代理模型(surrogate model)的下一帧预测能力≠对物理的理解能力
JEPA范式在科学数据上的潜力值得进一步探索——可能是比自回归更好的科学foundation model基础
隐空间vs像素空间的对比结论可迁移到医学图像、遥感等领域的表示学习

评分¶

新颖性: ⭐⭐⭐⭐ 将JEPA引入物理系统表示学习的视角新颖，核心insight有价值
实验充分度: ⭐⭐⭐ 三个系统、四种方法，但架构未对齐、系统数量有限
写作质量: ⭐⭐⭐⭐ 简洁有力，核心观点表达清楚
价值: ⭐⭐⭐⭐ 对科学ML方向有启发意义，提出了"表示学习 vs 代理建模"的重要对比视角