Representation Learning for Spatiotemporal Physical Systems¶
会议: CVPR 2026 arXiv: 2603.13227 代码: https://github.com/helenqu/physical-representation-learning (有) 领域: 自监督学习 关键词: JEPA, 物理系统, 表示学习, 参数估计, 时空PDE
一句话总结¶
在三个 PDE 物理系统上系统对比 JEPA、VideoMAE、自回归基础模型(MPP)和算子学习(DISCO) 四种范式,发现隐空间预测目标(JEPA)在物理参数估计下游任务上全面优于像素级预测方法,MSE 相对改善 28-51%,且数据效率更高。
研究背景与动机¶
机器学习在时空物理系统上的应用主要聚焦于"下一帧预测"式的自回归代理建模(surrogate modeling),目标是学习数值模拟的高效替代。但这类方法训练昂贵、存在累积误差问题,且更根本地——科学研究的核心需求往往不是逐帧预测,而是更高层的下游任务,如估计系统的控制参数(Reynolds 数、Prandtl 数等)或定性预测(层流 vs 湍流)。
关键矛盾是:哪种学习范式最能保留物理意义信息?直觉上,专为物理建模设计的方法(如自回归基础模型、神经算子)应该优于通用自监督方法。但事实是否如此? 这一问题此前缺乏系统研究。
本文的切入角度是:用"物理参数估计精度"作为表示质量的可量化代理指标,系统评估不同学习范式(隐空间预测 JEPA、像素重建 MAE、自回归基础模型 MPP、算子学习 DISCO)在物理系统上的表示学习效果。核心 idea:预测隐空间表示(而非像素值)可能更好地捕获物理系统的高层动力学信息。
方法详解¶
整体框架¶
本文不提出新模型架构,而是设计了一个系统性的评估框架: 1. 在三个 PDE 物理系统上分别预训练四种模型 2. 冻结编码器,训练 attentive probe 做物理参数估计 3. 通过参数估计 MSE 评估各方法学到的表示质量
关键设计¶
- JEPA(Joint Embedding Predictive Architecture)用于物理动力学:
- 做什么:学习一个编码器 \(f: \mathcal{X} \to \mathcal{Z}\) 和预测器 \(g: \mathcal{Z} \to \mathcal{Z}\),在隐空间预测下一时间段的表示
- 核心思路:给定样本的 \(T\) 个时间步 \(x_{0:T}\),将 \(x_{t:t+k}\) 编码为 \(z_i = f(x_i)\),然后最小化隐空间预测误差: $\(\mathcal{L}(f,g) = \mathbb{E}_{x_i, x_{i+1} \sim \mathcal{X}}[\ell_{\text{VICReg}}(g(f(x_i)), f(x_{i+1}))]\)$
- 使用 VICReg 损失防止模式坍塌: $\(\ell_{\text{VICReg}}(z_i, z_{i+1}) = \lambda s(z_i, z_{i+1}) + \mu[v(z_i) + v(z_{i+1})] + \nu[c(z_i) + c(z_{i+1})]\)$ 其中 \(s\) 是不变性项(L2距离),\(v\) 是方差正则化,\(c\) 是协方差正则化
- 编码器:3D ConvNeXt 下采样 CNN;预测器:通道维度逆瓶颈 CNN
-
设计动机:JEPA 在表示空间而非像素空间最小化误差,避免学习低层视觉细节(如纹理),更关注高层动力学特征
-
VideoMAE 基线(像素级重建):
- 做什么:学习 encoder-decoder 对,最小化掩码区域的像素重建误差
- 核心思路:时空 tube masking + 像素级 MSE 重建
- 架构:ViT-tiny/16,输出 \(l/16 \times w/16 \times t/2 \times 384\)
-
设计动机:作为像素级预测范式的代表,与 JEPA 形成对比
-
物理建模基线:
- MPP(多物理预训练):自回归基础模型,逐帧预测像素值,使用已发布的预训练权重(AViT-tiny)
- DISCO:算子元学习框架,从短上下文窗口推断轨迹特定的算子网络,在 The Well 数据集上预训练
- 设计动机:测试专为物理设计的方法是否在下游科学任务上真的更优
损失函数 / 训练策略¶
- JEPA 和 VideoMAE 对每个物理系统分别预训练(6 epoch),以学习系统特定的动力学
- 微调阶段:冻结编码器,训练 attentive probe 100 epoch(参照 V-JEPA 的微调方案)
- MPP 因预训练未包含目标数据集,采用端到端微调
- AdamW 优化器 + cosine 学习率调度
- VICReg 超参:\(\lambda=2, \mu=40, \nu=2\)
- 输入:\(l \times w \times d \times 16\)(16 帧上下文)
实验关键数据¶
主实验¶
| 方法 | 类型 | Active Matter MSE↓ | Shear Flow MSE↓ | Rayleigh-Bénard MSE↓ |
|---|---|---|---|---|
| JEPA | 隐空间预测 | 0.079 | 0.38 | 0.13 |
| VideoMAE | 像素重建 | 0.160 | 0.67 | 0.18 |
| DISCO | 算子学习 | 0.057 | 0.13 | 0.01 |
| MPP (全微调) | 自回归基础模型 | 0.230 | 0.59 | 0.08 |
JEPA vs VideoMAE 改善:Active Matter 51%,Shear Flow 43%,Rayleigh-Bénard 28%。
消融实验¶
| 微调数据比例 | JEPA MSE↓ | VideoMAE MSE↓ | 说明(Shear Flow) |
|---|---|---|---|
| 10% | 0.57 | 0.98 | JEPA 10%数据已超 VideoMAE 100%数据 |
| 50% | 0.40 | 0.75 | JEPA 达 95% 最佳性能 |
| 100% | 0.38 | 0.67 | 基线对比 |
关键发现¶
- JEPA 在所有三个物理系统上全面优于 VideoMAE,且差距一致(28-51%)
- 非所有物理建模方法都优于通用自监督:MPP(自回归基础模型)尽管端到端微调,仍在 Active Matter 和 Shear Flow 上逊于冻结权重的 JEPA。这与 NLP 领域"自回归模型在非生成任务上表现不如编码器模型"(BERT vs GPT)的发现一致
- DISCO 和 JEPA 是各自类别的最佳:两者都是隐空间预测模型(DISCO 通过超网络输出隐嵌入,JEPA 通过编码器预测隐表示),而 MPP 和 VideoMAE 都是像素级预测 → 强烈暗示隐空间机制是关键
- JEPA 数据效率更高:仅用 10% 微调数据即超越 VideoMAE 用 100% 数据的性能
- 不同系统间方法的相对排序有变化:DISCO 在 Rayleigh-Bénard 上 MSE=0.01 远超其他方法,可能因为该系统的物理结构与 DISCO 的算子学习范式特别匹配
亮点与洞察¶
- 视角新颖:将自监督表示学习评估从"ImageNet 图像分类"转向"物理参数估计",提供了独特的科学视角
- 核心发现深刻:隐空间预测 > 像素预测,这一结论跨三个不同物理系统一致成立,具有普遍意义
- 与 NLP 的类比:自回归模型在非生成下游任务上弱于编码器模型,这在物理建模领域得到了验证(MPP vs JEPA),呼应了 BERT vs GPT 的经典讨论
- 实验设计精巧:用可量化的物理参数作为表示质量代理,避免了传统评估中指标选择的主观性
- 简洁有力:论文短小精悍,不追求复杂方法,核心贡献是实验发现和洞察
局限性 / 可改进方向¶
- 仅评估了三个 2D PDE 系统,对 3D 系统、粒子系统、非 PDE 系统的泛化性未知
- 下游任务仅限于参数估计(回归),未涉及分类(如层流/湍流判断)或其他科学任务
- JEPA 编码器是简单 3D CNN,未探索更大规模模型或更复杂架构的影响
- 未分析各方法学到的表示在物理上"到底在表示什么"——缺乏可视化或可解释性分析
- DISCO 在某些系统上大幅领先(Rayleigh-Bénard MSE 0.01 vs JEPA 0.13),说明物理归纳偏置在特定场景仍有不可替代的优势
相关工作与启发¶
- V-JEPA(Assran et al., 2025)和 VICReg(Bardes et al., 2021):为 JEPA 在时空数据上的应用提供了理论和实践基础
- MPP(McCabe et al., 2024):物理基础模型的代表,其在非生成任务上的弱表现值得该领域关注
- DISCO(Morel et al., 2025):算子元学习的代表,其强表现印证了物理归纳偏置的价值
- The Well(Ohana et al., 2025):提供了标准化的物理系统数据集
- 启发:在科学机器学习中,可能需要区分"需要精确模拟"和"需要理解系统"两类任务,为后者选择表示学习而非自回归建模
评分¶
- 新颖性: ⭐⭐⭐⭐ 视角新颖但方法本身(JEPA)非新提出,贡献在于系统性实验发现
- 实验充分度: ⭐⭐⭐ 三个系统+数据效率分析有说服力,但系统和任务多样性可进一步扩展
- 写作质量: ⭐⭐⭐⭐ 简洁清晰,核心信息突出,适合快速阅读
- 价值: ⭐⭐⭐⭐ "隐空间预测优于像素预测"的发现对科学ML方向有指导意义