跳转至

Representation Learning for Spatiotemporal Physical Systems

会议: CVPR 2026 arXiv: 2603.13227 代码: https://github.com/helenqu/physical-representation-learning (有) 领域: 自监督学习 关键词: JEPA, 物理系统, 表示学习, 参数估计, 时空PDE

一句话总结

在三个 PDE 物理系统上系统对比 JEPA、VideoMAE、自回归基础模型(MPP)和算子学习(DISCO) 四种范式,发现隐空间预测目标(JEPA)在物理参数估计下游任务上全面优于像素级预测方法,MSE 相对改善 28-51%,且数据效率更高。

研究背景与动机

机器学习在时空物理系统上的应用主要聚焦于"下一帧预测"式的自回归代理建模(surrogate modeling),目标是学习数值模拟的高效替代。但这类方法训练昂贵、存在累积误差问题,且更根本地——科学研究的核心需求往往不是逐帧预测,而是更高层的下游任务,如估计系统的控制参数(Reynolds 数、Prandtl 数等)或定性预测(层流 vs 湍流)。

关键矛盾是:哪种学习范式最能保留物理意义信息?直觉上,专为物理建模设计的方法(如自回归基础模型、神经算子)应该优于通用自监督方法。但事实是否如此? 这一问题此前缺乏系统研究。

本文的切入角度是:用"物理参数估计精度"作为表示质量的可量化代理指标,系统评估不同学习范式(隐空间预测 JEPA、像素重建 MAE、自回归基础模型 MPP、算子学习 DISCO)在物理系统上的表示学习效果。核心 idea:预测隐空间表示(而非像素值)可能更好地捕获物理系统的高层动力学信息

方法详解

整体框架

本文不提出新模型架构,而是设计了一个系统性的评估框架: 1. 在三个 PDE 物理系统上分别预训练四种模型 2. 冻结编码器,训练 attentive probe 做物理参数估计 3. 通过参数估计 MSE 评估各方法学到的表示质量

关键设计

  1. JEPA(Joint Embedding Predictive Architecture)用于物理动力学:
  2. 做什么:学习一个编码器 \(f: \mathcal{X} \to \mathcal{Z}\) 和预测器 \(g: \mathcal{Z} \to \mathcal{Z}\),在隐空间预测下一时间段的表示
  3. 核心思路:给定样本的 \(T\) 个时间步 \(x_{0:T}\),将 \(x_{t:t+k}\) 编码为 \(z_i = f(x_i)\),然后最小化隐空间预测误差: $\(\mathcal{L}(f,g) = \mathbb{E}_{x_i, x_{i+1} \sim \mathcal{X}}[\ell_{\text{VICReg}}(g(f(x_i)), f(x_{i+1}))]\)$
  4. 使用 VICReg 损失防止模式坍塌: $\(\ell_{\text{VICReg}}(z_i, z_{i+1}) = \lambda s(z_i, z_{i+1}) + \mu[v(z_i) + v(z_{i+1})] + \nu[c(z_i) + c(z_{i+1})]\)$ 其中 \(s\) 是不变性项(L2距离),\(v\) 是方差正则化,\(c\) 是协方差正则化
  5. 编码器:3D ConvNeXt 下采样 CNN;预测器:通道维度逆瓶颈 CNN
  6. 设计动机:JEPA 在表示空间而非像素空间最小化误差,避免学习低层视觉细节(如纹理),更关注高层动力学特征

  7. VideoMAE 基线(像素级重建):

  8. 做什么:学习 encoder-decoder 对,最小化掩码区域的像素重建误差
  9. 核心思路:时空 tube masking + 像素级 MSE 重建
  10. 架构:ViT-tiny/16,输出 \(l/16 \times w/16 \times t/2 \times 384\)
  11. 设计动机:作为像素级预测范式的代表,与 JEPA 形成对比

  12. 物理建模基线:

  13. MPP(多物理预训练):自回归基础模型,逐帧预测像素值,使用已发布的预训练权重(AViT-tiny)
  14. DISCO:算子元学习框架,从短上下文窗口推断轨迹特定的算子网络,在 The Well 数据集上预训练
  15. 设计动机:测试专为物理设计的方法是否在下游科学任务上真的更优

损失函数 / 训练策略

  • JEPA 和 VideoMAE 对每个物理系统分别预训练(6 epoch),以学习系统特定的动力学
  • 微调阶段:冻结编码器,训练 attentive probe 100 epoch(参照 V-JEPA 的微调方案)
  • MPP 因预训练未包含目标数据集,采用端到端微调
  • AdamW 优化器 + cosine 学习率调度
  • VICReg 超参:\(\lambda=2, \mu=40, \nu=2\)
  • 输入:\(l \times w \times d \times 16\)(16 帧上下文)

实验关键数据

主实验

方法 类型 Active Matter MSE↓ Shear Flow MSE↓ Rayleigh-Bénard MSE↓
JEPA 隐空间预测 0.079 0.38 0.13
VideoMAE 像素重建 0.160 0.67 0.18
DISCO 算子学习 0.057 0.13 0.01
MPP (全微调) 自回归基础模型 0.230 0.59 0.08

JEPA vs VideoMAE 改善:Active Matter 51%,Shear Flow 43%,Rayleigh-Bénard 28%

消融实验

微调数据比例 JEPA MSE↓ VideoMAE MSE↓ 说明(Shear Flow)
10% 0.57 0.98 JEPA 10%数据已超 VideoMAE 100%数据
50% 0.40 0.75 JEPA 达 95% 最佳性能
100% 0.38 0.67 基线对比

关键发现

  • JEPA 在所有三个物理系统上全面优于 VideoMAE,且差距一致(28-51%)
  • 非所有物理建模方法都优于通用自监督:MPP(自回归基础模型)尽管端到端微调,仍在 Active Matter 和 Shear Flow 上逊于冻结权重的 JEPA。这与 NLP 领域"自回归模型在非生成任务上表现不如编码器模型"(BERT vs GPT)的发现一致
  • DISCO 和 JEPA 是各自类别的最佳:两者都是隐空间预测模型(DISCO 通过超网络输出隐嵌入,JEPA 通过编码器预测隐表示),而 MPP 和 VideoMAE 都是像素级预测 → 强烈暗示隐空间机制是关键
  • JEPA 数据效率更高:仅用 10% 微调数据即超越 VideoMAE 用 100% 数据的性能
  • 不同系统间方法的相对排序有变化:DISCO 在 Rayleigh-Bénard 上 MSE=0.01 远超其他方法,可能因为该系统的物理结构与 DISCO 的算子学习范式特别匹配

亮点与洞察

  • 视角新颖:将自监督表示学习评估从"ImageNet 图像分类"转向"物理参数估计",提供了独特的科学视角
  • 核心发现深刻:隐空间预测 > 像素预测,这一结论跨三个不同物理系统一致成立,具有普遍意义
  • 与 NLP 的类比:自回归模型在非生成下游任务上弱于编码器模型,这在物理建模领域得到了验证(MPP vs JEPA),呼应了 BERT vs GPT 的经典讨论
  • 实验设计精巧:用可量化的物理参数作为表示质量代理,避免了传统评估中指标选择的主观性
  • 简洁有力:论文短小精悍,不追求复杂方法,核心贡献是实验发现和洞察

局限性 / 可改进方向

  • 仅评估了三个 2D PDE 系统,对 3D 系统、粒子系统、非 PDE 系统的泛化性未知
  • 下游任务仅限于参数估计(回归),未涉及分类(如层流/湍流判断)或其他科学任务
  • JEPA 编码器是简单 3D CNN,未探索更大规模模型或更复杂架构的影响
  • 未分析各方法学到的表示在物理上"到底在表示什么"——缺乏可视化或可解释性分析
  • DISCO 在某些系统上大幅领先(Rayleigh-Bénard MSE 0.01 vs JEPA 0.13),说明物理归纳偏置在特定场景仍有不可替代的优势

相关工作与启发

  • V-JEPA(Assran et al., 2025)和 VICReg(Bardes et al., 2021):为 JEPA 在时空数据上的应用提供了理论和实践基础
  • MPP(McCabe et al., 2024):物理基础模型的代表,其在非生成任务上的弱表现值得该领域关注
  • DISCO(Morel et al., 2025):算子元学习的代表,其强表现印证了物理归纳偏置的价值
  • The Well(Ohana et al., 2025):提供了标准化的物理系统数据集
  • 启发:在科学机器学习中,可能需要区分"需要精确模拟"和"需要理解系统"两类任务,为后者选择表示学习而非自回归建模

评分

  • 新颖性: ⭐⭐⭐⭐ 视角新颖但方法本身(JEPA)非新提出,贡献在于系统性实验发现
  • 实验充分度: ⭐⭐⭐ 三个系统+数据效率分析有说服力,但系统和任务多样性可进一步扩展
  • 写作质量: ⭐⭐⭐⭐ 简洁清晰,核心信息突出,适合快速阅读
  • 价值: ⭐⭐⭐⭐ "隐空间预测优于像素预测"的发现对科学ML方向有指导意义