跳转至

Learning non-equilibrium diffusions with Schrödinger bridges: from exactly solvable to simulation-free

会议: NeurIPS 2025
arXiv: 2505.16644
代码: 无
领域: others / 概率建模
关键词: Schrödinger桥, 非平衡扩散, Ornstein-Uhlenbeck过程, Flow Matching, 最优传输

一句话总结

将Schrödinger桥问题从布朗运动参考过程推广到多变量Ornstein-Uhlenbeck(mvOU)参考过程,推导高斯情形精确解,并提出无模拟的mvOU-OTFM算法处理一般分布。

研究背景与动机

领域现状:Schrödinger桥问题(SBP)是从种群快照重建随机动力学的理论核心,广泛应用于生物细胞动态建模和生成模型。

现有痛点:现有方法几乎都假设布朗运动或标量OU过程作为参考动力学,只能建模梯度驱动的(平衡态)系统;而生物系统等天然处于非平衡态。

核心矛盾:非平衡系统需要非对称漂移矩阵(非保守力场),但允许一般漂移的方法(如IPFP、Neural SDE)依赖昂贵的数值模拟,且高维精度差。

本文目标:在线性参考动力学(mvOU过程)框架下高效精确地求解非平衡系统的SBP。

切入角度:利用mvOU过程的解析可处理性,在物理相关性和计算可行性之间取得平衡。

核心 idea:用mvOU过程作为参考过程,利用其解析桥公式实现无模拟的score/flow matching训练。

方法详解

整体框架

通过两步求解SBP:(1) 利用entropic最优传输求解静态SBP获得最优耦合 \(\pi\);(2) 利用mvOU桥的解析公式通过score和flow matching训练神经网络近似动态SBP解。

关键设计

  1. mvOU桥的解析表征(Theorem 1 & 2)

    • 功能:推导mvOU过程条件化在初末端点后的桥SDE、score函数和flow场的闭式表达
    • 为什么:这些闭式表达是无模拟训练的基础
    • 怎么做:桥的SDE为 \(d\mathbf{Y}_t = (\mathbf{A}(\mathbf{Y}_t - \mathbf{m}) + \mathbf{c}_{t|(\mathbf{x}_0,\mathbf{x}_1)})dt + \boldsymbol{\sigma} d\mathbf{B}_t\),其中控制项 \(\mathbf{c}_{t} = -\mathbf{\Lambda}_t^{-1}(\mathbf{Y}_t - \mathbf{k}_t)\)
    • Score: \(\mathbf{s}_{t|(\mathbf{x}_0,\mathbf{x}_T)}(\mathbf{x}) = \mathbf{\Sigma}_{t|(\mathbf{x}_0,\mathbf{x}_T)}^{-1}(\boldsymbol{\mu}_{t|(\mathbf{x}_0,\mathbf{x}_T)} - \mathbf{x})\)
    • 区别:当 \(\mathbf{A}=0\) 时退化为标准布朗桥公式
  2. 高斯Schrödinger桥精确解(Theorem 3)

    • 功能:对高斯端点分布给出mvOU-GSB的完整解析表征
    • 为什么:提供精度基准,同时本身可直接用于高斯分布间的插值
    • 怎么做:通过坐标变换将mvOU-SBP转化为标准entropic OT问题,推导均值和协方差的闭式公式
    • 区别:推广了Bunne et al. (2023)的标量OU和布朗运动结果
  3. mvOU-OTFM算法(Proposition 1 & Theorem 4)

    • 功能:对一般(非高斯)分布提供无模拟的训练算法
    • 为什么:一般分布无法直接获得解析解
    • 怎么做:先用Sinkhorn算法求解静态SBP(利用解析的mvOU传输代价),再用条件score和flow matching训练
    • 损失函数:\(L(\theta,\varphi) = \mathbb{E}[\|\mathbf{u}_t^\theta(\mathbf{z}) - \mathbf{u}_{t|(\mathbf{x}_0,\mathbf{x}_T)}(\mathbf{z})\|^2 + \lambda_t \|\mathbf{s}_t^\varphi(\mathbf{z}) - \mathbf{s}_{t|(\mathbf{x}_0,\mathbf{x}_T)}(\mathbf{z})\|^2]\)
    • 区别:Tong et al. (2023b)的布朗版本是特殊情形
  4. 迭代参考过程精化(Algorithm 2)

    • 功能:从数据中学习最优的mvOU参考过程参数
    • 为什么:初始参考过程可能不够准确
    • 怎么做:交替求解SBP和通过正则化线性回归更新 \((\mathbf{A}, \mathbf{m})\)

损失函数 / 训练策略

  • 联合score和flow matching损失(公式19)
  • Sinkhorn算法解耦的两阶段训练(先OT耦合,再神经网络回归)
  • mvOU桥的 \(\mathbf{\Phi}_t\)\(\mathbf{\Omega}_t\) 只需一次性积分,可缓存复用

实验关键数据

主实验

高斯SBP精度对比 (Bures-Wasserstein边际误差):

维度d mvOU-OTFM BM-OTFM IPML (→) NLSB
2 0.19±0.17 8.40±0.77 5.65±1.41 1.21±0.18
10 0.59±0.36 8.93±0.55 3.00±0.63 1.36±0.13
50 2.21±0.36 11.74±0.37 8.32±0.63 6.39±0.13
100 6.84±0.78 15.14±0.95 14.38±0.38 17.40±0.13

Repressilator leave-one-out插值误差

指标 迭代0 迭代4 SBIRR(mvOU) SBIRR(MLP)
EMD 3.38±1.52 1.40±0.57 2.10±0.74 1.67±0.95
Energy距离 1.86±1.06 0.89±0.55 1.39±0.82 1.10±0.86

消融实验

细胞周期数据:mvOU参考过程缩放参数γ的影响: - γ=0(布朗运动):无法恢复循环动力学 - γ=30~70:Bures-Wasserstein插值误差最小 - γ过大(>100):性能退化 - 最优γ=50能正确恢复细胞周期循环行为

关键发现

  • mvOU-OTFM在所有维度上精度最高,在d=50时边际误差仅为NLSB的1/3
  • 训练速度极快:d=50在CPU上1-2分钟(vs NLSB在GPU上15+分钟)
  • 迭代精化参考过程能持续降低误差
  • 从repressilator数据中学到的漂移矩阵 \(\mathbf{A}\) 与系统Jacobian的循环激活-抑制模式高度吻合
  • 在真实scRNA-seq数据上,mvOU参考成功恢复细胞周期循环,而布朗参考失败

亮点与洞察

  • 理论贡献扎实:四个定理完整覆盖了mvOU-SBP的解析理论,从桥表征到高斯精确解到无模拟学习
  • 物理直觉与数学结合:非对称漂移矩阵自然建模非平衡系统,线性框架保持了可处理性
  • 实用性强:CPU上分钟级训练,显著优于GPU上的竞争方法
  • 优雅的统一:布朗SBP和标量OU-SBP都是特殊情形

局限与展望

  • 矩阵运算 \(O(d^3)\) 复杂度限制了扩展到高维(d>100)
  • 线性参考动力学假设限制了对高度非线性系统的建模能力
  • minibatch OT耦合可能引入偏差
  • 可结合Gaussian Process技术扩展到更高维度

相关工作与启发

  • 与Bunne et al. (2023)的高斯SBP工作形成理论推广关系
  • Tong et al. (2023b)的[SF]²M是本方法在布朗参考下的特殊情形
  • SBIRR (Shen et al. 2024)的迭代精化思路被本文采用但用更高效的求解器
  • 为单细胞RNA-seq动态建模提供了计算效率更高的工具

评分

  • 新颖性: ⭐⭐⭐⭐ 理论推广扎实但方向延续性强
  • 实验充分度: ⭐⭐⭐⭐ 合成+生物数据覆盖全面,有精确解做基准
  • 写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨,符号统一,逻辑链清晰
  • 价值: ⭐⭐⭐⭐ 在计算生物学和生成模型领域都有实际应用价值

相关论文