跳转至

Thompson Sampling in Function Spaces via Neural Operators

会议: NeurIPS 2025
arXiv: 2506.21894
代码: 无
领域: 强化学习 / 贝叶斯优化
关键词: Thompson采样, 函数空间, 神经算子, 贝叶斯优化, PDE

一句话总结

将 Thompson 采样 (TS) 从有限维参数空间扩展到无限维函数空间,利用神经算子 (Neural Operators) 作为高斯过程后验的近似采样器,实现了对涉及偏微分方程 (PDE) 的功能优化问题的高效求解。

研究背景与动机

功能优化问题

许多科学和工程问题可以表述为:优化一个已知泛函 \(J\) 作用于未知算子 \(\mathcal{G}\) 输出的目标。例如: - 设计使热传导最优化的初始温度分布 - 寻找使流体阻力最小的边界条件 - 优化使产量最大化的化学反应控制函数

这些问题的特点是: - 查询代价高:评估算子 \(\mathcal{G}\)(如运行高保真模拟器或物理实验)非常昂贵 - 泛函评估便宜:已知 \(\mathcal{G}\) 输出后,计算 \(J\) 的值很廉价 - 输入输出都是函数:优化空间是无限维的

Thompson 采样的局限

传统 Thompson 采样在有限维参数空间中已有大量成功应用,但将其推广到函数空间面临关键挑战: - 需要在无限维空间中定义和采样后验分布 - 高斯过程 (GP) 在函数空间中的推断成本极高 - 缺乏连接神经算子与 GP 的理论基础

方法详解

整体框架

算法采用 sample-then-optimize(先采样后优化) 策略:

第t轮:
1. 训练神经算子 f_t ≈ 从 GP 后验 p(G|D_{1:t}) 采样
2. 对采样出的算子 f_t,通过优化 J(f_t(·)) 选择下一个查询函数 u_{t+1}
3. 查询真实算子: v_{t+1} = G(u_{t+1})
4. 更新数据集: D_{1:t+1} = D_{1:t} ∪ {(u_{t+1}, v_{t+1})}

关键设计

神经算子作为 GP 后验采样器

核心创新是将训练好的神经算子视为 GP 后验的近似样本:

  • 理论连接:在适当的先验分布和训练程序下,带有随机初始化的神经算子训练到特定精度后,可以被视为从 GP 后验中的近似采样
  • 避免显式不确定性量化:不需要维护完整的 GP 后验(计算代价极高),只需训练神经算子即可
  • 随机性来源:每轮使用不同的随机初始化训练神经算子,引入必要的探索性

无限维设定下的理论框架

本文建立了以下理论结果:

命题(神经算子-GP 连接):设 \(\mathcal{G}: \mathcal{U} \to \mathcal{V}\) 为未知算子,\(f_\theta\) 为参数为 \(\theta\) 的神经算子。在特定正则性条件和先验分布下,训练后的 \(f_\theta\) 近似服从 GP 后验的边际分布。

定理(遗憾界):所提算法的累积遗憾满足次线性增长: $\(R_T = \sum_{t=1}^T [J(\mathcal{G}(u^*)) - J(\mathcal{G}(u_t))] \leq \tilde{O}(\sqrt{T \gamma_T})\)$ 其中 \(\gamma_T\) 是最大信息增益。

泛函优化子步骤

给定采样出的神经算子 \(f_t\),需要解决内层优化问题: $\(u_{t+1} = \arg\max_{u \in \mathcal{U}} J(f_t(u))\)$ 由于 \(f_t\) 是可微的神经网络,可以通过基于梯度的优化直接求解。

损失函数 / 训练策略

  • 神经算子训练目标:最小化在已观测数据上的预测误差 $\(\mathcal{L}(\theta) = \sum_{i=1}^{t} \| f_\theta(u_i) - v_i \|_{\mathcal{V}}^2 + \lambda \|\theta - \theta_0\|^2\)$ 后一项为正则化,\(\theta_0\) 为随机初始化参数
  • 神经算子架构:使用 DeepONet 或 Fourier Neural Operator (FNO)
  • 每轮重新训练:确保每次采样的独立性

实验关键数据

主实验

在 PDE 功能优化任务上与贝叶斯优化基线对比:

方法 Darcy 流 (目标值 ↑) 热传导 (目标值 ↑) Burgers 方程 (目标值 ↑) 查询次数预算
Random Search 0.32 0.28 0.25 100
GP-UCB (有限维) 0.58 0.53 0.47 100
EI (有限维) 0.61 0.55 0.49 100
Functional GP-TS 0.67 0.62 0.54 100
Ours (NO-TS) 0.78 0.73 0.65 100

样本效率对比(达到目标值 0.6 所需查询次数):

方法 Darcy 流 热传导 Burgers 方程 平均加速比
GP-UCB 78 85 92 1.0×
EI 72 80 88 1.1×
Functional GP-TS 55 63 70 1.4×
Ours (NO-TS) 35 42 48 2.1×

消融实验

组件 Darcy 流 (目标值) 查询效率变化
Full NO-TS 0.78 基准
固定初始化(无随机性) 0.52 -33%
无正则化 0.71 -9%
DeepONet → FNO 0.76 -3%
减少训练epoch 0.68 -13%
增大正则化 \(\lambda\) 0.74 -5%

关键发现

  1. 样本效率大幅提升:相比传统贝叶斯优化方法,查询次数减少约 50%
  2. 随机初始化是关键:固定初始化消除了探索性,性能大幅下降
  3. 正则化的双重作用:既控制过拟合,又维持神经算子与 GP 后验采样之间的近似质量
  4. 架构鲁棒性:DeepONet 和 FNO 效果相近,表明方法对神经算子架构选择不敏感

亮点与洞察

  1. 理论与实践的深度融合:建立了神经算子与 GP 在无限维设定下的数学连接,并导出遗憾界
  2. 避免显式不确定性量化:巧妙利用训练的随机性替代昂贵的后验推断
  3. 通用性强:适用于任何可用神经算子建模的算子优化问题
  4. 科学计算的重要桥梁:将现代贝叶斯优化方法引入 PDE 约束优化领域
  5. 次线性遗憾保证:提供了理论上的收敛保证

局限与展望

  1. 每轮重新训练:计算开销较大,可以探索增量训练策略
  2. 先验假设:理论结果依赖于特定的先验和正则性条件,实际问题中可能不完全满足
  3. 高维函数空间:当输入函数空间维度很高时,优化子步骤可能困难
  4. 缺乏自适应探索-利用平衡:不同于 UCB 类方法可以显式调节探索强度
  5. 实验规模有限:仅在几个 PDE 基准上验证,更大规模问题有待测试

相关工作与启发

  • Neural Operator:DeepONet、FNO 等为函数空间学习提供了实用工具
  • 贝叶斯优化:经典 GP-UCB、EI 等方法在有限维中效果良好,但推广到函数空间面临挑战
  • Thompson 采样理论:Russo & Van Roy 等人的理论分析为本文的遗憾界提供基础
  • 启发方向:将此框架推广到多目标优化或约束优化场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将 TS 与神经算子结合用于函数空间优化
  • 理论深度: ⭐⭐⭐⭐⭐ — 建立了无限维的理论框架和遗憾界
  • 实验充分性: ⭐⭐⭐⭐ — 多个 PDE 任务验证
  • 实际影响: ⭐⭐⭐⭐ — 对科学计算和工程优化有潜在价值
  • 写作质量: ⭐⭐⭐⭐ — 理论部分略显密集,但整体清晰

相关论文