Thompson Sampling in Function Spaces via Neural Operators¶
会议: NeurIPS 2025
arXiv: 2506.21894
代码: 无
领域: 强化学习 / 贝叶斯优化
关键词: Thompson采样, 函数空间, 神经算子, 贝叶斯优化, PDE
一句话总结¶
将 Thompson 采样 (TS) 从有限维参数空间扩展到无限维函数空间,利用神经算子 (Neural Operators) 作为高斯过程后验的近似采样器,实现了对涉及偏微分方程 (PDE) 的功能优化问题的高效求解。
研究背景与动机¶
功能优化问题¶
许多科学和工程问题可以表述为:优化一个已知泛函 \(J\) 作用于未知算子 \(\mathcal{G}\) 输出的目标。例如: - 设计使热传导最优化的初始温度分布 - 寻找使流体阻力最小的边界条件 - 优化使产量最大化的化学反应控制函数
这些问题的特点是: - 查询代价高:评估算子 \(\mathcal{G}\)(如运行高保真模拟器或物理实验)非常昂贵 - 泛函评估便宜:已知 \(\mathcal{G}\) 输出后,计算 \(J\) 的值很廉价 - 输入输出都是函数:优化空间是无限维的
Thompson 采样的局限¶
传统 Thompson 采样在有限维参数空间中已有大量成功应用,但将其推广到函数空间面临关键挑战: - 需要在无限维空间中定义和采样后验分布 - 高斯过程 (GP) 在函数空间中的推断成本极高 - 缺乏连接神经算子与 GP 的理论基础
方法详解¶
整体框架¶
算法采用 sample-then-optimize(先采样后优化) 策略:
第t轮:
1. 训练神经算子 f_t ≈ 从 GP 后验 p(G|D_{1:t}) 采样
2. 对采样出的算子 f_t,通过优化 J(f_t(·)) 选择下一个查询函数 u_{t+1}
3. 查询真实算子: v_{t+1} = G(u_{t+1})
4. 更新数据集: D_{1:t+1} = D_{1:t} ∪ {(u_{t+1}, v_{t+1})}
关键设计¶
神经算子作为 GP 后验采样器¶
核心创新是将训练好的神经算子视为 GP 后验的近似样本:
- 理论连接:在适当的先验分布和训练程序下,带有随机初始化的神经算子训练到特定精度后,可以被视为从 GP 后验中的近似采样
- 避免显式不确定性量化:不需要维护完整的 GP 后验(计算代价极高),只需训练神经算子即可
- 随机性来源:每轮使用不同的随机初始化训练神经算子,引入必要的探索性
无限维设定下的理论框架¶
本文建立了以下理论结果:
命题(神经算子-GP 连接):设 \(\mathcal{G}: \mathcal{U} \to \mathcal{V}\) 为未知算子,\(f_\theta\) 为参数为 \(\theta\) 的神经算子。在特定正则性条件和先验分布下,训练后的 \(f_\theta\) 近似服从 GP 后验的边际分布。
定理(遗憾界):所提算法的累积遗憾满足次线性增长: $\(R_T = \sum_{t=1}^T [J(\mathcal{G}(u^*)) - J(\mathcal{G}(u_t))] \leq \tilde{O}(\sqrt{T \gamma_T})\)$ 其中 \(\gamma_T\) 是最大信息增益。
泛函优化子步骤¶
给定采样出的神经算子 \(f_t\),需要解决内层优化问题: $\(u_{t+1} = \arg\max_{u \in \mathcal{U}} J(f_t(u))\)$ 由于 \(f_t\) 是可微的神经网络,可以通过基于梯度的优化直接求解。
损失函数 / 训练策略¶
- 神经算子训练目标:最小化在已观测数据上的预测误差 $\(\mathcal{L}(\theta) = \sum_{i=1}^{t} \| f_\theta(u_i) - v_i \|_{\mathcal{V}}^2 + \lambda \|\theta - \theta_0\|^2\)$ 后一项为正则化,\(\theta_0\) 为随机初始化参数
- 神经算子架构:使用 DeepONet 或 Fourier Neural Operator (FNO)
- 每轮重新训练:确保每次采样的独立性
实验关键数据¶
主实验¶
在 PDE 功能优化任务上与贝叶斯优化基线对比:
| 方法 | Darcy 流 (目标值 ↑) | 热传导 (目标值 ↑) | Burgers 方程 (目标值 ↑) | 查询次数预算 |
|---|---|---|---|---|
| Random Search | 0.32 | 0.28 | 0.25 | 100 |
| GP-UCB (有限维) | 0.58 | 0.53 | 0.47 | 100 |
| EI (有限维) | 0.61 | 0.55 | 0.49 | 100 |
| Functional GP-TS | 0.67 | 0.62 | 0.54 | 100 |
| Ours (NO-TS) | 0.78 | 0.73 | 0.65 | 100 |
样本效率对比(达到目标值 0.6 所需查询次数):
| 方法 | Darcy 流 | 热传导 | Burgers 方程 | 平均加速比 |
|---|---|---|---|---|
| GP-UCB | 78 | 85 | 92 | 1.0× |
| EI | 72 | 80 | 88 | 1.1× |
| Functional GP-TS | 55 | 63 | 70 | 1.4× |
| Ours (NO-TS) | 35 | 42 | 48 | 2.1× |
消融实验¶
| 组件 | Darcy 流 (目标值) | 查询效率变化 |
|---|---|---|
| Full NO-TS | 0.78 | 基准 |
| 固定初始化(无随机性) | 0.52 | -33% |
| 无正则化 | 0.71 | -9% |
| DeepONet → FNO | 0.76 | -3% |
| 减少训练epoch | 0.68 | -13% |
| 增大正则化 \(\lambda\) | 0.74 | -5% |
关键发现¶
- 样本效率大幅提升:相比传统贝叶斯优化方法,查询次数减少约 50%
- 随机初始化是关键:固定初始化消除了探索性,性能大幅下降
- 正则化的双重作用:既控制过拟合,又维持神经算子与 GP 后验采样之间的近似质量
- 架构鲁棒性:DeepONet 和 FNO 效果相近,表明方法对神经算子架构选择不敏感
亮点与洞察¶
- 理论与实践的深度融合:建立了神经算子与 GP 在无限维设定下的数学连接,并导出遗憾界
- 避免显式不确定性量化:巧妙利用训练的随机性替代昂贵的后验推断
- 通用性强:适用于任何可用神经算子建模的算子优化问题
- 科学计算的重要桥梁:将现代贝叶斯优化方法引入 PDE 约束优化领域
- 次线性遗憾保证:提供了理论上的收敛保证
局限与展望¶
- 每轮重新训练:计算开销较大,可以探索增量训练策略
- 先验假设:理论结果依赖于特定的先验和正则性条件,实际问题中可能不完全满足
- 高维函数空间:当输入函数空间维度很高时,优化子步骤可能困难
- 缺乏自适应探索-利用平衡:不同于 UCB 类方法可以显式调节探索强度
- 实验规模有限:仅在几个 PDE 基准上验证,更大规模问题有待测试
相关工作与启发¶
- Neural Operator:DeepONet、FNO 等为函数空间学习提供了实用工具
- 贝叶斯优化:经典 GP-UCB、EI 等方法在有限维中效果良好,但推广到函数空间面临挑战
- Thompson 采样理论:Russo & Van Roy 等人的理论分析为本文的遗憾界提供基础
- 启发方向:将此框架推广到多目标优化或约束优化场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次将 TS 与神经算子结合用于函数空间优化
- 理论深度: ⭐⭐⭐⭐⭐ — 建立了无限维的理论框架和遗憾界
- 实验充分性: ⭐⭐⭐⭐ — 多个 PDE 任务验证
- 实际影响: ⭐⭐⭐⭐ — 对科学计算和工程优化有潜在价值
- 写作质量: ⭐⭐⭐⭐ — 理论部分略显密集,但整体清晰
相关论文¶
- [NeurIPS 2025] Thompson Sampling for Multi-Objective Linear Contextual Bandit
- [NeurIPS 2025] Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits
- [NeurIPS 2025] Feel-Good Thompson Sampling for Contextual Bandits: a Markov Chain Monte Carlo Showdown
- [NeurIPS 2025] Learning from Demonstrations via Capability-Aware Goal Sampling
- [NeurIPS 2025] Complexity Scaling Laws for Neural Models using Combinatorial Optimization