Thompson Sampling in Function Spaces via Neural Operators¶

会议: NeurIPS 2025
arXiv: 2506.21894
代码: 无
领域: 强化学习 / 贝叶斯优化
关键词: Thompson采样, 函数空间, 神经算子, 贝叶斯优化, PDE

一句话总结¶

将 Thompson 采样 (TS) 从有限维参数空间扩展到无限维函数空间，利用神经算子 (Neural Operators) 作为高斯过程后验的近似采样器，实现了对涉及偏微分方程 (PDE) 的功能优化问题的高效求解。

研究背景与动机¶

功能优化问题¶

许多科学和工程问题可以表述为：优化一个已知泛函 $J$ 作用于未知算子 $\mathcal{G}$ 输出的目标。例如： - 设计使热传导最优化的初始温度分布 - 寻找使流体阻力最小的边界条件 - 优化使产量最大化的化学反应控制函数

这些问题的特点是： - 查询代价高：评估算子 $\mathcal{G}$（如运行高保真模拟器或物理实验）非常昂贵 - 泛函评估便宜：已知 $\mathcal{G}$ 输出后，计算 $J$ 的值很廉价 - 输入输出都是函数：优化空间是无限维的

Thompson 采样的局限¶

传统 Thompson 采样在有限维参数空间中已有大量成功应用，但将其推广到函数空间面临关键挑战： - 需要在无限维空间中定义和采样后验分布 - 高斯过程 (GP) 在函数空间中的推断成本极高 - 缺乏连接神经算子与 GP 的理论基础

方法详解¶

整体框架¶

算法采用 sample-then-optimize（先采样后优化） 策略：

第t轮:
1. 训练神经算子 f_t ≈ 从 GP 后验 p(G|D_{1:t}) 采样
2. 对采样出的算子 f_t，通过优化 J(f_t(·)) 选择下一个查询函数 u_{t+1}
3. 查询真实算子: v_{t+1} = G(u_{t+1})
4. 更新数据集: D_{1:t+1} = D_{1:t} ∪ {(u_{t+1}, v_{t+1})}

关键设计¶

神经算子作为 GP 后验采样器¶

核心创新是将训练好的神经算子视为 GP 后验的近似样本：

理论连接：在适当的先验分布和训练程序下，带有随机初始化的神经算子训练到特定精度后，可以被视为从 GP 后验中的近似采样
避免显式不确定性量化：不需要维护完整的 GP 后验（计算代价极高），只需训练神经算子即可
随机性来源：每轮使用不同的随机初始化训练神经算子，引入必要的探索性

无限维设定下的理论框架¶

本文建立了以下理论结果：

命题（神经算子-GP 连接）：设 $\mathcal{G}: \mathcal{U} \to \mathcal{V}$ 为未知算子，$f_\theta$ 为参数为 $\theta$ 的神经算子。在特定正则性条件和先验分布下，训练后的 $f_\theta$ 近似服从 GP 后验的边际分布。

定理（遗憾界）：所提算法的累积遗憾满足次线性增长： $$R_T = \sum_{t=1}^T [J(\mathcal{G}(u^*)) - J(\mathcal{G}(u_t))] \leq \tilde{O}(\sqrt{T \gamma_T})$$ 其中 $\gamma_T$ 是最大信息增益。

泛函优化子步骤¶

给定采样出的神经算子 $f_t$，需要解决内层优化问题： $$u_{t+1} = \arg\max_{u \in \mathcal{U}} J(f_t(u))$$ 由于 $f_t$ 是可微的神经网络，可以通过基于梯度的优化直接求解。

损失函数 / 训练策略¶

神经算子训练目标：最小化在已观测数据上的预测误差 $$\mathcal{L}(\theta) = \sum_{i=1}^{t} \| f_\theta(u_i) - v_i \|_{\mathcal{V}}^2 + \lambda \|\theta - \theta_0\|^2$$ 后一项为正则化，$\theta_0$ 为随机初始化参数
神经算子架构：使用 DeepONet 或 Fourier Neural Operator (FNO)
每轮重新训练：确保每次采样的独立性

实验关键数据¶

主实验¶

在 PDE 功能优化任务上与贝叶斯优化基线对比：

方法	Darcy 流 (目标值 ↑)	热传导 (目标值 ↑)	Burgers 方程 (目标值 ↑)	查询次数预算
Random Search	0.32	0.28	0.25	100
GP-UCB (有限维)	0.58	0.53	0.47	100
EI (有限维)	0.61	0.55	0.49	100
Functional GP-TS	0.67	0.62	0.54	100
Ours (NO-TS)	0.78	0.73	0.65	100

样本效率对比（达到目标值 0.6 所需查询次数）：

方法	Darcy 流	热传导	Burgers 方程	平均加速比
GP-UCB	78	85	92	1.0×
EI	72	80	88	1.1×
Functional GP-TS	55	63	70	1.4×
Ours (NO-TS)	35	42	48	2.1×

消融实验¶

组件	Darcy 流 (目标值)	查询效率变化
Full NO-TS	0.78	基准
固定初始化（无随机性）	0.52	-33%
无正则化	0.71	-9%
DeepONet → FNO	0.76	-3%
减少训练epoch	0.68	-13%
增大正则化 $\lambda$	0.74	-5%

关键发现¶

样本效率大幅提升：相比传统贝叶斯优化方法，查询次数减少约 50%
随机初始化是关键：固定初始化消除了探索性，性能大幅下降
正则化的双重作用：既控制过拟合，又维持神经算子与 GP 后验采样之间的近似质量
架构鲁棒性：DeepONet 和 FNO 效果相近，表明方法对神经算子架构选择不敏感

亮点与洞察¶

理论与实践的深度融合：建立了神经算子与 GP 在无限维设定下的数学连接，并导出遗憾界
避免显式不确定性量化：巧妙利用训练的随机性替代昂贵的后验推断
通用性强：适用于任何可用神经算子建模的算子优化问题
科学计算的重要桥梁：将现代贝叶斯优化方法引入 PDE 约束优化领域
次线性遗憾保证：提供了理论上的收敛保证

局限与展望¶

每轮重新训练：计算开销较大，可以探索增量训练策略
先验假设：理论结果依赖于特定的先验和正则性条件，实际问题中可能不完全满足
高维函数空间：当输入函数空间维度很高时，优化子步骤可能困难
缺乏自适应探索-利用平衡：不同于 UCB 类方法可以显式调节探索强度
实验规模有限：仅在几个 PDE 基准上验证，更大规模问题有待测试

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将 TS 与神经算子结合用于函数空间优化
理论深度: ⭐⭐⭐⭐⭐ — 建立了无限维的理论框架和遗憾界
实验充分性: ⭐⭐⭐⭐ — 多个 PDE 任务验证
实际影响: ⭐⭐⭐⭐ — 对科学计算和工程优化有潜在价值
写作质量: ⭐⭐⭐⭐ — 理论部分略显密集，但整体清晰