Thompson Sampling via Fine-Tuning of LLMs¶

会议: ICLR 2026
arXiv: 2510.13328
代码: GitHub
领域: 贝叶斯优化 / LLM微调
关键词: Thompson Sampling, Bayesian Optimization, LLM Fine-Tuning, Probability of Maximality, VBOS

一句话总结¶

提出 ToSFiT，通过微调大语言模型直接参数化最大概率（Probability of Maximality），将 Thompson Sampling 扩展到大规模非结构化离散空间，避免了获取函数最大化的难题。

研究背景与动机¶

贝叶斯优化在大规模非结构化离散空间（如氨基酸序列、量子电路设计）中面临核心挑战：由于缺乏梯度信息，获取函数（acquisition function）的最大化在组合级别大的离散域中不可行。例如，20种氨基酸、长度100的蛋白质序列空间已超过宇宙原子数。

Thompson Sampling（TS）是一种经典的贝叶斯优化策略，通过从奖励后验中采样并选择最大化该样本的点来进行探索-利用平衡。其采样分布本质上就是最大概率（Probability of Maximality, PoM）。然而在大规模离散域中，直接从 PoM 采样同样需要遍历所有点。

核心思路：既然 LLM 已经通过预训练编码了丰富的先验知识，能否直接用 LLM 的生成分布来参数化 PoM，从而将 Thompson Sampling 转化为 LLM 微调问题？

方法详解¶

整体框架¶

ToSFiT 的核心思想是将候选生成视为 Thompson 采样，用预训练 LLM 参数化 PoM，并通过 VBOS 目标函数增量式地将 LLM 适配到后验 PoM。整个流程：

用 prompt-conditioned LLM 生成初始候选并观测
拟合高斯过程奖励模型
迭代：生成候选 → 估计 VBOS 梯度 → 微调 LLM → 观测新候选

变分贝叶斯乐观采样 (VBOS)¶

PoM 可以通过最大化 VBOS 目标来近似：

\[\mathcal{V}(\pi) = \mathbb{E}_{x \sim \pi}\left[\mu_x + \sqrt{-2\ln(\pi_x)} \cdot \sigma_x\right]\]

其中 \(\mu_x\) 是后验均值，\(\sigma_x\) 是后验标准差。\(\sqrt{-2\ln(\pi_x)}\) 项充当自适应 UCB 探索奖励。

VBOS 梯度推导（Proposition 1）¶

\[\frac{d}{d\theta}\mathcal{V}(\pi^\theta) = \mathbb{E}_{x \sim \pi^\theta}\left[(\mu_x - \xi - v^{-1}(\pi_x^\theta) \cdot \sigma_x) \cdot \frac{d}{d\theta}\ln\pi_x^\theta\right]\]

其中 \(v^{-1}(u) = \sqrt{-2\ln u} - 1/\sqrt{-2\ln u}\)。这个梯度具有能量模型的解释：当 LLM 隐含的期望奖励 \(\mu_x^\theta\) 低估了真实 \(\mu_x\) 时，生成概率被提升。

梯度稳定化¶

使用 RLOO 基线（Reinforce Leave-One-Out）减少方差
通过优势函数的经验标准差做归一化
数学上等价于 GRPO（Group Relative Policy Optimization）

高斯过程可扩展性¶

通过特征映射 \(\phi: X \to \mathbb{H}\) 将核函数转化为线性核，复杂度为 \(\Theta(\dim(\mathbb{H})^2)\)，与观测数量无关。

损失/目标函数¶

\[\frac{d}{d\theta}\mathcal{V}(\pi^\theta) \approx \frac{1}{B}\sum_i \frac{\hat{\hat{r}}_{x_i}^\theta - \xi_i}{\widehat{\text{advantage std}}} \cdot \frac{d}{d\theta}\ln\pi_{x_i}^\theta\]

理论分析¶

Theorem 1（核心理论贡献）：将精确 VBOS 的累积遗憾上界从 \(\tilde{\mathcal{O}}(\sqrt{T|X|})\) 改进到 \(\tilde{\mathcal{O}}(\sqrt{T\gamma^T})\)（\(\gamma^T\) 为最大信息增益），并首次给出近似 VBOS 的遗憾上界：

\[\mathbb{E}\left[\sum_{t=1}^T R^* - R_{x^t}\right] \leq \sqrt{C_{\sigma_n} H T \gamma^T} + \mathbb{E}\sum_{t=1}^T D_{\sigma^t}(\pi^t, \tilde{\pi}^t)\]

关键 insight：策略初始化必须接近先验（预训练+上下文），微调需要谨慎（小学习率）以保持先验知识。

实验¶

三个任务¶

任务	模型	搜索空间	奖励
FAQ 回答优化	Qwen3-1.7B/8B	所有 token 序列	语义对齐分数
蛋白质搜索	ProtGPT2-0.7B	氨基酸序列	热稳定性指数
量子电路设计	Qwen2.5-Coder-1.5B/7B	Qiskit 电路代码	能量负值

主要结果¶

ToSFiT 在所有三个任务中均取得 SOTA 的样本效率和计算效率，显著优于7个基线方法（包括上下文BO、强化学习、进化搜索）。

关键发现¶

强先验的重要性：去除 prompt 中的关键信息（如量子比特数）会显著降低性能
谨慎微调：过大学习率会导致遗忘先验并陷入停滞
批量优化有效：批量大小增大会降低样本效率但提升迭代效率
计算-样本效率权衡：增加每轮梯度步数可进一步提升样本效率

消融实验¶

消融	效果
去除先验上下文	性能显著下降
大学习率	初始提升但后续停滞
增加梯度步数	样本效率提升
增大批量	迭代效率提升

亮点¶

理论与实践完美结合：新的遗憾上界直接指导了算法设计
巧妙利用 LLM 预训练先验，避免了离散空间获取函数最大化
VBOS 梯度的能量模型解释优雅且直观
三个高度多样化的实验任务（NLP、蛋白质、量子计算）验证了通用性

局限性¶

使用固定特征映射，未与 GP 联合学习
微调全模型带来计算和内存开销
假设线性核的可扩展 GP，限制了奖励模型的表达能力
仅评估了序列生成任务，未涉及图结构等其他离散空间

评分¶

创新性: ⭐⭐⭐⭐⭐ — 将 Thompson Sampling 与 LLM 微调结合，理论和方法上都有重要贡献
实用性: ⭐⭐⭐⭐ — 适用于蛋白质设计、电路优化等实际场景
清晰度: ⭐⭐⭐⭐⭐ — 理论推导清晰，实验设计well-motivated
意义: ⭐⭐⭐⭐⭐ — 为 LLM 与贝叶斯优化结合开辟了新方向