Thompson Sampling via Fine-Tuning of LLMs¶
- 会议: ICLR 2026
- arXiv: 2510.13328
- 代码: GitHub
- 领域: 贝叶斯优化 / LLM微调
- 关键词: Thompson Sampling, Bayesian Optimization, LLM Fine-Tuning, Probability of Maximality, VBOS
一句话总结¶
提出 ToSFiT,通过微调大语言模型直接参数化最大概率(Probability of Maximality),将 Thompson Sampling 扩展到大规模非结构化离散空间,避免了获取函数最大化的难题。
研究背景与动机¶
贝叶斯优化在大规模非结构化离散空间(如氨基酸序列、量子电路设计)中面临核心挑战:由于缺乏梯度信息,获取函数(acquisition function)的最大化在组合级别大的离散域中不可行。例如,20种氨基酸、长度100的蛋白质序列空间已超过宇宙原子数。
Thompson Sampling(TS)是一种经典的贝叶斯优化策略,通过从奖励后验中采样并选择最大化该样本的点来进行探索-利用平衡。其采样分布本质上就是最大概率(Probability of Maximality, PoM)。然而在大规模离散域中,直接从 PoM 采样同样需要遍历所有点。
核心思路:既然 LLM 已经通过预训练编码了丰富的先验知识,能否直接用 LLM 的生成分布来参数化 PoM,从而将 Thompson Sampling 转化为 LLM 微调问题?
方法详解¶
整体框架¶
ToSFiT 的核心思想是将候选生成视为 Thompson 采样,用预训练 LLM 参数化 PoM,并通过 VBOS 目标函数增量式地将 LLM 适配到后验 PoM。整个流程:
- 用 prompt-conditioned LLM 生成初始候选并观测
- 拟合高斯过程奖励模型
- 迭代:生成候选 → 估计 VBOS 梯度 → 微调 LLM → 观测新候选
变分贝叶斯乐观采样 (VBOS)¶
PoM 可以通过最大化 VBOS 目标来近似:
其中 \(\mu_x\) 是后验均值,\(\sigma_x\) 是后验标准差。\(\sqrt{-2\ln(\pi_x)}\) 项充当自适应 UCB 探索奖励。
VBOS 梯度推导(Proposition 1)¶
其中 \(v^{-1}(u) = \sqrt{-2\ln u} - 1/\sqrt{-2\ln u}\)。这个梯度具有能量模型的解释:当 LLM 隐含的期望奖励 \(\mu_x^\theta\) 低估了真实 \(\mu_x\) 时,生成概率被提升。
梯度稳定化¶
- 使用 RLOO 基线(Reinforce Leave-One-Out)减少方差
- 通过优势函数的经验标准差做归一化
- 数学上等价于 GRPO(Group Relative Policy Optimization)
高斯过程可扩展性¶
通过特征映射 \(\phi: X \to \mathbb{H}\) 将核函数转化为线性核,复杂度为 \(\Theta(\dim(\mathbb{H})^2)\),与观测数量无关。
损失/目标函数¶
理论分析¶
Theorem 1(核心理论贡献):将精确 VBOS 的累积遗憾上界从 \(\tilde{\mathcal{O}}(\sqrt{T|X|})\) 改进到 \(\tilde{\mathcal{O}}(\sqrt{T\gamma^T})\)(\(\gamma^T\) 为最大信息增益),并首次给出近似 VBOS 的遗憾上界:
关键 insight:策略初始化必须接近先验(预训练+上下文),微调需要谨慎(小学习率)以保持先验知识。
实验¶
三个任务¶
| 任务 | 模型 | 搜索空间 | 奖励 |
|---|---|---|---|
| FAQ 回答优化 | Qwen3-1.7B/8B | 所有 token 序列 | 语义对齐分数 |
| 蛋白质搜索 | ProtGPT2-0.7B | 氨基酸序列 | 热稳定性指数 |
| 量子电路设计 | Qwen2.5-Coder-1.5B/7B | Qiskit 电路代码 | 能量负值 |
主要结果¶
ToSFiT 在所有三个任务中均取得 SOTA 的样本效率和计算效率,显著优于7个基线方法(包括上下文BO、强化学习、进化搜索)。
关键发现¶
- 强先验的重要性:去除 prompt 中的关键信息(如量子比特数)会显著降低性能
- 谨慎微调:过大学习率会导致遗忘先验并陷入停滞
- 批量优化有效:批量大小增大会降低样本效率但提升迭代效率
- 计算-样本效率权衡:增加每轮梯度步数可进一步提升样本效率
消融实验¶
| 消融 | 效果 |
|---|---|
| 去除先验上下文 | 性能显著下降 |
| 大学习率 | 初始提升但后续停滞 |
| 增加梯度步数 | 样本效率提升 |
| 增大批量 | 迭代效率提升 |
亮点¶
- 理论与实践完美结合:新的遗憾上界直接指导了算法设计
- 巧妙利用 LLM 预训练先验,避免了离散空间获取函数最大化
- VBOS 梯度的能量模型解释优雅且直观
- 三个高度多样化的实验任务(NLP、蛋白质、量子计算)验证了通用性
局限性¶
- 使用固定特征映射,未与 GP 联合学习
- 微调全模型带来计算和内存开销
- 假设线性核的可扩展 GP,限制了奖励模型的表达能力
- 仅评估了序列生成任务,未涉及图结构等其他离散空间
相关工作¶
- 离散域 BO:Bal et al. (2025) 假设笛卡尔积分解;Swersky et al. (2020) 通过局部突变策略优化
- VAE 松弛:Kusner et al. (2017) 等将离散空间松弛到连续空间
- 深度核学习:Ranković & Schwaller (2025) 在线学习特征映射
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 将 Thompson Sampling 与 LLM 微调结合,理论和方法上都有重要贡献
- 实用性: ⭐⭐⭐⭐ — 适用于蛋白质设计、电路优化等实际场景
- 清晰度: ⭐⭐⭐⭐⭐ — 理论推导清晰,实验设计well-motivated
- 意义: ⭐⭐⭐⭐⭐ — 为 LLM 与贝叶斯优化结合开辟了新方向
相关论文¶
- [ICLR 2026] Protein as a Second Language for LLMs
- [AAAI 2026] Small but Mighty: Dynamic Wavelet Expert-Guided Fine-Tuning of Large-Scale Models for Optical Remote Sensing Object Segmentation
- [AAAI 2026] Hierarchical Schedule Optimization for Fast and Robust Diffusion Model Sampling
- [AAAI 2026] GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs
- [AAAI 2026] FaNe: Towards Fine-Grained Cross-Modal Contrast with False-Negative Reduction and Text-Conditioned Sparse Attention