Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning¶

会议: ICML2025
arXiv: 2305.15612
代码: https://github.com/jungtaekkim/bayeso
领域: others
关键词: Bayesian Optimization, Density Ratio Estimation, Semi-Supervised Learning, Label Propagation, Label Spreading

一句话总结¶

提出 DRE-BO-SSL，将半监督学习（标签传播/标签扩散）引入密度比估计型贝叶斯优化，通过无标签数据点缓解监督分类器的过度利用(over-exploitation)问题，在探索与利用之间取得更好平衡。

研究背景与动机¶

贝叶斯优化范式回顾¶

贝叶斯优化 (BO) 用于高效求解评估代价高昂的黑箱函数的全局最优。传统方法使用概率回归模型（如高斯过程）作为代理函数，显式建模 \(p(y|\mathbf{x}, \mathcal{D})\)，再结合采集函数（EI、PI 等）选择下一个查询点。

密度比估计型 BO 的兴起¶

区别于回归型 BO，密度比估计 (DRE) 型 BO 将搜索空间中的观测点按阈值 \(y^\dagger\) 分为两组——接近全局最优的"好组" (\(y \leq y^\dagger\)) 和"差组" (\(y > y^\dagger\))，然后估计两组的密度比作为采集函数。代表方法包括：

TPE (Bergstra et al., 2011)：用两个树结构 Parzen 估计器分别估计两组密度
BORE (Tiao et al., 2021)：将密度比估计转化为二分类的类概率估计
LFBO (Song et al., 2022)：提出通用的 likelihood-free 框架，证明 BORE 等价于 Probability of Improvement

核心问题：过度利用¶

本文识别出 DRE 型 BO 中监督分类器的关键缺陷——过度利用问题 (over-exploitation)。与一般分类中的过度自信不同，此处指分类器对已知的全局候选区域过于自信，导致搜索集中在极小范围内，丧失探索能力。具体表现为：

BO 早期迭代中，训练数据 \(\mathcal{D}_t\) 规模很小，监督分类器容易过拟合
分类器给已知好点所在区域分配极高概率，其余区域概率趋零
阈值 \(y^\dagger\) 无法剧烈变化，算法容易陷入局部最优

传统回归型 BO（如 GP-EI）天然通过不确定性估计实现探索，而 DRE 型分类器缺乏这一机制。

方法详解¶

整体框架：DRE-BO-SSL¶

核心想法：引入无标签数据点，使用半监督分类器替代监督分类器来估计类概率，从而降低对已知区域的过度自信。

采集函数推导¶

DRE 型 BO 的采集函数基于 \(\zeta\)-相对密度比：

\[A(\mathbf{x}|\zeta, \mathcal{D}_t) = \frac{p(\mathbf{x}|y \leq y^\dagger, \mathcal{D}_t)}{\zeta \cdot p(\mathbf{x}|y \leq y^\dagger, \mathcal{D}_t) + (1-\zeta) \cdot p(\mathbf{x}|y > y^\dagger, \mathcal{D}_t)}\]

其中 \(\zeta = p(y \leq y^\dagger) \in [0,1)\) 为阈值比例。通过贝叶斯定理可将其转化为类概率估计：

\[A(\mathbf{x}|\zeta, \mathcal{D}_t) = \zeta^{-1} \pi(\mathbf{x})\]

其中 \(\pi(\mathbf{x})\) 是输入 \(\mathbf{x}\) 属于 Class 1（好组）的概率。DRE-BO-SSL 将 \(\pi\) 替换为半监督分类器的输出：

\[\mathbf{x}_{t+1} = \arg\max_{\mathbf{x} \in \mathcal{X}} \pi_{\hat{\mathbf{C}}_t}(\mathbf{x}; \zeta, \mathcal{D}_t, \mathbf{X}_u)\]

半监督学习组件¶

采用两种经典的基于图的半监督方法：

1. Label Propagation (Zhu & Ghahramani, 2002)¶

在由 \(n_l\) 个有标签点和 \(n_u\) 个无标签点构成的相似度图上，通过迭代传播标签。基于 RBF 核构建相似度矩阵 \(\mathbf{W}\)，然后迭代更新无标签点的伪标签直到收敛，每次迭代后重置有标签点的标签（硬约束）。

2. Label Spreading (Zhou et al., 2003)¶

与 Label Propagation 类似，但允许有标签点的标签在迭代中也被修改（软约束），通过参数 \(\alpha \in [0,1)\) 控制标签传播与初始标签之间的权衡。

Transductive → Inductive 扩展¶

半监督方法天然是 transductive 的（只对已知无标签点预测），但 BO 需要对搜索空间中的任意点 \(\mathbf{x}\) 给出预测。本文通过以下方式实现 inductive 预测：用得到伪标签的"有标签 + 无标签"全部数据训练一个标准分类器（如 1-NN），再对任意新查询点进行预测。

无标签点的采样策略¶

当无预定义池（fixed-size pool）时，需要主动采样无标签点。本文从截断多元正态分布中采样，使用 minimax tilting 方法 (Botev, 2017)，使无标签点覆盖搜索空间 \(\mathcal{X}\) 且符合 cluster assumption。

算法流程 (Algorithm 1)¶

随机初始化并评估 \(\mathcal{D}_0\)
在每轮 \(t\)：计算阈值 \(y_t^\dagger\) → 分配类标签 \(\mathbf{C}_t\) → 采样/获取无标签点 \(\mathbf{X}_u\) → 通过半监督学习估计伪标签 \(\hat{\mathbf{C}}_t\) → 最大化 \(\pi_{\hat{\mathbf{C}}_t}\) 选择下一查询点 → 评估并更新数据集

优化采用 multi-started L-BFGS-B；对于平坦的概率景观，随机选择最高概率点之一作为查询点。

实验设置与主要结果¶

实验设置¶

合成基准：Branin (2D)、Hartmann (6D) 等标准测试函数
Tabular Benchmarks (Klein & Hutter, 2019)：超参数优化的表格化基准（固定池场景）
NATS-Bench (Dong et al., 2021)：神经架构搜索基准（固定池场景）
64D minimum multi-digit MNIST search：高维搜索问题（固定池场景）
基线方法：GP-EI, GP-PI, TPE, BORE (MLP/RF/XGBoost), LFBO (MLP/RF/XGBoost)

两种实验场景¶

场景	无标签点来源	代表任务
随机采样	每轮从截断正态分布采样 \(n_u\) 个无标签点	合成函数
固定池	预定义的有限候选集合	Tabular Benchmarks, NATS-Bench, MNIST search

关键实验结果¶

合成函数上的可视化（Figure 1, Branin）：BORE/LFBO 的 MLP 分类器在迭代前5步中，决策边界集中在极小区域（过度利用）；DRE-BO-SSL (Label Propagation/Spreading) 的决策边界更平滑、覆盖更广（更好的探索-利用平衡）
合成基准定量结果：DRE-BO-SSL 在多个合成函数上的收敛速度和最终解质量优于或持平 BORE/LFBO；尤其在早期迭代中优势明显
Tabular Benchmarks：在固定池场景下，DRE-BO-SSL 在超参数优化任务中表现出竞争力，某些配置下优于所有基线
NATS-Bench 神经架构搜索：DRE-BO-SSL 成功找到高质量架构，性能优于或媲美 GP 和 BORE/LFBO 变体
64D MNIST search：在高维固定池搜索中展示了 DRE-BO-SSL 的可扩展性

消融分析（Section 6）¶

阈值比例 \(\zeta\) 的影响：分析不同 \(\zeta\) 值对性能的影响，验证过度利用问题随 \(\zeta\) 变化的行为
无标签点数量 \(n_u\) 的影响：更多无标签点通常带来更平滑的概率景观，但存在计算开销
Label Propagation vs. Label Spreading：两者表现相近，Label Spreading 因软约束在某些场景更稳定

亮点与洞察¶

问题识别精准：清晰区分了 DRE-BO 中的"over-exploitation"与一般分类下的"overconfidence"——前者是区域级的过度集中，后者是单样本级的过度自信
方法轻量优雅：不需要修改 BO 框架本身，只需将监督分类器替换为半监督分类器，改动最小化
理论兼容性好：与 BORE/LFBO 的理论框架完全兼容，半监督分类器仍然输出类概率，可无缝接入 \(\zeta\)-相对密度比的计算
两种场景统一处理：通过截断正态采样和固定池两种方式获取无标签点，覆盖了连续和离散搜索空间

局限与展望¶

可扩展性存疑：Label Propagation/Spreading 需要计算 \((n_l + n_u) \times (n_l + n_u)\) 的相似度矩阵，当 \(n_u\) 较大或维度较高时计算开销显著
半监督方法选择有限：仅使用了 Label Propagation 和 Label Spreading 两种最经典的方法，未探索更现代的半监督技术（如 FixMatch、MixMatch 等）
RBF 核参数敏感性：相似度矩阵依赖 RBF 核的带宽参数，论文对该超参数的选择和鲁棒性讨论不足
无标签点采样策略简单：截断正态分布采样假设较强，未探索自适应采样策略（如基于当前搜索状态调整分布）
缺乏理论收敛保证：相比 GP-based BO 有明确的 regret bound，DRE-BO-SSL 缺乏类似的理论分析
高维连续空间上的实验不够充分：合成函数最高 6D，固定池场景虽有 64D 但本质上是离散搜索

评分¶

新颖性: ⭐⭐⭐ — 问题识别有洞察力，但方法本身是现有技术的组合（DRE-BO + 经典半监督学习），创新增幅有限
实验充分度: ⭐⭐⭐⭐ — 涵盖合成、超参优化、NAS、高维搜索等多个场景，消融实验较充分
写作质量: ⭐⭐⭐ — 结构清晰但篇幅较长，公式推导详尽但可读性一般
价值: ⭐⭐⭐ — 对 DRE-BO 社区有实用价值，但该方向整体上仍是 BO 的小众分支