跳转至

Task-free Adaptive Meta Black-box Optimization

会议: ICLR 2026
arXiv: 2601.21475
代码: 无
领域: 优化 / 元学习
关键词: 黑盒优化, 元学习, 进化算法, 自适应参数学习, 零样本优化

一句话总结

提出 ABOM——一种无需预定义训练任务的自适应元黑盒优化器,通过将进化算子(选择、交叉、变异)参数化为可微注意力模块,在优化过程中利用自生成数据在线更新参数,在合成基准和无人机路径规划上实现零样本竞争性能。

研究背景与动机

  1. 领域现状:黑盒优化(BBO)广泛应用于超参数调优、神经架构搜索等场景。传统进化算法(EA)依赖手工设计的算子和参数,Meta-BBO 方法通过元学习自动配置优化器,但需要在人工设计的训练任务分布 \(\mathcal{F}\) 上预训练。

  2. 现有痛点:Meta-BBO 方法的核心限制在于对手工训练任务分布的依赖。在实际应用中,目标任务的分布往往未知或独特(如特定的工程优化问题),无法获得合适的训练任务集合。

  3. 核心矛盾:NFL 定理表明没有通用最优算法,因此需要自适应。但现有自适应方法要么需要领域知识设计规则(传统自适应 EA),要么需要训练任务分布(Meta-BBO)。如何在既无领域知识又无训练任务的情况下实现自适应?

  4. 本文要解决什么?:(a) 消除对预定义训练任务分布的依赖;(b) 将离散的算法选择空间替换为连续可微的参数空间;(c) 用优化过程中自生成的数据实现在线参数学习。

  5. 切入角度:将进化算子参数化为注意力机制,使其可微,然后用"让后代逼近精英档案"作为监督信号在线更新参数。

  6. 核心idea一句话:用注意力机制参数化进化算子,将 meta-learning 的"先训后用"模式转变为"边用边学"的闭环自适应。

方法详解

整体框架

输入为黑盒目标函数 \(f_T(\mathbf{x})\)(仅可查询函数值),输出为近似最优解 \(\mathbf{x}^*\)。ABOM 的优化循环包含五步:(1) 拉丁超立方采样初始化种群;(2) 通过参数化算子 \(\pi_\theta\) 生成后代;(3) 评估后代适应度;(4) 精英主义保留最优 \(N\) 个个体;(5) 通过梯度下降更新算子参数 \(\theta\)。整个过程无需预训练,直接在目标任务上"边优化边学习"。

关键设计

  1. 双路径注意力选择(Selection):
  2. 做什么:计算选择矩阵 \(\mathbf{A}^{(t)} \in \mathbb{R}^{N \times N}\),决定哪些个体参与交叉
  3. 核心思路:将解空间的位置关系和适应度排名分别通过两组 Query-Key 投影编码,用 softmax 融合为注意力权重。\(\mathbf{A}^{(t)} = \text{softmax}\left(\frac{(\mathbf{P}\mathbf{W}^{QP})(\mathbf{P}\mathbf{W}^{KP})^\top + (\mathbf{F}\mathbf{W}^{QF})(\mathbf{F}\mathbf{W}^{KF})^\top}{\sqrt{d_A}}\right)\)
  4. 设计动机:传统选择仅基于适应度排名(如锦标赛选择),忽略了解之间的空间关系。双路径设计同时考虑"谁更好"和"谁更近",使重组更有针对性

  5. 可微交叉(Crossover):

  6. 做什么:生成中间种群 \(\mathbf{P}'^{(t)} = \mathbf{P}^{(t)} + \text{MLP}_{\theta_c}(\mathbf{A}^{(t)}\mathbf{P}^{(t)})\)
  7. 核心思路:\(\mathbf{A}^{(t)}\mathbf{P}^{(t)}\) 先对父代个体进行加权混合(注意力加权的交叉池),MLP 进一步变换生成偏移量。Dropout(概率 \(p_C\))在推理时也保持启用,提供持续的探索随机性
  8. 设计动机:残差连接保留父代信息,MLP 学习非线性交叉模式,dropout 替代了传统 EA 中的交叉概率超参数

  9. 基因维度间注意力变异(Mutation):

  10. 做什么:对每个个体计算变异矩阵 \(\mathbf{M}_i^{(t)} \in \mathbb{R}^{d \times d}\),建模基因维度之间的交互
  11. 核心思路:\(\mathbf{M}_i^{(t)}\) 通过自注意力计算各维度间的依赖强度,\(\hat{\mathbf{p}}_i = \mathbf{p}'_i + \text{MLP}_{\theta_m}(\mathbf{M}_i\mathbf{p}'_i)\),使变异考虑维度间的相关性
  12. 设计动机:传统变异(如高斯扰动)独立处理每个维度,忽略了变量间的耦合关系。注意力变异矩阵可学习到"改变第 \(j\) 维时应同步调整第 \(k\) 维"的模式

  13. 自适应参数学习:

  14. 做什么:在线更新所有参数 \(\theta\)
  15. 核心思路:损失函数为 \(\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\),让后代逼近精英档案。通过 AdamW 梯度更新 \(\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}^{(t)}\)
  16. 设计动机:精英档案包含了当前已知最优解的信息,鼓励后代方向向精英靠近,实现"适者生存"的梯度版本

损失函数 / 训练策略

  • 损失函数:\(\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\),后代与精英档案的 L2 距离
  • 无预训练,参数随机初始化后在优化过程中在线学习
  • 理论保证:在紧致搜索空间和连续目标函数下,ABOM 保证全局收敛

实验关键数据

主实验(BBOB 合成基准 \(d=500\)

在 16 个测试函数上与 10 个基线对比(30 次独立运行,Wilcoxon 检验):

方法类别 代表方法 vs ABOM 胜/平/负 说明
传统 EA RS/PSO/DE 0/0/16 ABOM 在所有函数上显著更好
自适应 EA CMAES/JDE21 2~3/1~2/11~13 ABOM 总体显著更优
MetaBBO GLEET/RLDEAFL/LES/GLHF 1~4/1~3/9~14 ABOM 无需训练任务即可匹配或超越

实际应用(无人机路径规划 - 28个问题)

指标 ABOM 最佳MetaBBO 最佳自适应EA
归一化代价收敛速度 最快 中等
最终归一化代价 最低 中等 较高
运行时间 GPU加速,最快之一 需预训练 CPU-bound

消融实验

配置 BBOB \(d=500\) 排名 说明
ABOM(完整) 最优 选择+交叉+变异+自适应学习
w/o 自适应学习 显著下降 固定随机参数,退化为随机搜索
w/o 选择注意力 下降 均匀选择,类似随机重组
w/o 变异注意力 下降 独立维度变异

关键发现

  • ABOM 在 无需任何训练任务 的情况下匹配或超越需要训练任务的 MetaBBO 方法
  • 可视化揭示选择矩阵自动学会"适者生存"模式(高适应度个体权重更高),但不总是选最优个体(保持多样性)
  • 变异矩阵从随机初始化演化出有序结构,反映了问题特定的基因交互模式
  • 参数对 dropout 率 \(p_C, p_M\) 较敏感,过低导致过早收敛,过高导致搜索过于随机

亮点与洞察

  • 将元学习从"先训后用"变为"边用边学"是核心创新:通过让后代逼近精英档案作为监督信号,将无监督的 BBO 问题转化为在线监督学习。这个思路可迁移到其他需要在线适应的元学习场景。
  • 注意力机制作为进化算子的类比非常自然:选择 = 个体间注意力权重,交叉 = 加权重组 + MLP 变换,变异 = 维度间自注意力。关键是 dropout 在推理时也保持启用来维持探索性。
  • 提供了全局收敛的理论保证,尽管在实际中收敛速度取决于问题结构。

局限性 / 可改进方向

  • 计算复杂度为 \(O(d^3)\)\(d\) 为搜索空间维度),对超高维问题(\(d > 1000\))不实用
  • 精英档案逼近损失可能导致种群多样性丧失——没有显式的多样性保持机制
  • 仅在 BBOB 合成函数和 UAV 路径规划上验证,缺少更多实际应用场景
  • 与传统自适应 EA(如 CMA-ES)在某些函数上仍有差距

相关工作与启发

  • vs CMA-ES: CMA-ES 通过协方差矩阵自适应实现搜索方向调整,但需要领域知识设计。ABOM 通过注意力机制自动学习类似的搜索策略。
  • vs GLHF/RLDEAFL: 这些 MetaBBO 方法需要在训练任务分布上预训练,ABOM 完全避免了这一依赖。
  • vs EvoTorch/OpenELM: 现有可微进化框架侧重 GPU 加速,ABOM 进一步实现了算子参数化和在线学习。

评分

  • 新颖性: ⭐⭐⭐⭐ 将进化算子完全参数化为可微注意力模块的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ BBOB 三个维度 + UAV应用 + 消融 + 可视化
  • 写作质量: ⭐⭐⭐⭐ 从 MetaBBO 到 ABOM 的推导清晰
  • 价值: ⭐⭐⭐⭐ 对元黑盒优化领域有重要贡献