Task-free Adaptive Meta Black-box Optimization¶

会议: ICLR 2026
arXiv: 2601.21475
代码: 无
领域: 优化 / 元学习
关键词: 黑盒优化, 元学习, 进化算法, 自适应参数学习, 零样本优化

一句话总结¶

提出 ABOM——一种无需预定义训练任务的自适应元黑盒优化器，通过将进化算子（选择、交叉、变异）参数化为可微注意力模块，在优化过程中利用自生成数据在线更新参数，在合成基准和无人机路径规划上实现零样本竞争性能。

研究背景与动机¶

领域现状：黑盒优化（BBO）广泛应用于超参数调优、神经架构搜索等场景。传统进化算法（EA）依赖手工设计的算子和参数，Meta-BBO 方法通过元学习自动配置优化器，但需要在人工设计的训练任务分布 \(\mathcal{F}\) 上预训练。
现有痛点：Meta-BBO 方法的核心限制在于对手工训练任务分布的依赖。在实际应用中，目标任务的分布往往未知或独特（如特定的工程优化问题），无法获得合适的训练任务集合。
核心矛盾：NFL 定理表明没有通用最优算法，因此需要自适应。但现有自适应方法要么需要领域知识设计规则（传统自适应 EA），要么需要训练任务分布（Meta-BBO）。如何在既无领域知识又无训练任务的情况下实现自适应？
本文要解决什么？：(a) 消除对预定义训练任务分布的依赖；(b) 将离散的算法选择空间替换为连续可微的参数空间；(c) 用优化过程中自生成的数据实现在线参数学习。
切入角度：将进化算子参数化为注意力机制，使其可微，然后用"让后代逼近精英档案"作为监督信号在线更新参数。
核心idea一句话：用注意力机制参数化进化算子，将 meta-learning 的"先训后用"模式转变为"边用边学"的闭环自适应。

方法详解¶

整体框架¶

输入为黑盒目标函数 \(f_T(\mathbf{x})\)（仅可查询函数值），输出为近似最优解 \(\mathbf{x}^*\)。ABOM 的优化循环包含五步：(1) 拉丁超立方采样初始化种群；(2) 通过参数化算子 \(\pi_\theta\) 生成后代；(3) 评估后代适应度；(4) 精英主义保留最优 \(N\) 个个体；(5) 通过梯度下降更新算子参数 \(\theta\)。整个过程无需预训练，直接在目标任务上"边优化边学习"。

关键设计¶

双路径注意力选择（Selection）:
做什么：计算选择矩阵 \(\mathbf{A}^{(t)} \in \mathbb{R}^{N \times N}\)，决定哪些个体参与交叉
核心思路：将解空间的位置关系和适应度排名分别通过两组 Query-Key 投影编码，用 softmax 融合为注意力权重。\(\mathbf{A}^{(t)} = \text{softmax}\left(\frac{(\mathbf{P}\mathbf{W}^{QP})(\mathbf{P}\mathbf{W}^{KP})^\top + (\mathbf{F}\mathbf{W}^{QF})(\mathbf{F}\mathbf{W}^{KF})^\top}{\sqrt{d_A}}\right)\)
设计动机：传统选择仅基于适应度排名（如锦标赛选择），忽略了解之间的空间关系。双路径设计同时考虑"谁更好"和"谁更近"，使重组更有针对性
可微交叉（Crossover）:
做什么：生成中间种群 \(\mathbf{P}'^{(t)} = \mathbf{P}^{(t)} + \text{MLP}_{\theta_c}(\mathbf{A}^{(t)}\mathbf{P}^{(t)})\)
核心思路：\(\mathbf{A}^{(t)}\mathbf{P}^{(t)}\) 先对父代个体进行加权混合（注意力加权的交叉池），MLP 进一步变换生成偏移量。Dropout（概率 \(p_C\)）在推理时也保持启用，提供持续的探索随机性
设计动机：残差连接保留父代信息，MLP 学习非线性交叉模式，dropout 替代了传统 EA 中的交叉概率超参数
基因维度间注意力变异（Mutation）:
做什么：对每个个体计算变异矩阵 \(\mathbf{M}_i^{(t)} \in \mathbb{R}^{d \times d}\)，建模基因维度之间的交互
核心思路：\(\mathbf{M}_i^{(t)}\) 通过自注意力计算各维度间的依赖强度，\(\hat{\mathbf{p}}_i = \mathbf{p}'_i + \text{MLP}_{\theta_m}(\mathbf{M}_i\mathbf{p}'_i)\)，使变异考虑维度间的相关性
设计动机：传统变异（如高斯扰动）独立处理每个维度，忽略了变量间的耦合关系。注意力变异矩阵可学习到"改变第 \(j\) 维时应同步调整第 \(k\) 维"的模式
自适应参数学习:
做什么：在线更新所有参数 \(\theta\)
核心思路：损失函数为 \(\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\)，让后代逼近精英档案。通过 AdamW 梯度更新 \(\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}^{(t)}\)
设计动机：精英档案包含了当前已知最优解的信息，鼓励后代方向向精英靠近，实现"适者生存"的梯度版本

损失函数 / 训练策略¶

损失函数：\(\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\)，后代与精英档案的 L2 距离
无预训练，参数随机初始化后在优化过程中在线学习
理论保证：在紧致搜索空间和连续目标函数下，ABOM 保证全局收敛

实验关键数据¶

主实验（BBOB 合成基准 \(d=500\)）¶

在 16 个测试函数上与 10 个基线对比（30 次独立运行，Wilcoxon 检验）：

方法类别	代表方法	vs ABOM 胜/平/负	说明
传统 EA	RS/PSO/DE	0/0/16	ABOM 在所有函数上显著更好
自适应 EA	CMAES/JDE21	2~3/1~2/11~13	ABOM 总体显著更优
MetaBBO	GLEET/RLDEAFL/LES/GLHF	1~4/1~3/9~14	ABOM 无需训练任务即可匹配或超越

实际应用（无人机路径规划 - 28个问题）¶

指标	ABOM	最佳MetaBBO	最佳自适应EA
归一化代价收敛速度	最快	中等	慢
最终归一化代价	最低	中等	较高
运行时间	GPU加速，最快之一	需预训练	CPU-bound

消融实验¶

配置	BBOB \(d=500\) 排名	说明
ABOM（完整）	最优	选择+交叉+变异+自适应学习
w/o 自适应学习	显著下降	固定随机参数，退化为随机搜索
w/o 选择注意力	下降	均匀选择，类似随机重组
w/o 变异注意力	下降	独立维度变异

关键发现¶

ABOM 在 无需任何训练任务 的情况下匹配或超越需要训练任务的 MetaBBO 方法
可视化揭示选择矩阵自动学会"适者生存"模式（高适应度个体权重更高），但不总是选最优个体（保持多样性）
变异矩阵从随机初始化演化出有序结构，反映了问题特定的基因交互模式
参数对 dropout 率 \(p_C, p_M\) 较敏感，过低导致过早收敛，过高导致搜索过于随机

亮点与洞察¶

将元学习从"先训后用"变为"边用边学"是核心创新：通过让后代逼近精英档案作为监督信号，将无监督的 BBO 问题转化为在线监督学习。这个思路可迁移到其他需要在线适应的元学习场景。
注意力机制作为进化算子的类比非常自然：选择 = 个体间注意力权重，交叉 = 加权重组 + MLP 变换，变异 = 维度间自注意力。关键是 dropout 在推理时也保持启用来维持探索性。
提供了全局收敛的理论保证，尽管在实际中收敛速度取决于问题结构。

局限性 / 可改进方向¶

计算复杂度为 \(O(d^3)\)（\(d\) 为搜索空间维度），对超高维问题（\(d > 1000\)）不实用
精英档案逼近损失可能导致种群多样性丧失——没有显式的多样性保持机制
仅在 BBOB 合成函数和 UAV 路径规划上验证，缺少更多实际应用场景
与传统自适应 EA（如 CMA-ES）在某些函数上仍有差距

评分¶

新颖性: ⭐⭐⭐⭐ 将进化算子完全参数化为可微注意力模块的思路新颖
实验充分度: ⭐⭐⭐⭐ BBOB 三个维度 + UAV应用 + 消融 + 可视化
写作质量: ⭐⭐⭐⭐ 从 MetaBBO 到 ABOM 的推导清晰
价值: ⭐⭐⭐⭐ 对元黑盒优化领域有重要贡献