跳转至

Amortized Active Generation of Pareto Sets

会议: NeurIPS 2025
arXiv: 2510.21052
代码: 无
领域: 多目标优化 / 生成模型
关键词: multi-objective optimization, Pareto set, generative model, active learning, preference conditioning

一句话总结

提出 A-GPS 框架,通过学习 Pareto 集的条件生成模型实现在线离散黑箱多目标优化——用非支配类概率估计器(CPE)作为 PHVI 的隐式估计替代显式超体积计算,并通过偏好方向向量实现摊还式后验偏好条件化(无需重新训练),在合成基准和蛋白质设计任务上展示了优越的样本效率。

研究背景与动机

  1. 领域现状:多目标黑箱优化(MOO)广泛存在于蛋白质工程、药物设计等领域——需要优化多个冲突目标(如稳定性 vs 活性)。传统多目标贝叶斯优化(MOBO)依赖期望超体积改善(EHVI)等获取函数,计算复杂且随目标数扩展性差;随机标量化简单但难捕获复杂 Pareto 前沿几何。

  2. 现有痛点:(a) EHVI 需要复杂数值积分,随目标数指数增长;(b) 标量化方法每个新的偏好权重需要重新训练;(c) 现有方法不支持后验偏好条件化——用户必须在优化前指定偏好。

  3. 核心矛盾:需要一种能高效近似 Pareto 集、避免显式超体积计算、且支持灵活偏好条件化的方法。

  4. 本文要解决什么?

  5. 如何用生成模型直接建模 Pareto 集?
  6. 如何在不重新训练的情况下支持后验偏好指定?

  7. 切入角度:将 MOO 重新表述为学习 Pareto 集的条件生成模型——非支配性标签 \(z\) 指导生成模型聚焦高性能区域,偏好方向向量 \(\mathbf{u}\) 支持摊还式条件化。

  8. 核心 idea 一句话:用 CPE 预测非支配性(隐式估计 PHVI)+ 用偏好方向向量条件化生成模型 \(q_\phi(\mathbf{x}|\mathbf{u})\),实现一次训练多偏好采样的 Pareto 集生成。

方法详解

整体框架

A-GPS 在每轮迭代中执行:(1) 用观测数据构建非支配标签 \(z_n\) 和偏好方向 \(\mathbf{u}_n\);(2) 训练 CPE \(\pi_\theta^z(\mathbf{x}) \approx p(z=1|\mathbf{x})\) 预测非支配概率;(3) 训练条件生成模型 \(q_\phi(\mathbf{x}|\mathbf{u})\) 最大化 ELBO 逼近 \(p(\mathbf{x}|\mathbf{u}, z=1, a=1)\);(4) 从生成模型采样新候选,评估并更新数据集。推理时用户指定偏好 \(\mathbf{u}_\star\) 直接从 \(q_\phi(\mathbf{x}|\mathbf{u}_\star)\) 采样。

关键设计

  1. 非支配 CPE 隐式估计 PHVI
  2. 做什么:训练分类器预测设计是否属于 Pareto 集。
  3. 核心思路:Theorem 1 证明超体积改善指示器与非支配指示器等价:\(\mathbb{1}[\text{HVI}(\mathbf{x}) > 0] = z(\mathbf{x})\)。因此用 proper loss 训练的 CPE 自动估计 PHVI:\(\pi_\theta^z(\mathbf{x}) \approx \mathbb{P}(\text{HVI}(\mathbf{x}) > 0 | \mathbf{x})\)
  4. 设计动机:避免显式超体积计算(随目标数指数增长),用简单的分类器替代。CPE 引导生成模型聚焦于非支配区域。

  5. 偏好方向向量 + 对齐指示器

  6. 做什么:支持后验偏好条件化,无需重新训练。
  7. 核心思路:定义偏好方向 \(\mathbf{u}_n = \frac{\mathbf{y}_n - \mathbf{r}}{\|\mathbf{y}_n - \mathbf{r}\|}\)(单位向量,\(\mathbf{r}\) 是参考点),捕获目标间的相对权重。定义对齐指示器 \(a\):当 \((\mathbf{x}, \mathbf{u})\) 对"对齐"时 \(a=1\),通过对比真实配对和随机排列配对训练。学习的条件生成模型 \(q_\phi(\mathbf{x}|\mathbf{u}) \approx p(\mathbf{x}|\mathbf{u}, z=1, a=1)\) 在推理时可接受任意用户偏好 \(\mathbf{u}_\star\)
  8. 设计动机:相比标量化 \(\boldsymbol{\lambda}\),偏好方向向量更灵活——每个新 \(\boldsymbol{\lambda}\) 需要重训,我们的方法一次训练适用所有偏好(摊还 amortization)。

  9. 摊还式 ELBO 优化

  10. 做什么:联合优化 CPE 和条件生成模型。
  11. 核心思路:最小化 \(\mathbb{E}_{p(\mathbf{u}|z)}[D_{\text{KL}}[q_\phi(\mathbf{x}|\mathbf{u}) \| p(\mathbf{x}|\mathbf{u},z,a)]]\),通过 ELBO 分解为:非支配 CPE 项(聚焦 Pareto 集)+ 对齐 CPE 项(尊重偏好)+ KL 先验项。
  12. 设计动机:摊还 VI 允许在单个模型中捕获 Pareto 前沿的全部多样性,通过条件化 \(\mathbf{u}\) 实现按需采样。

损失函数 / 训练策略

  • CPE:proper scoring loss(对数损失)
  • 生成模型:ELBO = \(\mathbb{E}_{q_\phi}[\log \pi_\theta^z + \log \pi_\psi^a] - D_{\text{KL}}[q_\phi \| p_0]\)
  • 在线迭代:每轮更新数据集、重训 CPE、更新生成模型、采样新候选

实验关键数据

主实验:合成 MOO 基准

方法 超体积 样本效率
MOBO (EHVI)
随机标量化
A-GPS

蛋白质设计任务

任务 A-GPS vs 基线
多目标蛋白质优化 更好的 Pareto 前沿近似 + 偏好灵活性

消融实验

组件 贡献
非支配 CPE 核心——引导生成模型聚焦 Pareto 集
偏好条件化 灵活性——无需重训即可指定偏好
对齐指示器 精度——确保生成样本与偏好一致

关键发现

  • 非支配 CPE = 隐式 PHVI:理论证明与实验验证一致——简单分类器足以替代复杂超体积计算
  • 摊还偏好条件化有效:训练时遍历多个偏好方向,推理时直接接受新偏好——避免了标量化方法的重训开销
  • 对齐指示器提升质量:通过对比真实/随机配对训练的对齐 CPE,确保生成模型不仅在 Pareto 集上采样,还在用户指定区域采样
  • 对离散设计空间特别有效:蛋白质序列等离散空间不能用梯度优化,生成模型提供了自然的替代

亮点与洞察

  • 非支配 CPE ≡ PHVI 的理论结果是核心贡献:将超体积计算问题转化为简单的分类问题,一下子几何级地降低了计算复杂度。
  • 偏好方向向量的设计比标量化更自然:单位向量在目标空间中指向用户期望的方向,几何直觉清晰,且支持摊还——一次训练后用户可以"拨盘"选择不同偏好。
  • Active Generation 范式(从 VSD 扩展)将优化问题重新表述为生成建模——不再是"搜索最优"而是"学习最优分布",这对高维离散空间特别有利。

局限性 / 可改进方向

  • 离散空间假设:方法主要针对离散设计空间,连续空间的效果未充分验证
  • CPE 质量依赖数据量:在线早期数据稀少时,CPE 可能不准确
  • Pareto 前沿非凸部分:偏好方向向量主要适合凸 Pareto 前沿,非凸前沿的覆盖可能不完整
  • 黑箱评估成本:虽然样本效率好,但每轮仍需调用昂贵的黑箱评估

相关工作与启发

  • vs MOBO (EHVI):EHVI 需要显式超体积计算(\(O(2^L)\)),A-GPS 用 CPE 隐式估计(\(O(1)\)
  • vs ParetoFlow / ProUD (MOG):这些方法是离线生成 Pareto 集,A-GPS 是在线活跃学习+生成
  • vs VSD:VSD 是单目标活跃生成,A-GPS 将其扩展到多目标 + 偏好条件化
  • 可迁移思路:CPE 替代复杂获取函数的思路可能适用于其他贝叶斯优化场景

评分

  • 新颖性: ⭐⭐⭐⭐ 非支配 CPE=PHVI 的理论结果新颖,偏好摊还设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 合成基准+蛋白质设计,但缺少大规模实验
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨,但符号系统较重
  • 价值: ⭐⭐⭐⭐ 对多目标黑箱优化有实际意义,尤其是蛋白质/药物设计