Amortized Active Generation of Pareto Sets¶
会议: NeurIPS 2025
arXiv: 2510.21052
代码: 无
领域: 多目标优化 / 生成模型
关键词: multi-objective optimization, Pareto set, generative model, active learning, preference conditioning
一句话总结¶
提出 A-GPS 框架,通过学习 Pareto 集的条件生成模型实现在线离散黑箱多目标优化——用非支配类概率估计器(CPE)作为 PHVI 的隐式估计替代显式超体积计算,并通过偏好方向向量实现摊还式后验偏好条件化(无需重新训练),在合成基准和蛋白质设计任务上展示了优越的样本效率。
研究背景与动机¶
-
领域现状:多目标黑箱优化(MOO)广泛存在于蛋白质工程、药物设计等领域——需要优化多个冲突目标(如稳定性 vs 活性)。传统多目标贝叶斯优化(MOBO)依赖期望超体积改善(EHVI)等获取函数,计算复杂且随目标数扩展性差;随机标量化简单但难捕获复杂 Pareto 前沿几何。
-
现有痛点:(a) EHVI 需要复杂数值积分,随目标数指数增长;(b) 标量化方法每个新的偏好权重需要重新训练;(c) 现有方法不支持后验偏好条件化——用户必须在优化前指定偏好。
-
核心矛盾:需要一种能高效近似 Pareto 集、避免显式超体积计算、且支持灵活偏好条件化的方法。
-
本文要解决什么?
- 如何用生成模型直接建模 Pareto 集?
-
如何在不重新训练的情况下支持后验偏好指定?
-
切入角度:将 MOO 重新表述为学习 Pareto 集的条件生成模型——非支配性标签 \(z\) 指导生成模型聚焦高性能区域,偏好方向向量 \(\mathbf{u}\) 支持摊还式条件化。
-
核心 idea 一句话:用 CPE 预测非支配性(隐式估计 PHVI)+ 用偏好方向向量条件化生成模型 \(q_\phi(\mathbf{x}|\mathbf{u})\),实现一次训练多偏好采样的 Pareto 集生成。
方法详解¶
整体框架¶
A-GPS 在每轮迭代中执行:(1) 用观测数据构建非支配标签 \(z_n\) 和偏好方向 \(\mathbf{u}_n\);(2) 训练 CPE \(\pi_\theta^z(\mathbf{x}) \approx p(z=1|\mathbf{x})\) 预测非支配概率;(3) 训练条件生成模型 \(q_\phi(\mathbf{x}|\mathbf{u})\) 最大化 ELBO 逼近 \(p(\mathbf{x}|\mathbf{u}, z=1, a=1)\);(4) 从生成模型采样新候选,评估并更新数据集。推理时用户指定偏好 \(\mathbf{u}_\star\) 直接从 \(q_\phi(\mathbf{x}|\mathbf{u}_\star)\) 采样。
关键设计¶
- 非支配 CPE 隐式估计 PHVI
- 做什么:训练分类器预测设计是否属于 Pareto 集。
- 核心思路:Theorem 1 证明超体积改善指示器与非支配指示器等价:\(\mathbb{1}[\text{HVI}(\mathbf{x}) > 0] = z(\mathbf{x})\)。因此用 proper loss 训练的 CPE 自动估计 PHVI:\(\pi_\theta^z(\mathbf{x}) \approx \mathbb{P}(\text{HVI}(\mathbf{x}) > 0 | \mathbf{x})\)。
-
设计动机:避免显式超体积计算(随目标数指数增长),用简单的分类器替代。CPE 引导生成模型聚焦于非支配区域。
-
偏好方向向量 + 对齐指示器
- 做什么:支持后验偏好条件化,无需重新训练。
- 核心思路:定义偏好方向 \(\mathbf{u}_n = \frac{\mathbf{y}_n - \mathbf{r}}{\|\mathbf{y}_n - \mathbf{r}\|}\)(单位向量,\(\mathbf{r}\) 是参考点),捕获目标间的相对权重。定义对齐指示器 \(a\):当 \((\mathbf{x}, \mathbf{u})\) 对"对齐"时 \(a=1\),通过对比真实配对和随机排列配对训练。学习的条件生成模型 \(q_\phi(\mathbf{x}|\mathbf{u}) \approx p(\mathbf{x}|\mathbf{u}, z=1, a=1)\) 在推理时可接受任意用户偏好 \(\mathbf{u}_\star\)。
-
设计动机:相比标量化 \(\boldsymbol{\lambda}\),偏好方向向量更灵活——每个新 \(\boldsymbol{\lambda}\) 需要重训,我们的方法一次训练适用所有偏好(摊还 amortization)。
-
摊还式 ELBO 优化
- 做什么:联合优化 CPE 和条件生成模型。
- 核心思路:最小化 \(\mathbb{E}_{p(\mathbf{u}|z)}[D_{\text{KL}}[q_\phi(\mathbf{x}|\mathbf{u}) \| p(\mathbf{x}|\mathbf{u},z,a)]]\),通过 ELBO 分解为:非支配 CPE 项(聚焦 Pareto 集)+ 对齐 CPE 项(尊重偏好)+ KL 先验项。
- 设计动机:摊还 VI 允许在单个模型中捕获 Pareto 前沿的全部多样性,通过条件化 \(\mathbf{u}\) 实现按需采样。
损失函数 / 训练策略¶
- CPE:proper scoring loss(对数损失)
- 生成模型:ELBO = \(\mathbb{E}_{q_\phi}[\log \pi_\theta^z + \log \pi_\psi^a] - D_{\text{KL}}[q_\phi \| p_0]\)
- 在线迭代:每轮更新数据集、重训 CPE、更新生成模型、采样新候选
实验关键数据¶
主实验:合成 MOO 基准¶
| 方法 | 超体积 | 样本效率 |
|---|---|---|
| MOBO (EHVI) | 高 | 低 |
| 随机标量化 | 中 | 中 |
| A-GPS | 高 | 高 |
蛋白质设计任务¶
| 任务 | A-GPS vs 基线 |
|---|---|
| 多目标蛋白质优化 | 更好的 Pareto 前沿近似 + 偏好灵活性 |
消融实验¶
| 组件 | 贡献 |
|---|---|
| 非支配 CPE | 核心——引导生成模型聚焦 Pareto 集 |
| 偏好条件化 | 灵活性——无需重训即可指定偏好 |
| 对齐指示器 | 精度——确保生成样本与偏好一致 |
关键发现¶
- 非支配 CPE = 隐式 PHVI:理论证明与实验验证一致——简单分类器足以替代复杂超体积计算
- 摊还偏好条件化有效:训练时遍历多个偏好方向,推理时直接接受新偏好——避免了标量化方法的重训开销
- 对齐指示器提升质量:通过对比真实/随机配对训练的对齐 CPE,确保生成模型不仅在 Pareto 集上采样,还在用户指定区域采样
- 对离散设计空间特别有效:蛋白质序列等离散空间不能用梯度优化,生成模型提供了自然的替代
亮点与洞察¶
- 非支配 CPE ≡ PHVI 的理论结果是核心贡献:将超体积计算问题转化为简单的分类问题,一下子几何级地降低了计算复杂度。
- 偏好方向向量的设计比标量化更自然:单位向量在目标空间中指向用户期望的方向,几何直觉清晰,且支持摊还——一次训练后用户可以"拨盘"选择不同偏好。
- Active Generation 范式(从 VSD 扩展)将优化问题重新表述为生成建模——不再是"搜索最优"而是"学习最优分布",这对高维离散空间特别有利。
局限性 / 可改进方向¶
- 离散空间假设:方法主要针对离散设计空间,连续空间的效果未充分验证
- CPE 质量依赖数据量:在线早期数据稀少时,CPE 可能不准确
- Pareto 前沿非凸部分:偏好方向向量主要适合凸 Pareto 前沿,非凸前沿的覆盖可能不完整
- 黑箱评估成本:虽然样本效率好,但每轮仍需调用昂贵的黑箱评估
相关工作与启发¶
- vs MOBO (EHVI):EHVI 需要显式超体积计算(\(O(2^L)\)),A-GPS 用 CPE 隐式估计(\(O(1)\))
- vs ParetoFlow / ProUD (MOG):这些方法是离线生成 Pareto 集,A-GPS 是在线活跃学习+生成
- vs VSD:VSD 是单目标活跃生成,A-GPS 将其扩展到多目标 + 偏好条件化
- 可迁移思路:CPE 替代复杂获取函数的思路可能适用于其他贝叶斯优化场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 非支配 CPE=PHVI 的理论结果新颖,偏好摊还设计优雅
- 实验充分度: ⭐⭐⭐⭐ 合成基准+蛋白质设计,但缺少大规模实验
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,但符号系统较重
- 价值: ⭐⭐⭐⭐ 对多目标黑箱优化有实际意义,尤其是蛋白质/药物设计