Amortized Active Generation of Pareto Sets¶

会议: NeurIPS 2025
arXiv: 2510.21052
代码: 无
领域: 多目标优化 / 生成模型
关键词: multi-objective optimization, Pareto set, generative model, active learning, preference conditioning

一句话总结¶

提出 A-GPS 框架，通过学习 Pareto 集的条件生成模型实现在线离散黑箱多目标优化——用非支配类概率估计器（CPE）作为 PHVI 的隐式估计替代显式超体积计算，并通过偏好方向向量实现摊还式后验偏好条件化（无需重新训练），在合成基准和蛋白质设计任务上展示了优越的样本效率。

研究背景与动机¶

领域现状：多目标黑箱优化（MOO）广泛存在于蛋白质工程、药物设计等领域——需要优化多个冲突目标（如稳定性 vs 活性）。传统多目标贝叶斯优化（MOBO）依赖期望超体积改善（EHVI）等获取函数，计算复杂且随目标数扩展性差；随机标量化简单但难捕获复杂 Pareto 前沿几何。
现有痛点：(a) EHVI 需要复杂数值积分，随目标数指数增长；(b) 标量化方法每个新的偏好权重需要重新训练；(c) 现有方法不支持后验偏好条件化——用户必须在优化前指定偏好。
核心矛盾：需要一种能高效近似 Pareto 集、避免显式超体积计算、且支持灵活偏好条件化的方法。
本文要解决什么？
如何用生成模型直接建模 Pareto 集？
如何在不重新训练的情况下支持后验偏好指定？
切入角度：将 MOO 重新表述为学习 Pareto 集的条件生成模型——非支配性标签 \(z\) 指导生成模型聚焦高性能区域，偏好方向向量 \(\mathbf{u}\) 支持摊还式条件化。
核心 idea 一句话：用 CPE 预测非支配性（隐式估计 PHVI）+ 用偏好方向向量条件化生成模型 \(q_\phi(\mathbf{x}|\mathbf{u})\)，实现一次训练多偏好采样的 Pareto 集生成。

方法详解¶

整体框架¶

A-GPS 在每轮迭代中执行：(1) 用观测数据构建非支配标签 \(z_n\) 和偏好方向 \(\mathbf{u}_n\)；(2) 训练 CPE \(\pi_\theta^z(\mathbf{x}) \approx p(z=1|\mathbf{x})\) 预测非支配概率；(3) 训练条件生成模型 \(q_\phi(\mathbf{x}|\mathbf{u})\) 最大化 ELBO 逼近 \(p(\mathbf{x}|\mathbf{u}, z=1, a=1)\)；(4) 从生成模型采样新候选，评估并更新数据集。推理时用户指定偏好 \(\mathbf{u}_\star\) 直接从 \(q_\phi(\mathbf{x}|\mathbf{u}_\star)\) 采样。

关键设计¶

非支配 CPE 隐式估计 PHVI
做什么：训练分类器预测设计是否属于 Pareto 集。
核心思路：Theorem 1 证明超体积改善指示器与非支配指示器等价：\(\mathbb{1}[\text{HVI}(\mathbf{x}) > 0] = z(\mathbf{x})\)。因此用 proper loss 训练的 CPE 自动估计 PHVI：\(\pi_\theta^z(\mathbf{x}) \approx \mathbb{P}(\text{HVI}(\mathbf{x}) > 0 | \mathbf{x})\)。
设计动机：避免显式超体积计算（随目标数指数增长），用简单的分类器替代。CPE 引导生成模型聚焦于非支配区域。
偏好方向向量 + 对齐指示器
做什么：支持后验偏好条件化，无需重新训练。
核心思路：定义偏好方向 \(\mathbf{u}_n = \frac{\mathbf{y}_n - \mathbf{r}}{\|\mathbf{y}_n - \mathbf{r}\|}\)（单位向量，\(\mathbf{r}\) 是参考点），捕获目标间的相对权重。定义对齐指示器 \(a\)：当 \((\mathbf{x}, \mathbf{u})\) 对"对齐"时 \(a=1\)，通过对比真实配对和随机排列配对训练。学习的条件生成模型 \(q_\phi(\mathbf{x}|\mathbf{u}) \approx p(\mathbf{x}|\mathbf{u}, z=1, a=1)\) 在推理时可接受任意用户偏好 \(\mathbf{u}_\star\)。
设计动机：相比标量化 \(\boldsymbol{\lambda}\)，偏好方向向量更灵活——每个新 \(\boldsymbol{\lambda}\) 需要重训，我们的方法一次训练适用所有偏好（摊还 amortization）。
摊还式 ELBO 优化
做什么：联合优化 CPE 和条件生成模型。
核心思路：最小化 \(\mathbb{E}_{p(\mathbf{u}|z)}[D_{\text{KL}}[q_\phi(\mathbf{x}|\mathbf{u}) \| p(\mathbf{x}|\mathbf{u},z,a)]]\)，通过 ELBO 分解为：非支配 CPE 项（聚焦 Pareto 集）+ 对齐 CPE 项（尊重偏好）+ KL 先验项。
设计动机：摊还 VI 允许在单个模型中捕获 Pareto 前沿的全部多样性，通过条件化 \(\mathbf{u}\) 实现按需采样。

损失函数 / 训练策略¶

CPE：proper scoring loss（对数损失）
生成模型：ELBO = \(\mathbb{E}_{q_\phi}[\log \pi_\theta^z + \log \pi_\psi^a] - D_{\text{KL}}[q_\phi \| p_0]\)
在线迭代：每轮更新数据集、重训 CPE、更新生成模型、采样新候选

实验关键数据¶

主实验：合成 MOO 基准¶

方法	超体积	样本效率
MOBO (EHVI)	高	低
随机标量化	中	中
A-GPS	高	高

蛋白质设计任务¶

任务	A-GPS vs 基线
多目标蛋白质优化	更好的 Pareto 前沿近似 + 偏好灵活性

消融实验¶

组件	贡献
非支配 CPE	核心——引导生成模型聚焦 Pareto 集
偏好条件化	灵活性——无需重训即可指定偏好
对齐指示器	精度——确保生成样本与偏好一致

关键发现¶

非支配 CPE = 隐式 PHVI：理论证明与实验验证一致——简单分类器足以替代复杂超体积计算
摊还偏好条件化有效：训练时遍历多个偏好方向，推理时直接接受新偏好——避免了标量化方法的重训开销
对齐指示器提升质量：通过对比真实/随机配对训练的对齐 CPE，确保生成模型不仅在 Pareto 集上采样，还在用户指定区域采样
对离散设计空间特别有效：蛋白质序列等离散空间不能用梯度优化，生成模型提供了自然的替代

亮点与洞察¶

非支配 CPE ≡ PHVI 的理论结果是核心贡献：将超体积计算问题转化为简单的分类问题，一下子几何级地降低了计算复杂度。
偏好方向向量的设计比标量化更自然：单位向量在目标空间中指向用户期望的方向，几何直觉清晰，且支持摊还——一次训练后用户可以"拨盘"选择不同偏好。
Active Generation 范式（从 VSD 扩展）将优化问题重新表述为生成建模——不再是"搜索最优"而是"学习最优分布"，这对高维离散空间特别有利。

局限性 / 可改进方向¶

离散空间假设：方法主要针对离散设计空间，连续空间的效果未充分验证
CPE 质量依赖数据量：在线早期数据稀少时，CPE 可能不准确
Pareto 前沿非凸部分：偏好方向向量主要适合凸 Pareto 前沿，非凸前沿的覆盖可能不完整
黑箱评估成本：虽然样本效率好，但每轮仍需调用昂贵的黑箱评估

评分¶

新颖性: ⭐⭐⭐⭐ 非支配 CPE=PHVI 的理论结果新颖，偏好摊还设计优雅
实验充分度: ⭐⭐⭐⭐ 合成基准+蛋白质设计，但缺少大规模实验
写作质量: ⭐⭐⭐⭐ 理论推导严谨，但符号系统较重
价值: ⭐⭐⭐⭐ 对多目标黑箱优化有实际意义，尤其是蛋白质/药物设计