Soft Quality-Diversity Optimization¶

元信息¶

会议: ICLR 2026
arXiv: 2512.00810
代码: https://github.com/conflictednerd/soft-qd
领域: others
关键词: quality diversity, optimization, differentiable, evolutionary computation, soft objectives

一句话总结¶

提出 Soft QD Score 作为无需行为空间离散化的质量多样性优化新目标，并据此推导出可微分算法 SQUAD，在高维行为空间中具有更好的可扩展性，且在标准基准上与 SOTA 竞争力相当。

研究背景与动机¶

Quality-Diversity (QD) 优化：寻找一组既高质量又行为多样的解，应用于 RL 策略多样化、红队测试、内容生成等。
传统方法的局限：
将行为空间离散化为网格/CVT 单元格，遭受维度灾难——单元格数指数增长或单元格体积指数膨胀
不可微的离散化阻碍梯度优化
核心问题：能否设计无需离散化的 QD 目标，直接在连续行为空间上进行可微优化？

方法详解¶

核心概念：行为值¶

将每个解视为照亮行为空间的"光源"，亮度正比于质量，影响随距离衰减：

\[v_{\bm{\theta}}(\mathbf{b}) = \max_{1 \leq n \leq N} f_n \exp\left(-\frac{\|\mathbf{b} - \mathbf{b}_n\|^2}{2\sigma^2}\right)\]

其中 \(f_n = f(\theta_n)\) 为解的质量，\(\mathbf{b}_n = \text{desc}(\theta_n)\) 为行为描述符。

Soft QD Score¶

整个行为空间上的总行为值：

\[S(\bm{\theta}) = \int_{\mathcal{B}} v_{\bm{\theta}}(\mathbf{b}) \, d\mathbf{b}\]

直觉：要获得高 Soft QD Score，需要高质量解分散覆盖整个行为空间。

理论性质（定理 1）¶

单调性：添加新解或提升现有解质量，值不减
次模性：边际贡献递减
极限等价：当 \(\sigma \to 0\) 时，Soft QD Score 收敛到传统 QD Score（乘以常数）

SQUAD 算法¶

直接最大化 \(S(\bm{\theta})\) 涉及不可解积分。定理 2 提供可计算下界：

\[\tilde{S}(\bm{\theta}) = \underbrace{\sum_{n=1}^N f_n}_{\text{质量项}} - \underbrace{\sum_{1 \leq i < j \leq N} \sqrt{f_i f_j} \exp\left(-\frac{\|\mathbf{b}_i - \mathbf{b}_j\|^2}{\gamma^2}\right)}_{\text{多样性项（排斥力）}}\]

直觉解释： - 质量项：驱动所有解提升质量（吸引力） - 多样性项：行为接近的高质量解对受到惩罚（排斥力） - 几何均值 \(\sqrt{f_i f_j}\) 使低质量解先优化质量再分散——先学好再分开

高效实现¶

K 近邻加速：每个解只计算 \(k\) 个最近邻的排斥力（\(O(Nk)\) vs \(O(N^2)\)）
Mini-batch 更新：分批更新减少内存
有界空间处理：用 logit 变换映射到无界空间

算法流程¶

初始化 N 个解
for t = 1 to T:
    for 每个 mini-batch:
        找 K 近邻
        计算 S̃ 及其梯度
        Adam 更新参数
        重新评估质量和行为描述

实验关键数据¶

主实验 1：高维行为空间可扩展性（Linear Projection）¶

行为空间维度	CMA-MAEGA	Sep-CMA-MAE	GA-ME	SQUAD
2D	最优	好	中	竞争力强
10D	下降明显	下降	下降	保持稳定
50D	严重退化	退化	退化	仍有效
100D	几乎失效	失效	失效	仍有效

SQUAD 是唯一在高维行为空间中不严重退化的方法。

主实验 2：图像合成 (IC) 与潜空间照亮 (LSI)¶

方法	IC QD Score	IC Vendi Score	LSI QD Score	LSI Vendi Score
CMA-MAEGA	最优级	较高	最优级	较高
Sep-CMA-MAE	高	中	高	中
DNS-G	中	较高	中	较高
SQUAD	竞争力强	最高	竞争力强	最高

SQUAD 在多样性指标上一致最优，在 QD Score 上与 SOTA 竞争。

消融实验：\(\gamma\) 的影响¶

\(\gamma\) 值	平均质量	Vendi Score	说明
小	最高	最低	弱排斥→偏向质量
中	高	高	平衡
大	较低	最高	强排斥→偏向多样性

\(\gamma\) 直观控制质量-多样性权衡。

关键发现¶

基于单元格的方法在高维行为空间中因维度灾难而失败
SQUAD 的连续目标自然避免了离散化问题
排斥力中的几何均值项使低质量解先提升质量——形成自然的"先质量后多样性"课程
Logit 变换对有界行为空间至关重要
K 近邻近似对最终结果几乎无影响（因为指数衰减使远处解影响可忽略）

亮点与洞察¶

范式转换：从离散单元格到连续 Soft 目标，避免维度灾难
优雅的物理类比：吸引力（质量提升）+ 排斥力（多样性分散）= 自组织均衡
理论完备：单调性、次模性、极限等价性提供坚实基础
几何均值的巧妙效果：自动实现"低质量→先提升质量；高质量→开始分散"的课程

局限性¶

下界近似忽略了三阶及以上的多体交互，可能在非常紧密的群体中不准确
\(\gamma\) 超参需要调优，且与问题规模和行为空间结构相关
比基于 archive 的方法缺少显式的解存储，不便直接查询特定行为
在非可微目标函数（如需要模拟器的 RL 问题）中不直接适用

评分¶

新颖性: ⭐⭐⭐⭐⭐ — Soft QD 重新定义了 QD 优化的目标，范式性贡献
理论深度: ⭐⭐⭐⭐ — 单调性、次模性、极限等价性、下界推导
实验充分性: ⭐⭐⭐⭐ — 三个基准域、多维度可扩展性、消融分析
实用价值: ⭐⭐⭐⭐ — 高维 QD 的可行方案，但限于可微目标