跳转至

Soft Quality-Diversity Optimization

元信息

一句话总结

提出 Soft QD Score 作为无需行为空间离散化的质量多样性优化新目标,并据此推导出可微分算法 SQUAD,在高维行为空间中具有更好的可扩展性,且在标准基准上与 SOTA 竞争力相当。

研究背景与动机

  • Quality-Diversity (QD) 优化:寻找一组既高质量又行为多样的解,应用于 RL 策略多样化、红队测试、内容生成等。
  • 传统方法的局限
  • 将行为空间离散化为网格/CVT 单元格,遭受维度灾难——单元格数指数增长或单元格体积指数膨胀
  • 不可微的离散化阻碍梯度优化
  • 核心问题:能否设计无需离散化的 QD 目标,直接在连续行为空间上进行可微优化?

方法详解

核心概念:行为值

将每个解视为照亮行为空间的"光源",亮度正比于质量,影响随距离衰减:

\[v_{\bm{\theta}}(\mathbf{b}) = \max_{1 \leq n \leq N} f_n \exp\left(-\frac{\|\mathbf{b} - \mathbf{b}_n\|^2}{2\sigma^2}\right)\]

其中 \(f_n = f(\theta_n)\) 为解的质量,\(\mathbf{b}_n = \text{desc}(\theta_n)\) 为行为描述符。

Soft QD Score

整个行为空间上的总行为值:

\[S(\bm{\theta}) = \int_{\mathcal{B}} v_{\bm{\theta}}(\mathbf{b}) \, d\mathbf{b}\]

直觉:要获得高 Soft QD Score,需要高质量解分散覆盖整个行为空间。

理论性质(定理 1)

  1. 单调性:添加新解或提升现有解质量,值不减
  2. 次模性:边际贡献递减
  3. 极限等价:当 \(\sigma \to 0\) 时,Soft QD Score 收敛到传统 QD Score(乘以常数)

SQUAD 算法

直接最大化 \(S(\bm{\theta})\) 涉及不可解积分。定理 2 提供可计算下界:

\[\tilde{S}(\bm{\theta}) = \underbrace{\sum_{n=1}^N f_n}_{\text{质量项}} - \underbrace{\sum_{1 \leq i < j \leq N} \sqrt{f_i f_j} \exp\left(-\frac{\|\mathbf{b}_i - \mathbf{b}_j\|^2}{\gamma^2}\right)}_{\text{多样性项(排斥力)}}\]

直觉解释: - 质量项:驱动所有解提升质量(吸引力) - 多样性项:行为接近的高质量解对受到惩罚(排斥力) - 几何均值 \(\sqrt{f_i f_j}\) 使低质量解先优化质量再分散——先学好再分开

高效实现

  • K 近邻加速:每个解只计算 \(k\) 个最近邻的排斥力(\(O(Nk)\) vs \(O(N^2)\)
  • Mini-batch 更新:分批更新减少内存
  • 有界空间处理:用 logit 变换映射到无界空间

算法流程

初始化 N 个解
for t = 1 to T:
    for 每个 mini-batch:
        找 K 近邻
        计算 S̃ 及其梯度
        Adam 更新参数
        重新评估质量和行为描述

实验关键数据

主实验 1:高维行为空间可扩展性(Linear Projection)

行为空间维度 CMA-MAEGA Sep-CMA-MAE GA-ME SQUAD
2D 最优 竞争力强
10D 下降明显 下降 下降 保持稳定
50D 严重退化 退化 退化 仍有效
100D 几乎失效 失效 失效 仍有效

SQUAD 是唯一在高维行为空间中不严重退化的方法。

主实验 2:图像合成 (IC) 与潜空间照亮 (LSI)

方法 IC QD Score IC Vendi Score LSI QD Score LSI Vendi Score
CMA-MAEGA 最优级 较高 最优级 较高
Sep-CMA-MAE
DNS-G 较高 较高
SQUAD 竞争力强 最高 竞争力强 最高

SQUAD 在多样性指标上一致最优,在 QD Score 上与 SOTA 竞争。

消融实验:\(\gamma\) 的影响

\(\gamma\) 平均质量 Vendi Score 说明
最高 最低 弱排斥→偏向质量
平衡
较低 最高 强排斥→偏向多样性

\(\gamma\) 直观控制质量-多样性权衡。

关键发现

  1. 基于单元格的方法在高维行为空间中因维度灾难而失败
  2. SQUAD 的连续目标自然避免了离散化问题
  3. 排斥力中的几何均值项使低质量解先提升质量——形成自然的"先质量后多样性"课程
  4. Logit 变换对有界行为空间至关重要
  5. K 近邻近似对最终结果几乎无影响(因为指数衰减使远处解影响可忽略)

亮点与洞察

  • 范式转换:从离散单元格到连续 Soft 目标,避免维度灾难
  • 优雅的物理类比:吸引力(质量提升)+ 排斥力(多样性分散)= 自组织均衡
  • 理论完备:单调性、次模性、极限等价性提供坚实基础
  • 几何均值的巧妙效果:自动实现"低质量→先提升质量;高质量→开始分散"的课程

局限性

  • 下界近似忽略了三阶及以上的多体交互,可能在非常紧密的群体中不准确
  • \(\gamma\) 超参需要调优,且与问题规模和行为空间结构相关
  • 比基于 archive 的方法缺少显式的解存储,不便直接查询特定行为
  • 在非可微目标函数(如需要模拟器的 RL 问题)中不直接适用

相关工作

  • QD 算法: MAP-Elites (Cully et al., 2015), CMA-MEGA (Fontaine & Nikolaidis, 2021/2023)
  • 可微 QD: DQD (Fontaine & Nikolaidis, 2021), PGA-ME (Nilsson & Cully, 2021)
  • 新颖性搜索: Lehman & Stanley (2011), DNS (Bahlous-Boldi et al., 2025)
  • 多样性度量: Vendi Score (Friedman & Dieng, 2023)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — Soft QD 重新定义了 QD 优化的目标,范式性贡献
  • 理论深度: ⭐⭐⭐⭐ — 单调性、次模性、极限等价性、下界推导
  • 实验充分性: ⭐⭐⭐⭐ — 三个基准域、多维度可扩展性、消融分析
  • 实用价值: ⭐⭐⭐⭐ — 高维 QD 的可行方案,但限于可微目标

相关论文