AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization¶

会议: ICLR 2026
arXiv: 2506.05634
代码: GitHub
领域: 强化学习
关键词: 质量多样性优化, 行为描述符, 占据测度, 随机傅里叶特征, 策略嵌入

一句话总结¶

本文提出 AutoQD，利用策略占据测度（occupancy measure）的随机傅里叶特征嵌入自动生成行为描述符，无需手工设计即可在连续控制任务中发现多样化高质量策略，并在 6 个标准环境中证明了有效性。

领域现状: Quality-Diversity (QD) 优化旨在发现既高性能又行为多样的策略集合，已在机器人运动、游戏生成等领域取得成功。
现有痛点: QD 算法严重依赖手工设计的行为描述符（如双足机器人的脚接触模式），需要大量领域知识，且预定义的多样性维度可能遗漏有趣的行为变体。
核心矛盾: 现有无监督 QD 方法（如 AURORA）使用自编码器重建状态来学习行为空间，但缺乏与策略行为的理论联系。RL 中的技能发现方法（如 DIAYN）需预设技能数量且不优化任务奖励。
本文目标: 提供一种理论有据的方法自动生成行为描述符，无需领域知识或预设技能数量。
切入角度: 在标准假设下，策略与其占据测度（occupancy measure）存在一一对应关系，因此占据测度是策略行为的完整刻画。
核心 idea: 用随机傅里叶特征嵌入占据测度，使嵌入距离近似 MMD 距离，再通过 PCA 降维得到行为描述符。

输入为 MDP 环境，输出为包含多样高质量策略的 archive。流程：收集策略轨迹→用随机傅里叶特征嵌入策略→加权 PCA 降维为低维行为描述符→CMA-MAE 进行 QD 优化→周期性更新描述符。

策略嵌入（Policy Embedding via RFF）:
- 功能: 将策略映射到欧氏空间，使距离反映行为差异
- 核心思路: 定义 D 维随机特征映射 \(\phi(s,a) = \sqrt{2/D}[\cos(\mathbf{w}_1^T[s;a]+b_1),...,\cos(\mathbf{w}_D^T[s;a]+b_D)]\)，策略嵌入 \(\psi^\pi = \frac{1}{n}\sum_j(1-\gamma)\sum_t\gamma^t\phi(s_t^j,a_t^j)\)。定理证明 \(\|\psi^{\pi_1}-\psi^{\pi_2}\| \approx MMD(\rho^{\pi_1},\rho^{\pi_2})\) 以高概率成立
- 设计动机: MMD 配合高斯核是占据测度空间上的合法度量，RFF 提供计算高效的有限维近似
行为描述符提取（cwPCA）:
- 功能: 将高维嵌入降至 k 维行为描述符
- 核心思路: 对 archive 中策略嵌入进行加权 PCA（按 fitness 加权），使更好策略对主成分方向有更大影响。再做校准使投影落在 [-1,1] 范围内
- 设计动机: 偏向高质量策略的行为变异探索；PCA 捕获最显著的行为差异维度
迭代算法（AutoQD）:
- 功能: 交替进行 QD 优化和描述符更新
- 核心思路: 在更新调度时间点重新计算 archive 中所有策略嵌入，更新仿射变换参数 \(\mathbf{A},\mathbf{b}\)，然后继续 CMA-MAE 优化
- 设计动机: 随着探索进行，行为空间的主要变异方向可能改变，需要动态更新

环境	指标	AutoQD	RegularQD (手工)	最佳基线
Ant	GT QD (×10⁴)	361.43	182.58	19.24
HalfCheetah	GT QD (×10⁴)	30.78	24.91	11.38
Hopper	qVS	1.94	1.35	1.81
Swimmer	VS	16.92	4.67	7.21
BipedalWalker	GT QD (×10⁴)	6.09	1.81	3.36

配置	关键指标	说明
无 fitness 加权 PCA	性能下降	低质量策略干扰主成分方向
不同 k 值	k=2 通常最优	更高维度 archive 难以填充

AutoQD 在 6 个环境中的 5 个上超越手工描述符方法
HalfCheetah 和 Walker2d 上表现略弱，因发现了"滑行"等低奖励但多样的行为
适应性实验：改变摩擦/质量时，AutoQD 的策略集保持更高鲁棒性- 在Ant环境中的GT QD指标达到361.43（×10⁴），远超手工描述符的182.58，显示了自动描述符的巨大优势
无fitness加权的PCA导致低质量策略干扰主成分方向，证实了cwPCA设计的必要性