SUSD: Structured Unsupervised Skill Discovery through State Factorization¶

会议: ICLR 2026
arXiv: 2602.01619
代码: https://github.com/hadi-hosseini/SUSD
领域: 无监督技能发现 / 强化学习
关键词: 无监督技能发现, 状态分解, 距离最大化, 好奇心驱动, 层次强化学习

一句话总结¶

提出 SUSD（Structured Unsupervised Skill Discovery），通过将状态空间分解为独立因子并为每个因子分配专属技能变量，结合好奇心驱动的因子加权机制，实现在多物体/多智能体复杂环境中发现覆盖全部可控因子的多样化技能。

研究背景与动机¶

无监督技能发现（USD）的目标：在无外部奖励下自主学习多样化技能，用于下游任务
两大技术路线：
- 互信息（MI）方法（DIAYN 等）：最大化技能变量与状态的互信息，但因变换不变性倾向学习简单静态行为
- 距离最大化（DSD）方法（CSD、METRA 等）：通过最大化状态空间距离鼓励动态行为，但在复杂多物体环境中只关注最易控制的因子
DSD 的关键局限：缺乏确保技能多样性覆盖所有可控因子的机制。在 Ant、HalfCheetah 等简单环境中表现好，但在多物体环境（多智能体、厨房）中退化。
核心解决思路：利用环境的组合结构作为归纳偏置，将状态空间分解，为每个因子学习专属技能。

方法详解¶

整体框架¶

SUSD 基于 DSD 框架，包含三个核心组件：分解化嵌入、好奇心因子加权、对偶梯度下降训练。

1. 状态空间分解¶

将状态空间分解为 \(N\) 个因子：\(\mathcal{S} := \mathcal{S}^1 \times \cdots \times \mathcal{S}^N\)，技能空间同步分解为 \(\mathcal{Z} := \mathcal{Z}^1 \times \cdots \times \mathcal{Z}^N\)。

映射函数 \(\phi\) 拆分为 \(N\) 个独立网络 \(\phi_i(s^i)\)，每个仅处理对应因子。优化目标变为：

\[\sup_{\pi, \{\phi_i\}_{i=1}^N} \mathbb{E}_{p(\tau, z)} \sum_{i=1}^N \sum_{t=0}^{T-1} (\phi_i(s_{t+1}^i) - \phi_i(s_t^i))^\top z^i\]

\[\text{s.t.} \sum_{i=1}^N \|\phi_i(s'^i) - \phi_i(s^i)\|_2 \leq 1, \quad \forall (s, s') \in \mathcal{S}_{\text{adj}}\]

2. 好奇心驱动的因子加权¶

训练密度模型 \(q_\theta(s'|s) = \mathcal{N}(\mu_\theta(s), \Sigma_\theta(s))\)，利用其因子边际估计每个因子的"好奇心"权重：

\[-\log q_\theta(s_{t+1}^i | s_t) \propto (s_{t+1}^i - \mu_\theta^i(s_t))^\top \Sigma_\theta^i(s_t)^{-1} (s_{t+1}^i - \mu_\theta^i(s_t))\]

高好奇心值 = 低概率转移 = 需要更多关注。\(\sqrt{-\log q_\theta(s_{t+1}^i|s_t)}\) 作为合法距离度量整合到目标中。

3. 最终优化目标与内在奖励¶

每个因子的技能奖励：

\[r_i^{\text{SUSD}} := (\phi_i(s_{t+1}^i) - \phi_i(s_t^i))^\top z^i\]

总内在奖励（加权求和）：

\[R := \sum_{i=1}^N \sqrt{-\log q_\theta(s_{t+1}^i | s_t)} \cdot r_i^{\text{SUSD}}\]

映射函数和 Lagrange 乘子通过对偶梯度下降更新，策略使用 SAC 训练。

实验结果¶

下游任务表现（Multi-Particle 和 Kitchen 环境）¶

方法	MP 平均回报	Kitchen 平均回报
DIAYN	低	低
LSD	低	低
CSD	中	低
METRA	中	低-中
DUSDi	中	低
SUSD	高	高

SUSD 在复杂分解环境中显著优于所有基线，尤其 Kitchen 环境差距更大。

技能学习阶段的偶然任务完成¶

任务	SUSD	DUSDi
BiP (黄油入锅)	39.9±18.5	0.0
MiP (肉丸入锅)	58.9±25.8	2.5
PoS (锅上灶)	20.5±18.0	1.3

SUSD 在技能学习阶段就能偶然完成下游任务，其他方法完全做不到。

因子解码误差¶

方法	Multi-Particle	Kitchen	2D-Gunner
SUSD	0.060	0.014	0.080
METRA	0.147	0.028	0.186
CSD	0.313	0.049	0.404
LSD	0.308	0.038	0.224

SUSD 的潜在技能嵌入包含最丰富的因子信息。

关键发现¶

SUSD 实现了显著更好的状态覆盖——尤其是最差智能体的覆盖率
在非分解环境（Ant、HalfCheetah）中仍保持竞争力
好奇心加权机制有效引导注意力到欠探索因子

亮点与洞察¶

分解化 DSD 的首创：将状态分解这一归纳偏置首次引入 DSD 框架
细粒度好奇心加权：不同于 CSD 的粗粒度（整个状态转移一个权重），SUSD 为每个因子独立计算权重
可组合技能：分解化技能表征天然支持技能组合和链接
引理支撑：通过 Lemma 4.1 严格证明距离项可作为内在奖励的系数

局限性¶

需要预先知道状态的分解结构（哪些维度属于哪个因子）
在像素输入场景中需要额外的解耦表征学习
技能空间维度随因子数量线性增长
在非分解环境中优势不明显

评分¶

创新性: ⭐⭐⭐⭐ — 分解化 DSD + 好奇心因子加权的组合新颖有效
技术深度: ⭐⭐⭐⭐ — 理论推导扎实（Lemma 4.1），优化框架完整
实验充分性: ⭐⭐⭐⭐ — 多环境评估，消融和定性分析丰富
实用价值: ⭐⭐⭐ — 依赖状态分解假设，适用场景有限但效果突出