跳转至

Ergodic Generative Flows

会议: ICML2025
arXiv: 2505.03561
代码: 待确认
领域: 生成流 / 强化学习 / 模仿学习
关键词: Generative Flow Networks, 遍历性, 微分同胚, flow-matching, 模仿学习, 归一化流

一句话总结

提出 Ergodic Generative Flows (EGFs),通过有限个全局微分同胚构建生成流,利用遍历性 (ergodicity) 保证通用性,并设计 KL-weakFM 损失实现无需独立奖励模型的模仿学习训练,在 NASA 地球科学数据集上以 30 倍更小的模型超越基线。

研究背景与动机

Generative Flow Networks (GFNs) 最初在有向无环图上提出,用于从未归一化分布中采样。尽管后续工作将其扩展到连续状态空间和非无环结构,GFNs 仍面临四个关键挑战:

模仿学习需要独立奖励模型:IL 场景下目标分布密度未知,现有方法需先训练独立奖励模型再用 RL 技术求解,增加训练和计算成本

FM 损失在连续设置中不可解:朴素前向策略(如扩散模型中的加噪)导致 star inflow \(f^*_\leftarrow\) 需要计算高维积分,计算上不可行

无环性约束:需要手工构造额外结构,而环路在朴素实现和 RL 环境中自然出现

0-flow 不稳定性:基于散度的损失函数在存在遍历测度时可能不稳定,这一理论预测尚未被实验验证

本文提出的 EGFs 统一解决以上四个问题。

方法详解

核心定义:Ergodic Generative Flow

EGF 的前向策略由有限个微分同胚 \(\{\Phi_i\}_{i=1}^p\) 构成:

\[\pi^*_\rightarrow(s) = \sum_{i=1}^p \alpha^i_\rightarrow(s) \delta_{\Phi_i(s)}\]

其中 \(\alpha_\rightarrow: \mathcal{S} \to [0,1]^p\) 为策略网络(softmax 头),且要求 \(\Phi_i\) 生成的微分同胚群满足拓扑遍历性:对任意 \(x, y \in \mathcal{S}\)\(y\) 的任意邻域 \(\mathcal{U}\),存在变换序列使 \(x\Phi_{i_1}\Phi_{i_2}\cdots\Phi_{i_t} \in \mathcal{U}\)

Star Inflow 的可解性

由于仅使用有限个微分同胚,star inflow 有闭合公式:

\[f^*_\leftarrow(s) = \sum_{i=1}^p (\alpha^i_\rightarrow f^*_\rightarrow) \circ \Phi_i^{-1}(s) \cdot |\det J_s \Phi_i^{-1}|\]

当变换数 \(p\) 较小时,FM 损失 \(\mathcal{L}^{\text{stable}}_{\text{FM}}\) 完全可解。

通用性定理

Master Universality Theorem (Thm 3.4):若参数化 EGF 族包含某个满足 summably \(L^2\)-mixing 的策略 \(\pi^*_\rightarrow\),且 \(f^*_\rightarrow\)\(L^2(\mathcal{S}, \lambda)\) 中稠密,则该族是通用的。

具体实例: - 环面 \(\mathbb{T}^d\):仿射环面族,使用 \(\text{SL}_d(\mathbb{Z})\) 的两个生成元及其逆,即 \(p=4\) 即可实现通用性 - 球面 \(\mathbb{S}^d\):等距球面族,使用 \(\text{SO}_{d+1}(\mathbb{R})\) 的两个生成元及其逆,同样 \(p=4\) 即可

定量采样定理 (Thm 3.8)

对任意生成流,采样误差满足:

\[\text{TV}(s_\tau \| \kappa/\kappa(\mathcal{S})) \leq \frac{\delta}{1+\delta} + \text{TV}(\hat{\kappa}/\hat{\kappa}(\mathcal{S}) \| \kappa/\kappa(\mathcal{S}))\]

其中 \(\delta = (F_\text{init} + F^*_\leftarrow - F^*_\rightarrow)^-(\mathcal{S})\) 衡量流匹配缺陷的负部分。

KL-weakFM 损失

为 IL 设计的核心损失函数,无需独立奖励模型:

\[\mathcal{L}_{KL\text{-}wFM}(\theta) = b \cdot \mathbb{E}_{s \sim \nu_\text{train}} \delta f_\text{init}(s) - \mathbb{E}_{s \sim \kappa} \log \hat{f}_\text{term}(s)\]
  • 第一项(weak-FM 项):仅控制 FM 缺陷的负部分,确保 \(\hat{f}_\text{term}\) 非负
  • 第二项(交叉熵项):控制虚拟终端分布 \(\hat{F}_\text{term}\) 与目标 \(\kappa\) 的 KL 散度
  • weak-FM 项同时控制归一化因子(式 18),使两项协同工作

RL 场景的 FM 损失

稳定 FM 损失(用于 RL):

\[\mathcal{L}^{\text{stable}}_{\text{FM},q} = \mathbb{E}_{s \sim \nu_\text{train}} [(f_\text{init} + f^*_\leftarrow - f_\text{term} - f^*_\rightarrow)^q(s)]\]

不稳定散度 FM 损失(用于对比实验):

\[\mathcal{L}^{\text{div}}_{\text{FM}} = \mathbb{E}_{\underline{s}} \sum_{t=1}^\tau \log\left(\frac{f^*_\leftarrow + f_\text{init}}{f^*_\rightarrow + f_\text{term}}\right)^2(\underline{s}_t)\]

正则项 \(\mathcal{R} = \mathbb{E}_{\underline{s}} \sum_t (f^*_\rightarrow)^2(\underline{s}_t)\) 用于帮助稳定训练。

实验关键数据

RL 实验 (棋盘格分布, \(\mathbb{T}^2\))

  • 架构:16 个变换(8 平移 + 2 个 \(\text{SL}_d(\mathbb{Z})\) 元素及其逆),MLP 5 层×32 宽
  • 验证了 EGF 的可解性和表达能力
  • 确认了不稳定散度损失 \(\mathcal{L}^{\text{div}}_{\text{FM}}\) 的爆炸行为(流大小和采样时间 \(\tau\) 发散),正则化可缓解
  • 稳定损失 \(\mathcal{L}^{\text{stable}}_{\text{FM}}\) 收敛良好

IL 实验:\(\mathbb{T}^2\) 上的玩具分布

  • EGF:最少 4 个仿射变换,MLP 3 层×32 宽
  • 对比 Moser Flow(同样 32×3 架构)
  • 结果:Moser Flow 在如此小的模型下训练失败,EGF 仍能高保真度复现目标分布

IL 实验:\(\mathbb{S}^2\) 上的 NASA 数据集

方法 Volcano ↓ Earthquake ↓ Flood ↓
Mixture vMF -0.31 0.59 1.09
Stereographic -0.64 0.43 0.99
Riemannian -0.97 0.19 0.90
Moser Flow -2.02 -0.09 0.62
EGFN -2.31 -0.12 0.56
  • EGF 使用 6 个旋转(3 轴各 \(\pi/4\) 角旋转及其逆),MLP 256×5
  • 基线 Moser Flow 使用 512×6,即 EGF 模型约小 30 倍
  • 训练时间比 Moser Flow 快 10 倍
  • 学习率 1e-3,指数衰减至 1e-5,3000 epochs × 25 steps

亮点与洞察

  1. 理论-实践统一:遍历性理论与通用性保证的结合非常优美,仅 4 个简单变换即可在任意维度上实现通用性
  2. 可解的 FM 损失:有限微分同胚使 star inflow 有闭合公式,避免了连续 GFN 中的不可解积分问题
  3. 无奖励模型的 IL:KL-weakFM 损失首次实现了 GFN 框架下无需独立奖励模型的模仿学习
  4. 极端参数效率:以 30 倍更小的模型超越 Moser Flow,展示了遍历性带来的表达力增益
  5. 与 NF 的桥梁:EGF 可视为归一化流的随机采样器,每条采样轨迹对应一个随机 NF,建立了 GFN 与 NF 的深层联系
  6. 定量采样定理:首次为非无环生成流给出定量采样误差界

局限与展望

  1. 仅限低维实验:实验仅在 \(\mathbb{T}^2\)\(\mathbb{S}^2\) 上进行,高维场景的实际表现未知
  2. \(L^2\)-mixing summability 条件难验证:通用性所需的技术条件在高维中更难满足,需要进一步的理论发展
  3. 变换数量的理论下界:仅对仿射环面和等距球面族给出了两个生成元的充分性,一般情况下的最少变换数未知
  4. 超参数调优不足:作者承认未充分利用 EGF 的高模块化特性,未尝试复杂变换、重放缓冲或高级架构
  5. 缺少与扩散模型的直接对比:作为生成模型,未与 DDPM 等主流方法在标准图像生成 benchmark 上比较
  6. 背景噪声问题:KL-weakFM 损失倾向使 \(\hat{f}_\text{term}\) 在全空间为正,导致异常值,需要额外的阈值过滤

相关工作与启发

  • GFlowNet 理论 (Bengio et al., 2021; 2023):EGF 是 GFN 在连续非无环设置中的推进
  • Moser Flow (Rozen et al., 2021):IL 的主要基线,EGF 在低参数量下显著优于它
  • 非无环 GFN 理论 (Brunswic et al., 2024):本文第一作者的前作,EGF 验证了其关于散度损失不稳定性的预测
  • CINF (Caterini et al., 2021):类似的思路——通过期望聚合多个 NF
  • 遍历论 (Walters, 2000; Bourgain & Gamburd, 2012):为 EGF 通用性提供数学基础

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 将遍历论引入生成流极具原创性
  • 实验充分度: ⭐⭐⭐ — 仅低维实验,缺少高维和主流 benchmark
  • 写作质量: ⭐⭐⭐⭐ — 理论严谨、结构清晰,但数学予以较重
  • 价值: ⭐⭐⭐⭐ — 理论贡献重大,实用性待高维验证

相关论文