跳转至

Loss-Guided Auxiliary Agents for Overcoming Mode Collapse in GFlowNets

会议: AAAI 2026
arXiv: 2505.15251
代码: 有
领域: 生成式流网络 / 探索
关键词: GFlowNet, 模式坍缩, 辅助Agent, 损失引导, 多样性采样

一句话总结

提出 LGGFN(Loss-Guided GFlowNets),用辅助 GFlowNet 的探索直接由主 GFlowNet 的训练损失驱动——辅助 Agent 的奖励 = 原始奖励 + λ·主模型损失,优先采样主模型理解不足的区域,在网格/序列/贝叶斯结构学习任务上分别发现 40× 更多唯一模式、99% 探索误差降低。

研究背景与动机

  1. 领域现状:GFlowNet 设计用于从奖励函数按比例采样多模态分布(而非仅找最优点),理论上避免模式坍缩。但实践中 on-policy 训练仍面临模式坍缩——被早期发现的高奖励模式吸引。

  2. 现有痛点

  3. 现有探索技术依赖启发式新奇信号(如状态计数、RND)——与模型实际学习状态脱节
  4. 新奇信号可能引导探索到无关区域(新但不重要)
  5. 缺乏利用模型自身训练信号来指导探索的机制

  6. 核心矛盾:GFlowNet 需要广泛探索来学习完整的分布,但 on-policy 采样被高奖励区域主导——需要一种机制将采样重定向到模型尚未学好的区域。

  7. 本文要解决什么? 用主模型的训练损失作为辅助 Agent 的探索信号,实现"哪里不会去哪里"。

  8. 切入角度:训练损失高的区域 = 主模型理解不足的区域 → 辅助 Agent 优先探索这些区域 → 将样本反馈给主模型训练。

  9. 核心 idea 一句话:辅助 GFlowNet 奖励 = 主模型奖励 + 主模型损失 → 定向探索薄弱区域。

方法详解

整体框架

双 GFlowNet 架构:主 Agent(学习目标分布)+ 辅助 Agent(学习"主 Agent 的损失加权分布")。主 Agent 的训练数据 = on-policy 采样 ∪ 辅助 Agent 采样。辅助 Agent 定期更新其奖励(反映主 Agent 当前的薄弱点)。

关键设计

  1. 损失引导辅助奖励:
  2. 做什么:让辅助 Agent 优先探索主 Agent 损失高的区域
  3. 核心思路:\(R_{aux}(x) = R(x) + \lambda \cdot L_{main}(x)\)\(L_{main}\) 是主 GFlowNet 在轨迹 \(x\) 上的训练损失
  4. 设计动机:损失高 = 主模型不确定/理解不足 → 最需要更多数据的区域。比新奇信号更直接——直接测量"学得不好"而非"去过没去过" - 实现细节:损失可以是基于轨迹的 TB 损失、基于转换的 FM 损失或子轨迹损失,方法与具体训练目标无关;\(\lambda\) 保持 \(R_{aux}\)\(R_{main}\) 同量级,防止训练不稳定
  5. 混合训练策略:
  6. 做什么:主 Agent 从两个来源学习
  7. 核心思路:训练 batch = α · on-policy 样本 + (1-α) · 辅助 Agent 样本。α 控制探索 vs 利用
  8. 设计动机:纯辅助采样可能偏离奖励分布太远;混合保持分布学习的稳定性

  9. 神经网络泛化利用:

  10. 做什么:利用神经网络的泛化能力使损失信号在相邻状态间"扩散"
  11. 核心思路:主模型在某个轨迹上损失高 → 通过网络泛化,相邻轨迹的损失也会较高 → 辅助 Agent 的探索不是点对点而是区域性的
  12. 设计动机:这是比状态计数更高效的探索——一次有信息量的探索覆盖整个"不确定区域"

损失函数 / 训练策略

  • 主 Agent:标准 GFlowNet 训练损失(TB/DB/SubTB)
  • 辅助 Agent:TB 损失,奖励 = R + λL_main

实验关键数据

主实验

任务 LGGFN 最佳基线 改善
Hypergrid 128×128 L1↓ 0.83±0.21 0.92±0.36 (AdaTeachers) 10%
序列生成 唯一模式数↑ 40× 更多 基线 40×
序列生成 探索误差↓ 99% 降低 基线 99%
贝叶斯结构学习 +10% 基线 10%

消融

配置 效果
仅 on-policy(无辅助) 严重模式坍缩
随机探索(辅助无引导) 中等改善
新奇性引导 改善但不稳定
损失引导(LGGFN) 最优且稳定

关键发现

  • 损失信号 > 新奇性信号:损失直接测量"学得不好",比"去没去过"更精确
  • 40× 更多模式(序列生成):证明 LGGFN 真正解决了模式坍缩而非仅改善近似精度
  • 辅助 Agent 的"损失递减":随着主模型改善,辅助 Agent 的探索方向自然转变——自适应机制

亮点与洞察

  • 用训练损失直接驱动探索的思路简洁但强大——"哪里不会去哪里"是最自然的探索策略
  • 对任何需要多样性采样的生成模型(如药物设计、材料搜索)都有迁移价值
  • GFlowNet + 辅助 Agent 的双模型框架可推广到其他 RL 场景

局限性 / 可改进方向

  • 辅助 Agent 的 λ 超参数需要调节
  • 双 GFlowNet 增加了计算和内存开销
  • 仅在离散空间任务上验证

相关工作与启发

  • vs Adaptive Teachers (Jain et al.):用教师分布引导。LGGFN 直接用损失信号更精准
  • vs RND / Curiosity:新奇性驱动探索侧重于状态访问频率,LGGFN 的损失驱动更精准地指向模型实际没学好的区域
  • vs Diverse RL:多样性 RL 通常用内在奖励或信息论正则化,而 LGGFN 通过辅助 Agent 的显式引导更可控且可解释
  • 损失引导探索可推广到 RLHF 中的多样性生成,也可用于对抗样本挖掘

评分

  • 新颖性: ⭐⭐⭐⭐ 损失引导探索概念简洁有力,用辅助 Agent 的高损失区域引导主 Agent 探索是非常自然的解耦设计
  • 实验充分度: ⭐⭐⭐⭐ 三类任务(超图、分子、序列生成)、多基线、消融完整,跨域验证说服力强
  • 写作质量: ⭐⭐⭐⭐ 动机链清晰,从 mode collapse 问题到损失引导方案的推导逻辑性好
  • 价值: ⭐⭐⭐⭐ 对多模态采样和分子设计有直接应用价值,是 GFlowNet 社区解决 mode collapse 的重要改进

补充说明

  • 损失引导的辅助 Agent 设计思路不仅限于 GFlowNet,可推广到任何需要多样性探索的生成模型场景