Loss-Guided Auxiliary Agents for Overcoming Mode Collapse in GFlowNets¶

会议: AAAI 2026
arXiv: 2505.15251
代码: 有
领域: 生成式流网络 / 探索
关键词: GFlowNet, 模式坍缩, 辅助Agent, 损失引导, 多样性采样

一句话总结¶

提出 LGGFN（Loss-Guided GFlowNets），用辅助 GFlowNet 的探索直接由主 GFlowNet 的训练损失驱动——辅助 Agent 的奖励 = 原始奖励 + λ·主模型损失，优先采样主模型理解不足的区域，在网格/序列/贝叶斯结构学习任务上分别发现 40× 更多唯一模式、99% 探索误差降低。

研究背景与动机¶

领域现状：GFlowNet 设计用于从奖励函数按比例采样多模态分布（而非仅找最优点），理论上避免模式坍缩。但实践中 on-policy 训练仍面临模式坍缩——被早期发现的高奖励模式吸引。
现有痛点：
现有探索技术依赖启发式新奇信号（如状态计数、RND）——与模型实际学习状态脱节
新奇信号可能引导探索到无关区域（新但不重要）
缺乏利用模型自身训练信号来指导探索的机制
核心矛盾：GFlowNet 需要广泛探索来学习完整的分布，但 on-policy 采样被高奖励区域主导——需要一种机制将采样重定向到模型尚未学好的区域。
本文要解决什么？ 用主模型的训练损失作为辅助 Agent 的探索信号，实现"哪里不会去哪里"。
切入角度：训练损失高的区域 = 主模型理解不足的区域 → 辅助 Agent 优先探索这些区域 → 将样本反馈给主模型训练。
核心 idea 一句话：辅助 GFlowNet 奖励 = 主模型奖励 + 主模型损失 → 定向探索薄弱区域。

方法详解¶

整体框架¶

双 GFlowNet 架构：主 Agent（学习目标分布）+ 辅助 Agent（学习"主 Agent 的损失加权分布"）。主 Agent 的训练数据 = on-policy 采样 ∪ 辅助 Agent 采样。辅助 Agent 定期更新其奖励（反映主 Agent 当前的薄弱点）。

关键设计¶

损失引导辅助奖励:
做什么：让辅助 Agent 优先探索主 Agent 损失高的区域
核心思路：\(R_{aux}(x) = R(x) + \lambda \cdot L_{main}(x)\)，\(L_{main}\) 是主 GFlowNet 在轨迹 \(x\) 上的训练损失
设计动机：损失高 = 主模型不确定/理解不足 → 最需要更多数据的区域。比新奇信号更直接——直接测量"学得不好"而非"去过没去过" - 实现细节：损失可以是基于轨迹的 TB 损失、基于转换的 FM 损失或子轨迹损失，方法与具体训练目标无关；\(\lambda\) 保持 \(R_{aux}\) 与 \(R_{main}\) 同量级，防止训练不稳定
混合训练策略:
做什么：主 Agent 从两个来源学习
核心思路：训练 batch = α · on-policy 样本 + (1-α) · 辅助 Agent 样本。α 控制探索 vs 利用
设计动机：纯辅助采样可能偏离奖励分布太远；混合保持分布学习的稳定性
神经网络泛化利用:
做什么：利用神经网络的泛化能力使损失信号在相邻状态间"扩散"
核心思路：主模型在某个轨迹上损失高 → 通过网络泛化，相邻轨迹的损失也会较高 → 辅助 Agent 的探索不是点对点而是区域性的
设计动机：这是比状态计数更高效的探索——一次有信息量的探索覆盖整个"不确定区域"

损失函数 / 训练策略¶

主 Agent：标准 GFlowNet 训练损失（TB/DB/SubTB）
辅助 Agent：TB 损失，奖励 = R + λL_main

实验关键数据¶

主实验¶

任务	LGGFN	最佳基线	改善
Hypergrid 128×128 L1↓	0.83±0.21	0.92±0.36 (AdaTeachers)	10%
序列生成唯一模式数↑	40× 更多	基线	40×
序列生成探索误差↓	99% 降低	基线	99%
贝叶斯结构学习	+10%	基线	10%

消融¶

配置	效果
仅 on-policy（无辅助）	严重模式坍缩
随机探索（辅助无引导）	中等改善
新奇性引导	改善但不稳定
损失引导（LGGFN）	最优且稳定

关键发现¶

损失信号 > 新奇性信号：损失直接测量"学得不好"，比"去没去过"更精确
40× 更多模式（序列生成）：证明 LGGFN 真正解决了模式坍缩而非仅改善近似精度
辅助 Agent 的"损失递减"：随着主模型改善，辅助 Agent 的探索方向自然转变——自适应机制

亮点与洞察¶

用训练损失直接驱动探索的思路简洁但强大——"哪里不会去哪里"是最自然的探索策略
对任何需要多样性采样的生成模型（如药物设计、材料搜索）都有迁移价值
GFlowNet + 辅助 Agent 的双模型框架可推广到其他 RL 场景

局限性 / 可改进方向¶

辅助 Agent 的 λ 超参数需要调节
双 GFlowNet 增加了计算和内存开销
仅在离散空间任务上验证

评分¶

新颖性: ⭐⭐⭐⭐ 损失引导探索概念简洁有力，用辅助 Agent 的高损失区域引导主 Agent 探索是非常自然的解耦设计
实验充分度: ⭐⭐⭐⭐ 三类任务（超图、分子、序列生成）、多基线、消融完整，跨域验证说服力强
写作质量: ⭐⭐⭐⭐ 动机链清晰，从 mode collapse 问题到损失引导方案的推导逻辑性好
价值: ⭐⭐⭐⭐ 对多模态采样和分子设计有直接应用价值，是 GFlowNet 社区解决 mode collapse 的重要改进

补充说明¶

损失引导的辅助 Agent 设计思路不仅限于 GFlowNet，可推广到任何需要多样性探索的生成模型场景