跳转至

Reinforcement Learning with Backtracking Feedback

会议: NeurIPS 2025
arXiv: 2602.08377
代码: 有
领域: 视频理解 / 强化学习
关键词: RL, 回溯反馈, 探索策略, 信用分配, 轨迹优化

一句话总结

提出带回溯反馈的强化学习框架 RLBF,当 agent 陷入死胡同时允许回溯到之前的状态重新探索,通过回溯信号改善信用分配,在稀疏奖励环境中显著提升探索效率。

研究背景与动机

领域现状

领域现状:稀疏奖励 RL 中探索是核心难题,agent 需要长序列的正确决策才能获得奖励信号。

现有痛点:(1) 随机探索效率极低;(2) 好奇心驱动探索容易被噪声干扰;(3) 信用分配困难——成功轨迹中不知道哪些步骤是关键的。

核心矛盾:agent 需要犯错才能学习,但无信号指示何时该放弃当前方向。

切入角度:人类探索时会"知道自己走错了"并回溯——将这种回溯能力引入 RL。

核心 idea:允许 agent 执行回溯动作回到之前的状态,回溯本身作为负信号改善信用分配。

方法详解

整体框架

标准 MDP 扩展为可回溯 MDP:动作空间增加 "backtrack to step k" 动作 → agent 可以在任何时刻选择回溯到之前的检查点 → 回溯频率和位置成为可学习的策略。

关键设计

  1. 可回溯 MDP

    • 功能:在动作空间中添加回溯动作 \(a_{bt}^k\),执行后环境状态重置为 \(s_k\)
    • 核心思路:维护检查点缓冲区,agent 可以选择回溯到缓冲区中的任意状态
    • 设计动机:消除了"一步错步步错"的问题
  2. 回溯信用分配

    • 功能:回溯事件作为负信号,标记从回溯点到当前点的轨迹为"失败探索"
    • 核心思路:对回溯前的动作序列施加负奖励,对回溯后的新探索给予中性奖励
    • 设计动机:回溯隐含了"之前的方向是错误的"信息
  3. 自适应回溯策略

    • 功能:学习何时回溯、回溯到哪个检查点
    • 核心思路:额外的回溯价值网络评估当前状态的回溯价值,低于阈值时触发回溯
    • 设计动机:避免过度回溯(浪费时间)或不足回溯(陷入死胡同)

损失函数 / 训练策略

PPO + 回溯奖励塑形。回溯奖励:\(r_{bt} = -\alpha \cdot (t_{current} - t_{backtrack})\),惩罚与浪费步数成比例。

实验关键数据

主实验

环境 PPO ICM (好奇心) RND RLBF
MiniGrid-KeyCorridor 12% 45% 38% 78%
Montezuma's Revenge 0 2500 4500 6800
NetHack 1200 3100 2800 4500

消融实验

配置 MiniGrid 成功率 说明
无回溯 12% 标准 PPO
固定检查点回溯 52% 每 10 步设检查点
自适应回溯,无信用分配 65% 回溯但不标记
完整 RLBF 78% 自适应+信用分配

关键发现

  • RLBF 在稀疏奖励环境中成功率提升 3-6 倍
  • 回溯频率随训练进展自然下降——agent 学会了更高效的探索模式
  • 信用分配贡献 +13pp(65%→78%),是回溯的核心价值

亮点与洞察

  • 回溯 = 隐式负例:回溯动作本身编码了"这条路走不通"的信息,比随机探索高效得多。
  • 自适应探索-利用:学习何时探索(继续前进)何时回溯(放弃当前方向),是探索策略的新范式。

局限与展望

  • 回溯需要环境支持状态重置——对真实物理环境不适用
  • 检查点缓冲区的内存开销
  • 与 model-based RL 的结合可能进一步提升效率

相关工作与启发

  • vs ICM/RND:好奇心驱动探索不区分有效和无效探索;RLBF 的回溯信号提供了方向信息
  • vs Go-Explore:Go-Explore 也维护检查点但用于重置到有前途的状态;RLBF 的回溯是 agent 主动学习的

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 回溯反馈的 RL 框架新颖
  • 实验充分度: ⭐⭐⭐⭐ 多环境验证
  • 写作质量: ⭐⭐⭐⭐ 动机清晰
  • 价值: ⭐⭐⭐⭐ 稀疏奖励探索的重要贡献

相关论文