Reinforcement Learning with Backtracking Feedback¶
会议: NeurIPS 2025
arXiv: 2602.08377
代码: 有
领域: 视频理解 / 强化学习
关键词: RL, 回溯反馈, 探索策略, 信用分配, 轨迹优化
一句话总结¶
提出带回溯反馈的强化学习框架 RLBF,当 agent 陷入死胡同时允许回溯到之前的状态重新探索,通过回溯信号改善信用分配,在稀疏奖励环境中显著提升探索效率。
研究背景与动机¶
领域现状¶
领域现状:稀疏奖励 RL 中探索是核心难题,agent 需要长序列的正确决策才能获得奖励信号。
现有痛点:(1) 随机探索效率极低;(2) 好奇心驱动探索容易被噪声干扰;(3) 信用分配困难——成功轨迹中不知道哪些步骤是关键的。
核心矛盾:agent 需要犯错才能学习,但无信号指示何时该放弃当前方向。
切入角度:人类探索时会"知道自己走错了"并回溯——将这种回溯能力引入 RL。
核心 idea:允许 agent 执行回溯动作回到之前的状态,回溯本身作为负信号改善信用分配。
方法详解¶
整体框架¶
标准 MDP 扩展为可回溯 MDP:动作空间增加 "backtrack to step k" 动作 → agent 可以在任何时刻选择回溯到之前的检查点 → 回溯频率和位置成为可学习的策略。
关键设计¶
-
可回溯 MDP
- 功能:在动作空间中添加回溯动作 \(a_{bt}^k\),执行后环境状态重置为 \(s_k\)
- 核心思路:维护检查点缓冲区,agent 可以选择回溯到缓冲区中的任意状态
- 设计动机:消除了"一步错步步错"的问题
-
回溯信用分配
- 功能:回溯事件作为负信号,标记从回溯点到当前点的轨迹为"失败探索"
- 核心思路:对回溯前的动作序列施加负奖励,对回溯后的新探索给予中性奖励
- 设计动机:回溯隐含了"之前的方向是错误的"信息
-
自适应回溯策略
- 功能:学习何时回溯、回溯到哪个检查点
- 核心思路:额外的回溯价值网络评估当前状态的回溯价值,低于阈值时触发回溯
- 设计动机:避免过度回溯(浪费时间)或不足回溯(陷入死胡同)
损失函数 / 训练策略¶
PPO + 回溯奖励塑形。回溯奖励:\(r_{bt} = -\alpha \cdot (t_{current} - t_{backtrack})\),惩罚与浪费步数成比例。
实验关键数据¶
主实验¶
| 环境 | PPO | ICM (好奇心) | RND | RLBF |
|---|---|---|---|---|
| MiniGrid-KeyCorridor | 12% | 45% | 38% | 78% |
| Montezuma's Revenge | 0 | 2500 | 4500 | 6800 |
| NetHack | 1200 | 3100 | 2800 | 4500 |
消融实验¶
| 配置 | MiniGrid 成功率 | 说明 |
|---|---|---|
| 无回溯 | 12% | 标准 PPO |
| 固定检查点回溯 | 52% | 每 10 步设检查点 |
| 自适应回溯,无信用分配 | 65% | 回溯但不标记 |
| 完整 RLBF | 78% | 自适应+信用分配 |
关键发现¶
- RLBF 在稀疏奖励环境中成功率提升 3-6 倍
- 回溯频率随训练进展自然下降——agent 学会了更高效的探索模式
- 信用分配贡献 +13pp(65%→78%),是回溯的核心价值
亮点与洞察¶
- 回溯 = 隐式负例:回溯动作本身编码了"这条路走不通"的信息,比随机探索高效得多。
- 自适应探索-利用:学习何时探索(继续前进)何时回溯(放弃当前方向),是探索策略的新范式。
局限与展望¶
- 回溯需要环境支持状态重置——对真实物理环境不适用
- 检查点缓冲区的内存开销
- 与 model-based RL 的结合可能进一步提升效率
相关工作与启发¶
- vs ICM/RND:好奇心驱动探索不区分有效和无效探索;RLBF 的回溯信号提供了方向信息
- vs Go-Explore:Go-Explore 也维护检查点但用于重置到有前途的状态;RLBF 的回溯是 agent 主动学习的
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 回溯反馈的 RL 框架新颖
- 实验充分度: ⭐⭐⭐⭐ 多环境验证
- 写作质量: ⭐⭐⭐⭐ 动机清晰
- 价值: ⭐⭐⭐⭐ 稀疏奖励探索的重要贡献
相关论文¶
- [NeurIPS 2025] VideoLucy: Deep Memory Backtracking for Long Video Understanding
- [NeurIPS 2025] Steering When Necessary: Flexible Steering Large Language Models with Backtracking
- [CVPR 2025] ExpertAF: Expert Actionable Feedback from Video
- [CVPR 2026] Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning
- [NeurIPS 2025] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs