Reinforcement Learning with Backtracking Feedback¶

会议: NeurIPS 2025
arXiv: 2602.08377
代码: 有
领域: 视频理解 / 强化学习
关键词: RL, 回溯反馈, 探索策略, 信用分配, 轨迹优化

一句话总结¶

提出带回溯反馈的强化学习框架 RLBF，当 agent 陷入死胡同时允许回溯到之前的状态重新探索，通过回溯信号改善信用分配，在稀疏奖励环境中显著提升探索效率。

领域现状：稀疏奖励 RL 中探索是核心难题，agent 需要长序列的正确决策才能获得奖励信号。

现有痛点：(1) 随机探索效率极低；(2) 好奇心驱动探索容易被噪声干扰；(3) 信用分配困难——成功轨迹中不知道哪些步骤是关键的。

核心矛盾：agent 需要犯错才能学习，但无信号指示何时该放弃当前方向。

切入角度：人类探索时会"知道自己走错了"并回溯——将这种回溯能力引入 RL。

核心 idea：允许 agent 执行回溯动作回到之前的状态，回溯本身作为负信号改善信用分配。

标准 MDP 扩展为可回溯 MDP：动作空间增加 "backtrack to step k" 动作 → agent 可以在任何时刻选择回溯到之前的检查点 → 回溯频率和位置成为可学习的策略。

可回溯 MDP
- 功能：在动作空间中添加回溯动作 \(a_{bt}^k\)，执行后环境状态重置为 \(s_k\)
- 核心思路：维护检查点缓冲区，agent 可以选择回溯到缓冲区中的任意状态
- 设计动机：消除了"一步错步步错"的问题
回溯信用分配
- 功能：回溯事件作为负信号，标记从回溯点到当前点的轨迹为"失败探索"
- 核心思路：对回溯前的动作序列施加负奖励，对回溯后的新探索给予中性奖励
- 设计动机：回溯隐含了"之前的方向是错误的"信息
自适应回溯策略
- 功能：学习何时回溯、回溯到哪个检查点
- 核心思路：额外的回溯价值网络评估当前状态的回溯价值，低于阈值时触发回溯
- 设计动机：避免过度回溯（浪费时间）或不足回溯（陷入死胡同）

PPO + 回溯奖励塑形。回溯奖励：\(r_{bt} = -\alpha \cdot (t_{current} - t_{backtrack})\)，惩罚与浪费步数成比例。

环境	PPO	ICM (好奇心)	RND	RLBF
MiniGrid-KeyCorridor	12%	45%	38%	78%
Montezuma's Revenge	0	2500	4500	6800
NetHack	1200	3100	2800	4500