Horizon Reduction Makes RL Scalable¶
一句话总结¶
本文通过大规模实验(最高 10 亿转移数据)揭示离线 RL 的可扩展性瓶颈源于决策时域过长(curse of horizon),并证明通过 n-step 回报和层次策略等时域缩减技术可显著提升扩展性,进而提出了简洁有效的 SHARSA 方法。
背景与动机¶
-
可扩展性是现代 ML 的核心:NLP 和 CV 领域已验证数据+计算规模带来持续性能提升,但离线 RL 在复杂任务上的可扩展性仍未被充分研究——之前的工作主要关注"更多任务"(宽度扩展),而非"更难任务"(深度扩展)。
-
标准离线 RL 在复杂任务上失败:在 OGBench 的极难任务(cube-octuple、puzzle-4x6、humanoidmaze-giant)上,IQL、CRL、SAC+BC 等 SOTA 方法即使使用 10 亿数据仍然无法解决任务,性能远低于最优值。
-
增大模型无法根本解决问题:将 SAC+BC 模型扩大到 5.91 亿参数(35 倍),性能有限提升甚至退化,表明问题不在模型容量不足。
-
TD 学习中的偏差累积:时序差分(TD)学习的预测目标本身有偏,偏差随时域累积。这与监督学习(如 next-token prediction)形成鲜明对比——后者的目标无偏,因此可无限扩展。
-
策略学习的时域诅咒:即使价值函数完美,长时域意味着状态-最优动作映射极度复杂,类似于大模型直接回答复杂问题(无 chain-of-thought)的困难。
-
缺乏面向可扩展性的评估范式:现有离线 RL 基准(D4RL 等)任务相对简单,数据集较小(~1M),无法暴露扩展性瓶颈。需要专门的大规模、长时域基准来评估算法是否"准备好被扩展"。
方法详解¶
问题设定¶
聚焦离线目标条件 RL(goal-conditioned RL),使用 OGBench 中四个极难任务: - cube-octuple:顺序拾放 8 个方块 - puzzle-4x5/4x6:用机器臂解组合谜题"Lights Out" - humanoidmaze-giant:人形机器人在大型迷宫中导航
数据集最大为 10 亿转移(约 100 万条轨迹),比标准离线 RL 数据集大 1000 倍。
时域诅咒的诊断¶
价值学习诊断:在 combination-lock 教学任务上对比 1-step DQN 和 64-step DQN: - 两者 TD 误差相近,但 1-step DQN 的 Q 误差(相对真实 \(Q^*\))随时域急剧增大 - Q 误差在距离终点越远的状态越大,直接验证了偏差累积假说 - 调整模型大小、学习率、目标网络更新率均无法修复
策略学习诊断:长时域使得状态到最优动作的映射极为复杂,类似于不用 chain-of-thought 直接回答复杂问题。层次化策略通过分解为子目标策略降低每层复杂度。
SHARSA 方法¶
SHARSA 同时缩减价值时域和策略时域:
高层策略提取(拒绝采样): $\(\pi^h(s,g) \stackrel{d}{=} \arg\max_{w_1,...,w_N: w_i \sim \pi_\beta^h(w|s,g)} Q^h(s, w_i, g)\)$
从高层 flow BC 策略采样 \(N\) 个子目标,用高层价值函数选最优。
高层 SARSA 价值学习(n-step):
使用 n-step 回报减少 TD 递归次数,降低偏差累积。
低层策略:使用目标条件 flow BC,或再做一轮拒绝采样(double SHARSA 变体)。
SHARSA 的核心优势:(1) 仅依赖行为克隆和 SARSA,无需复杂超参调优;(2) 同时缩减两个维度的时域。
实验结果¶
实验一:标准离线 RL 的扩展失败¶
| 方法 | cube-octuple (1B) | puzzle-4x6 (1B) | humanoidmaze-giant (1B) |
|---|---|---|---|
| Flow BC | ~0% | ~5% | ~0% |
| IQL | ~0% | ~20% | ~15% |
| CRL | ~0% | ~10% | ~45% |
| SAC+BC | ~0% | ~25% | ~20% |
4 个方法在 cube-octuple 上全部失败(~0%),即使数据从 1M 增至 1B 性能几乎无提升。增大 SAC+BC 模型至 5.91 亿参数(8 天训练)也未能实质性改善。进行了 9 项消融(策略类型、网络架构、集成、正则化、学习率、目标网络更新率、batch size、梯度步数),无一能全面提升扩展性。
实验二:时域缩减的效果¶
| 方法 | 时域缩减类型 | cube-octuple (1B) | puzzle-4x6 (1B) | humanoidmaze-giant (1B) |
|---|---|---|---|---|
| SAC+BC | 无 | ~0% | ~25% | ~20% |
| n-step SAC+BC | 价值 | ~0% | ~40% | ~55% |
| Hierarchical FBC | 策略 | ~10% | ~5% | ~0% |
| HIQL | 策略 | ~5% | ~30% | ~35% |
| SHARSA | 价值+策略 | ~15% | ~45% | ~60% |
| Double SHARSA | 价值+策略 | ~20% | ~50% | ~55% |
关键发现:(1) n-step 回报单独就能大幅改善(puzzle +15pp,humanoidmaze +35pp);(2) 层次策略在 cube 上是必要的(从 0% 到 10%+);(3) SHARSA 是唯一在全部四个任务上均取得非平凡性能的方法。值得注意的是,SHARSA 使用标准 [1024]×4 MLP,远小于 5.91 亿参数的消融模型,说明算法改进比模型规模更重要。
亮点¶
- 首次大规模诊断离线 RL 可扩展性:10 亿数据规模的系统性分析,涵盖 9 项消融,给出了"为何标准 RL 不能类似 LLM 那样通过加数据/模型持续提升"的清晰答案
- 因果归因清晰:combination-lock 教学实验精确分离了 TD 偏差累积与模型容量的影响,Q 误差随位置的分布图极具说服力
- 方法极简而有效:SHARSA 仅用 SARSA + flow BC + 拒绝采样三个简单组件,无需复杂目标函数或过多超参
- 开放问题的诚实讨论:承认即使 SHARSA 也未能在全部任务上达到 100%,呼吁社区关注可扩展性评估
局限性¶
- 数据集假设较强:SHARSA 隐含假设数据集在短片段内接近最优(near-optimal within short segments),对低质量数据集的鲁棒性未验证
- 仅限状态空间实验:为隔离核心因素去除了视觉观测,但现实中表征学习与时域诅咒的交互效应可能更复杂
- 理想化过多:去除了分布外泛化和数据覆盖不足的评估场景,实际部署中这些因素与时域长度交织
- 扩展性未完全解决:SHARSA 在 cube-octuple 上仅达 ~20% 成功率,且性能随数据增加非单调上升,两层层次结构只是缓解而非根治偏差累积
相关工作对比¶
vs. IQL(Kostrikov et al., 2022)¶
IQL 通过 in-sample maximization 避免分布偏移,在标准 D4RL 基准上表现优异。但 IQL 使用 1-step TD 学习,在长时域任务上偏差严重累积。本文的 HIQL(层次化 IQL)通过添加层次策略改善了策略时域,但未解决价值时域问题。SHARSA 通过 n-step SARSA 和层次策略同时缩减两个维度的时域,在全部四个任务上均优于 IQL 和 HIQL。
vs. CRL(Eysenbach et al., 2022)¶
CRL 基于对比学习和 one-step RL,不使用 TD 学习因此不受偏差累积影响。CRL 在 humanoidmaze-giant 上确实表现较好(~45%),验证了本文关于 TD 偏差的假说。但 CRL 在 cube-octuple(~0%)和 puzzle(~10%)上仍然失败,因为其平坦策略受策略时域诅咒限制。SHARSA 通过层次化弥补了这一不足。
vs. Park et al.(2024)的扩展性研究¶
Park et al. 研究了策略提取和泛化对离线 RL 扩展性的瓶颈,但使用的数据集仅为本文的 1/100,且未深入分析时域的作用。本文使用更具表达力的 flow 策略和 100 倍大数据集,系统性地将时域识别为核心障碍,提出了互补的见解。
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 首次系统性地将时域诅咒识别为离线 RL 扩展性的核心障碍,并给出清晰因果验证 |
| 技术深度 | ⭐⭐⭐ | SHARSA 方法本身较简单,核心贡献在诊断分析而非算法创新 |
| 实验充分度 | ⭐⭐⭐⭐⭐ | 10 亿规模数据、9 项消融、教学任务归因、4 个极难环境,实验体量和严谨性极高 |
| 实用价值 | ⭐⭐⭐⭐ | 为 RL 社区指明扩展方向,SHARSA 实现简单可直接应用,但仍有理想化限制 |