Horizon Reduction Makes RL Scalable¶

一句话总结¶

本文通过大规模实验（最高 10 亿转移数据）揭示离线 RL 的可扩展性瓶颈源于决策时域过长（curse of horizon），并证明通过 n-step 回报和层次策略等时域缩减技术可显著提升扩展性，进而提出了简洁有效的 SHARSA 方法。

背景与动机¶

可扩展性是现代 ML 的核心：NLP 和 CV 领域已验证数据+计算规模带来持续性能提升，但离线 RL 在复杂任务上的可扩展性仍未被充分研究——之前的工作主要关注"更多任务"（宽度扩展），而非"更难任务"（深度扩展）。
标准离线 RL 在复杂任务上失败：在 OGBench 的极难任务（cube-octuple、puzzle-4x6、humanoidmaze-giant）上，IQL、CRL、SAC+BC 等 SOTA 方法即使使用 10 亿数据仍然无法解决任务，性能远低于最优值。
增大模型无法根本解决问题：将 SAC+BC 模型扩大到 5.91 亿参数（35 倍），性能有限提升甚至退化，表明问题不在模型容量不足。
TD 学习中的偏差累积：时序差分（TD）学习的预测目标本身有偏，偏差随时域累积。这与监督学习（如 next-token prediction）形成鲜明对比——后者的目标无偏，因此可无限扩展。
策略学习的时域诅咒：即使价值函数完美，长时域意味着状态-最优动作映射极度复杂，类似于大模型直接回答复杂问题（无 chain-of-thought）的困难。
缺乏面向可扩展性的评估范式：现有离线 RL 基准（D4RL 等）任务相对简单，数据集较小（~1M），无法暴露扩展性瓶颈。需要专门的大规模、长时域基准来评估算法是否"准备好被扩展"。

方法详解¶

问题设定¶

聚焦离线目标条件 RL（goal-conditioned RL），使用 OGBench 中四个极难任务： - cube-octuple：顺序拾放 8 个方块 - puzzle-4x5/4x6：用机器臂解组合谜题"Lights Out" - humanoidmaze-giant：人形机器人在大型迷宫中导航

数据集最大为 10 亿转移（约 100 万条轨迹），比标准离线 RL 数据集大 1000 倍。

时域诅咒的诊断¶

价值学习诊断：在 combination-lock 教学任务上对比 1-step DQN 和 64-step DQN： - 两者 TD 误差相近，但 1-step DQN 的 Q 误差（相对真实 $Q^*$）随时域急剧增大 - Q 误差在距离终点越远的状态越大，直接验证了偏差累积假说 - 调整模型大小、学习率、目标网络更新率均无法修复

策略学习诊断：长时域使得状态到最优动作的映射极为复杂，类似于不用 chain-of-thought 直接回答复杂问题。层次化策略通过分解为子目标策略降低每层复杂度。

SHARSA 方法¶

SHARSA 同时缩减价值时域和策略时域：

高层策略提取（拒绝采样）： $$\pi^h(s,g) \stackrel{d}{=} \arg\max_{w_1,...,w_N: w_i \sim \pi_\beta^h(w|s,g)} Q^h(s, w_i, g)$$

从高层 flow BC 策略采样 $N$ 个子目标，用高层价值函数选最优。

高层 SARSA 价值学习（n-step）：

\[L^Q(Q^h) = \mathbb{E}\left[D\left(Q^h(s_h, s_{h+n}, g), \sum_{i=0}^{n-1}\gamma^i r(s_{h+i}, g) + \gamma^n V^h(s_{h+n}, g)\right)\right]\]

使用 n-step 回报减少 TD 递归次数，降低偏差累积。

低层策略：使用目标条件 flow BC，或再做一轮拒绝采样（double SHARSA 变体）。

SHARSA 的核心优势：(1) 仅依赖行为克隆和 SARSA，无需复杂超参调优；(2) 同时缩减两个维度的时域。

实验结果¶

实验一：标准离线 RL 的扩展失败¶

方法	cube-octuple (1B)	puzzle-4x6 (1B)	humanoidmaze-giant (1B)
Flow BC	~0%	~5%	~0%
IQL	~0%	~20%	~15%
CRL	~0%	~10%	~45%
SAC+BC	~0%	~25%	~20%

4 个方法在 cube-octuple 上全部失败（~0%），即使数据从 1M 增至 1B 性能几乎无提升。增大 SAC+BC 模型至 5.91 亿参数（8 天训练）也未能实质性改善。进行了 9 项消融（策略类型、网络架构、集成、正则化、学习率、目标网络更新率、batch size、梯度步数），无一能全面提升扩展性。

实验二：时域缩减的效果¶

方法	时域缩减类型	cube-octuple (1B)	puzzle-4x6 (1B)	humanoidmaze-giant (1B)
SAC+BC	无	~0%	~25%	~20%
n-step SAC+BC	价值	~0%	~40%	~55%
Hierarchical FBC	策略	~10%	~5%	~0%
HIQL	策略	~5%	~30%	~35%
SHARSA	价值+策略	~15%	~45%	~60%
Double SHARSA	价值+策略	~20%	~50%	~55%

关键发现：(1) n-step 回报单独就能大幅改善（puzzle +15pp，humanoidmaze +35pp）；(2) 层次策略在 cube 上是必要的（从 0% 到 10%+）；(3) SHARSA 是唯一在全部四个任务上均取得非平凡性能的方法。值得注意的是，SHARSA 使用标准 [1024]×4 MLP，远小于 5.91 亿参数的消融模型，说明算法改进比模型规模更重要。

亮点¶

首次大规模诊断离线 RL 可扩展性：10 亿数据规模的系统性分析，涵盖 9 项消融，给出了"为何标准 RL 不能类似 LLM 那样通过加数据/模型持续提升"的清晰答案
因果归因清晰：combination-lock 教学实验精确分离了 TD 偏差累积与模型容量的影响，Q 误差随位置的分布图极具说服力
方法极简而有效：SHARSA 仅用 SARSA + flow BC + 拒绝采样三个简单组件，无需复杂目标函数或过多超参
开放问题的诚实讨论：承认即使 SHARSA 也未能在全部任务上达到 100%，呼吁社区关注可扩展性评估

局限性¶

数据集假设较强：SHARSA 隐含假设数据集在短片段内接近最优（near-optimal within short segments），对低质量数据集的鲁棒性未验证
仅限状态空间实验：为隔离核心因素去除了视觉观测，但现实中表征学习与时域诅咒的交互效应可能更复杂
理想化过多：去除了分布外泛化和数据覆盖不足的评估场景，实际部署中这些因素与时域长度交织
扩展性未完全解决：SHARSA 在 cube-octuple 上仅达 ~20% 成功率，且性能随数据增加非单调上升，两层层次结构只是缓解而非根治偏差累积

评分¶

维度	评分	说明
新颖性	⭐⭐⭐⭐	首次系统性地将时域诅咒识别为离线 RL 扩展性的核心障碍，并给出清晰因果验证
技术深度	⭐⭐⭐	SHARSA 方法本身较简单，核心贡献在诊断分析而非算法创新
实验充分度	⭐⭐⭐⭐⭐	10 亿规模数据、9 项消融、教学任务归因、4 个极难环境，实验体量和严谨性极高
实用价值	⭐⭐⭐⭐	为 RL 社区指明扩展方向，SHARSA 实现简单可直接应用，但仍有理想化限制