Offline Reinforcement Learning with Generative Trajectory Policies¶

会议: ICLR 2026
arXiv: 2510.11499
代码: 无（计划开源）
领域: image_generation
关键词: 离线强化学习, 生成式策略, ODE轨迹, 一致性模型, 流匹配

一句话总结¶

提出生成轨迹策略（GTP），通过统一视角将扩散模型、流匹配、一致性模型视为ODE解映射的特例，学习完整的连续时间轨迹解映射，并引入分数近似和优势权重两个适配技术，在D4RL基准上实现SOTA。

研究背景与动机¶

领域现状: 离线RL中生成模型因能捕获复杂多模态行为分布而成为强大的策略类。扩散策略在表达力方面表现优异，一致性策略在推理效率上有优势。
现有痛点: 扩散策略需要迭代去噪过程，推理代价高昂；一致性策略通过1-2步生成虽快但性能常退化。两者形成表达力与效率的根本矛盾。
核心矛盾: 现有方法各自独立发展，缺乏统一视角来理解和超越各自的局限。是否可能设计一种既表达力强又计算高效的策略类？
本文目标: 打破生成式策略中表达力与效率的权衡，设计一种灵活的多步生成策略，即使少量采样步骤也能实现高性能。
切入角度: 发现扩散模型、流匹配、一致性模型等都可视为学习连续时间ODE轨迹 \(\frac{d\bm{x}_t}{dt} = f(\bm{x}_t, t)\) 的解映射 \(\Phi(\bm{x}_t, t, s)\)，以此统一视角设计新策略。
核心 idea: 将策略表示为ODE解映射（flow map），结合高效的分数近似和优势加权目标，实现兼具表达力和效率的离线RL策略。

方法详解¶

整体框架¶

GTP是一个actor-critic框架。Actor是生成轨迹策略 \(\Phi_\theta(s, a_t, t, \tau)\)，学习将噪声动作映射到干净动作的解映射。Critic是标准双Q网络 \(Q_\varphi\)。训练通过两个互补目标（瞬时流损失 + 轨迹一致性损失）优化Actor，并通过优势加权实现策略提升。推理时从高斯噪声出发，经多步迭代得到最终动作。

关键设计¶

1. 统一ODE轨迹框架

功能: 提供理论基础，统一理解扩散、流匹配、一致性模型
核心思路: 定义理想流映射 \(\Phi(\bm{x}_t, t, s) = \bm{x}_t + \int_t^s f(\bm{x}_\tau,\tau)d\tau\) 及其重参数化形式 \(\phi(\bm{x}_t, t, s)\)。通过两个互补目标训练：瞬时流损失（局部正确性，对应扩散去噪器和流匹配速度场）和轨迹一致性损失（全局一致性，\(\Phi(\bm{x}_t,t,s) \approx \Phi(\Phi(\bm{x}_t,t,u),u,s)\)）
设计动机: 现有模型各为ODE学习的特例，统一视角提供更清晰的策略设计空间

2. 高效稳定的分数近似

功能: 解决ODE积分的计算代价和自引用监督的训练不稳定性
核心思路: 用封闭形式的代理 \(\tilde{f}(\bm{x}_t,t) = (\bm{x}_t - \bm{x})/t\) 替代需要多步积分的真实分数 \(f^*(\bm{x}_t,t)\)。定理1证明此替代引起的目标误差为 \(O(h^p)\)（\(p\)为求解器阶数），随步长趋于零而消失
设计动机: 直接用自身不准确的早期估计做监督形成恶性循环（类似TD学习的自举问题），锚定到离线数据的解析信号消除了误差传播

3. 优势加权的价值驱动引导

功能: 将生成模型从行为克隆提升为策略改进
核心思路: 定理2证明KL正则化策略优化的最优解为 \(\pi^*(a|s) \propto \pi_{BC}(a|s)\exp(\eta A(s,a))\)。在生成损失中加入指数优势权重 \(w(s,a) = \exp(\eta \cdot \max(0, A(s,a))/(\text{std}(A)+\epsilon))\)，优先模仿高优势动作
设计动机: 纯生成目标只是行为克隆，无法实现策略改进。优势加权是理论上正确的价值引导方式

损失函数 / 训练策略¶

Actor总损失：\(\mathcal{L}_{\text{actor}} = \mathcal{L}_{\text{Consistency}} + \lambda_{\text{Flow}} \cdot \mathcal{L}_{\text{Flow}}\)

轨迹一致性损失：\(\mathcal{L}_{\text{Consistency}} = \mathbb{E}[w(s,a)\|\Phi_\theta(s,a_t,t,\tau) - \Phi_{\theta^-}(s,\tilde{a}_u,u,\tau)\|_2^2]\)
瞬时流损失：\(\mathcal{L}_{\text{Flow}} = \mathbb{E}[w(s,a)\|a - \phi_\theta^{\text{inst}}(s,a_t,t)\|_2^2]\)

Critic使用标准双Q网络的TD误差损失，目标网络通过EMA更新。

实验关键数据¶

主实验¶

D4RL行为克隆（BC）性能对比，GTP-BC使用5步采样：

任务	Diffusion-BC	Consistency-BC	GTP-BC (本文)
Gym平均	76.3	69.7	82.3
AntMaze平均	41.7	44.1	66.3
halfcheetah-mr	41.7	34.4	46.3
hopper-mr	67.3	99.7	100.5

D4RL离线RL性能对比（基于完整actor-critic框架）：

任务	IDQL	DIPO	D-QL	C-QL	GTP (本文)
AntMaze-large-diverse	47.5	—	47.3	51.0	100.0
AntMaze-medium-diverse	—	—	—	—	100.0

消融实验¶

配置	Gym平均	AntMaze平均	说明
GTP完整模型	最佳	100.0	两个损失+优势加权+分数近似
去除轨迹一致性损失	下降	下降	全局一致性对长时任务关键
去除瞬时流损失	下降	下降	局部动力学锚定不可或缺
使用真实分数(ODE积分)	训练不稳定	差	验证分数近似的必要性
去除优势加权	退化为BC	退化	无策略改进能力

关键发现¶

GTP在多个AntMaze难题上首次达到满分（100.0），显著超越所有先前方法
在BC设定下GTP-BC已经大幅优于扩散-BC和一致性-BC，证明了轨迹策略本身的强表达力
分数近似使训练加速且更稳定，理论误差界 \(O(h^p)\) 得到实验验证
5步采样即可达到优异性能，展示了效率与质量的良好平衡

亮点与洞察¶

统一视角的理论贡献: 将扩散、流匹配、一致性模型纳入同一ODE框架，为策略设计提供清晰的设计空间
双目标的互补性设计: 瞬时流损失保证局部准确性，轨迹一致性损失保证全局一致性
分数近似的优雅: 用简单的封闭形式替代复杂的ODE积分，有理论保证且效果更好
AntMaze满分: 在离线RL社区中具有标志性意义

局限与展望¶

主要在D4RL标准基准上验证，未测试更复杂的真实世界任务
ODE框架的统一视角虽然优美，但实际采样步骤的最优选择缺乏理论指导
可探索GTP在在线RL和model-based RL中的应用
可与近期的token-level生成策略方法结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 统一ODE轨迹视角+两个理论原则性适配
实验充分度: ⭐⭐⭐⭐ D4RL全面评估，消融充分，AntMaze满分引人注目
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，框架图清晰
价值: ⭐⭐⭐⭐⭐ 对离线RL中的生成式策略研究有深远影响