跳转至

SSCP: Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

会议: ICLR 2026
arXiv: 2506.21427
代码: GitHub
领域: 离线强化学习 / 生成策略 / 流匹配
关键词: offline RL, flow matching, single-step generation, completion vector, policy learning, D4RL

一句话总结

提出 Single-Step Completion Policy (SSCP),通过在流匹配框架中预测"完成向量"(从任意中间状态到目标动作的归一化方向),将多步生成策略压缩为单步推理,在 D4RL 上与多步扩散/流策略持平但训练快 64×、推理快 4.7×,并扩展到 GCRL 中将层级策略扁平化。

研究背景与动机

  1. 领域现状:扩散/流匹配生成策略在离线 RL 中因能捕捉多模态动作分布而表现优异(DQL、CAC 等)。但它们需要数十步迭代采样,推理延迟高。
  2. 现有痛点
  3. 推理效率:扩散策略每步需 5-50 次去噪,不适合实时控制(DQL ~1.27ms vs 确定性策略 ~0.1ms)
  4. 训练不稳定:将策略梯度通过多步采样链反传(BPTT)导致梯度不稳定、训练耗时(DQL ~8 小时 vs TD3+BC ~30 分钟)
  5. Shortcut 方法的 bootstrap 问题:Frans et al. 2024 提出的 shortcut 模型用自身预测作为训练目标(self-consistency loss),在 RL 等动态目标场景中不稳定
  6. 核心矛盾:生成策略的表达力 vs 推理/训练效率不可兼得?
  7. 核心 idea:在流匹配的中间时间步 \(\tau\) 处,预测直接到达目标 \(x_1\) 的完成向量(而非速度场),用真实数据监督(非 bootstrap),实现单步生成

方法详解

整体框架

流匹配的线性插值路径 \(x_\tau = (1-\tau)z + \tau x_1\) → 在 \(\tau\) 处训练模型预测两个量:(1) 瞬时速度 \(h_\theta(x_\tau, \tau, d{=}0)\)(标准流损失),(2) 完成向量 \(h_\theta(x_\tau, \tau, d{=}1{-}\tau)\)(直接跳到 \(x_1\))→ 推理时从噪声 \(z\) 出发,单步完成:\(\pi_\theta(s) = z + h_\theta(z, s, 0, 1) \cdot 1\)

关键设计

  1. 完成向量(Completion Vector)
  2. 做什么:在流匹配的任意中间点 \(x_\tau\) 处预测到最终目标 \(x_1\) 的归一化方向
  3. 核心公式:\(\hat{x}_1 = x_\tau + h_\theta(x_\tau, \tau, 1{-}\tau) \cdot (1{-}\tau)\)
  4. 训练损失:\(\mathcal{L}_{completion} = \mathbb{E}[\|x_\tau + h_\theta(x_\tau, \tau, 1{-}\tau)(1{-}\tau) - x_1\|^2]\)
  5. 与 shortcut 方法的关键区别:完成损失用真实 \(x_1\)(来自数据集)作为监督目标,而非 bootstrap 的自身预测。这消除了自一致性损失的不稳定性问题
  6. 设计动机:动作空间维度低(通常 <20 维),完成向量的回归难度远低于图像生成

  7. 三目标联合训练(SSCQL)

  8. 做什么:结合流损失 + 完成损失 + Q-learning 策略梯度
  9. 总损失:\(\mathcal{L}_\pi = \alpha_1 \mathcal{L}_{flow} + \alpha_2 \mathcal{L}_{completion} + \mathcal{L}_{\pi_Q}\)
  10. 流损失约束速度场(保持表达力和分布匹配)
  11. 完成损失约束单步生成质量(行为约束/BC 正则化)
  12. Q-learning 策略梯度优化动作价值
  13. Critic 损失:标准 twin Q-learning + target network

  14. 单步推理

  15. 推理时令 \(\tau=0, d=1\),即从纯噪声出发一步到达:\(\pi_\theta(s) = z + h_\theta(z, s, 0, 1)\)
  16. 单次前向传播,与确定性策略速度相当
  17. 对固定输入 \(z\) 输出确定性,但不同 \(z\) 采样产生多模态分布

  18. Goal-Conditioned 扩展(GC-SSCP)

  19. 做什么:将层级 GCRL(如 HIQL 的高层+低层策略)压缩为单层扁平策略
  20. 核心思路:用完成模型训练扁平策略匹配层级策略的组合输出,推理时单步决策
  21. 类比:SSCP 将多步流生成压缩为单步 → GC-SSCP 将多层级决策压缩为单层

损失函数 / 训练策略

  • Actor:\(\alpha_1 \mathcal{L}_{flow} + \alpha_2 \mathcal{L}_{completion} + \mathcal{L}_{\pi_Q}\)
  • Critic:Twin Q-learning,target network 软更新
  • 优化器:Adam,batch size 256
  • 训练时间:~16 分钟(vs DQL ~8 小时)

实验关键数据

D4RL 离线 RL 主实验

方法 类型 D4RL 平均(9任务) 训练时间 推理延迟 去噪步数
DQL 扩散策略 87.9 ~8h 1.27ms 5
CAC 流策略 85.1 ~5h 0.85ms 2
TD3+BC 确定性 85.2 ~30min 0.08ms 1
SSCQL 单步完成 87.9 ~16min 0.27ms 1

SSCQL 与最强扩散基线 DQL 持平,但训练快 64×、推理快 4.7×

离线到在线微调

方法 稳定性 说明
DQL 经常退化(>10%) 多步采样链导致微调不稳定
CAC 经常退化 同上
Cal-QL 稳定 专为 O2O 设计的 SOTA
SSCQL 稳定提升 单步避免了 BPTT 不稳定性

在线 RL

方法 HalfCheetah Hopper Walker2d
DQL 较差 较差 较差
CAC 较差 较差 较差
SSCQL 最优 最优 最优

Goal-Conditioned RL (OGBench)

GC-SSCP(扁平策略)平均超越 HIQL(层级策略),说明完成模型成功将层级结构压缩为扁平决策。

关键发现

  • 动作空间低维(<20 维)使完成向量的直接回归可行——这是 SSCP 在 RL 中有效但可能在图像生成中不适用的关键原因
  • 流损失和完成损失缺一不可:流损失保证表达力,完成损失保证单步质量
  • 多步扩散/流策略在 O2O 微调和在线 RL 中不稳定——BPTT 是罪魁祸首
  • GC-SSCP 展示了完成模型在策略压缩(不仅是生成步骤压缩)中的更广泛应用

亮点与洞察

  • 真值监督替代 bootstrap是最核心的创新:bootstrap 的自一致性损失在 RL 动态目标场景中不可靠,而完成向量可以用数据直接监督。简单但关键
  • 64× 训练加速 + 4.7× 推理加速同时保持等价性能——这使流策略在实时控制中变得可行
  • 从生成压缩到决策压缩:SSCP → GC-SSCP 的扩展展示了完成模型的通用性——不仅压缩采样步骤,还能压缩决策层级

局限性 / 可改进方向

  • \(\alpha_1, \alpha_2\) 平衡系数需要调优,不同任务可能需要不同设置
  • 早期 \(\tau\) 处的完成预测可能不准确(噪声大、信息少),理论分析缺失
  • 仅在 MuJoCo 连续控制任务上验证,未在高维动作空间(如机器人操作、自动驾驶)上测试
  • 与蒸馏方法(如 consistency model)的对比缺失

相关工作与启发

  • vs DQL (Wang et al. 2022):DQL 用扩散策略 + DDPG+BC,需 5 步去噪;SSCQL 用完成策略,1 步,性能等价但快 64×
  • vs Shortcut Models (Frans et al. 2024):shortcut 用 bootstrap 自一致性目标,不稳定;SSCP 用真值完成向量,稳定
  • vs CAC:CAC 用流匹配 + 2 步去噪 + 一致性蒸馏;SSCP 更简单直接,无需蒸馏

评分

  • 新颖性: ⭐⭐⭐⭐ 完成向量替代 bootstrap 的思路简单但有效,真值监督的洞察有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ D4RL + O2O + Online + BC + GCRL,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 清晰的渐进式展开
  • 价值: ⭐⭐⭐⭐⭐ 让生成策略在实时控制中变得可行,64× 训练加速有巨大实用价值