Flow Actor-Critic for Offline Reinforcement Learning (FAC)¶
会议: ICLR 2026
arXiv: 2602.18015
代码: 无
领域: 强化学习
关键词: 离线RL, 流匹配, Actor-Critic, OOD检测, 连续归一化流
一句话总结¶
FAC 首次联合利用流模型(continuous normalizing flow)同时构建表达力强的 actor 策略和基于精确密度估计的 critic 惩罚机制,通过识别 OOD 区域对 Q 值进行选择性保守估计,在 OGBench 55 个任务上以 60.3 平均分大幅超越此前最佳的 43.6。
研究背景与动机¶
- 领域现状:离线 RL 数据集通常包含复杂的多模态行为分布。简单高斯策略表达力不足;扩散策略虽然表达力强但多步采样使策略优化不稳定。
- 现有痛点:(a) CQL 的保守惩罚是全局性的——对所有 OOD 动作一视同仁,导致过度保守;(b) SVR 用重要性采样比率识别 OOD,但当行为策略被高斯模型拟合不准时比率会爆炸;(c) 现有方法在 actor 设计和 critic 惩罚之间缺乏协同——它们分别独立设计。
- 核心矛盾:如何在保持策略表达力的同时精确识别 OOD 区域进行保守估计?
- 切入角度:流模型既能提供高表达力的策略(actor),又能提供精确的密度估计(critic OOD 惩罚),一石二鸟。
- 核心 idea 一句话:用一个流模型同时解决 actor 表达力和 critic OOD 检测两个问题。
方法详解¶
整体框架¶
两阶段训练:(1) 通过流匹配训练行为代理模型 \(\hat{\beta}_\psi\)(提供精确密度估计);(2) 用密度估计构建权重函数惩罚 OOD 区域的 Q 值,同时用一步流 actor 优化策略。
关键设计¶
- 流行为代理(Flow Behavior Proxy):
- 做什么:通过流匹配训练一个连续归一化流模型来建模行为分布 \(\hat{\beta}_\psi(a|s)\)。
- 核心思路:流匹配损失 \(\min_\psi \mathbb{E}[\|v_\psi(\tilde{a}_u; s, u) - (a-z)\|^2]\),其中 \(\tilde{a}_u = (1-u)z + ua\)。关键优势:流模型可以通过 ODE 积分提供精确的密度估计 \(\log\hat{\beta}_\psi(a|s)\),而非 VAE 的 ELBO 下界或扩散模型的近似。
-
设计动机:精确密度估计是 OOD 检测的前提——VAE/扩散模型的近似密度会产生误判。
-
流 Critic 惩罚:
- 做什么:用密度估计构建权重函数,仅对 OOD 区域的 Q 值施加惩罚。
- 核心思路:权重函数 \(w^{\hat{\beta}}(s,a) = \max(0, 1 - \hat{\beta}(a|s)/\epsilon)\),在数据支撑区域(\(\hat{\beta} \geq \epsilon\))为零,在 OOD 区域线性增大。Critic 损失添加 \(\alpha \cdot \mathbb{E}_{a \sim \pi}[w \cdot Q(s,a)]\) 项。
-
Proposition 1 保证:在分布内保持无偏 Bellman 算子,在 OOD 区域强力压制 Q 值。
-
一步流 Actor:
- 做什么:用简化的一步流(直接 \(z \mapsto a\))作为策略,避免多步采样的不稳定性。
- 核心思路:actor 损失 = \(\max \mathbb{E}[Q(s,a)] - \lambda \cdot \|a_\theta(s,z) - a_\psi(s,z)\|^2\)(Q 值最大化 + 行为正则化)。与多步扩散/流策略不同,一步映射使梯度稳定。
损失函数 / 训练策略¶
- 阶段 1:流匹配预训练行为代理
- 阶段 2:交替更新 critic(TD 损失 + 流密度权重惩罚)和 actor(Q 值最大化 + 行为正则化)
实验关键数据¶
主实验¶
OGBench(55 个任务,最具挑战性的离线 RL 基准):
| 方法 | 状态基 平均分↑ | 方法类别 |
|---|---|---|
| ReBRAC (Gaussian) | 31.0 | 高斯策略 |
| FQL (Flow) | 43.6 | 流策略(仅 actor) |
| FAC | 60.3 | 流策略(actor+critic) |
亮点:puzzle-3x3-play 100.0(vs FQL 29.6,+238%);antmaze-large 92.6(vs FQL 78.6)。
D4RL Antmaze(6 任务):平均 90.5(新 SOTA,此前最佳 FQL 83.5)。
消融实验¶
| 配置 | OGBench 平均↑ | 说明 |
|---|---|---|
| FAC 完整 | 60.3 | actor正则+critic惩罚 |
| 仅 actor 正则(=FQL) | 43.6 | 缺 critic 惩罚 |
| 仅 critic 惩罚 | ~48 | 缺 actor 正则 |
| 用 VAE 密度替代流密度 | 大幅下降 | 密度估计不准导致 OOD 检测失败 |
关键发现¶
- 流密度估计在 OOD 检测上显著优于 VAE/扩散模型(合成实验 Fig. 1 直观展示)
- Actor 正则化和 Critic 惩罚缺一不可,FAC 的联合方法比 FQL(仅 actor)提高 +16.7
- 一步流 actor 比多步流策略(FAWAC、FBRAC)更稳定
- 在 D4RL MuJoCo 上高斯方法(经过大量调参后)仍有竞争力,但在 OGBench 的复杂任务上差距巨大
亮点与洞察¶
- 一个模型两个用途的设计非常优雅:流模型同时提供表达性策略和精确 OOD 密度估计,比分别设计更加高效和自洽。
- 密度阈值惩罚(vs CQL 的全局惩罚)是一个重要改进——只在真正 OOD 的区域保守,分布内保持无偏,避免了 CQL 的过度保守问题。
- OGBench 上 60.3 vs 43.6 的巨大提升说明,在复杂多模态任务中,精确的 OOD 处理比策略表达力更关键。
局限性 / 可改进方向¶
- 两阶段训练(先预训练流模型再训练 actor-critic)增加了训练复杂度
- 密度评估需要 ODE 数值积分(10步 Euler),推理时有额外开销
- 阈值 \(\epsilon\) 的选择是一个额外设计选择
- D4RL MuJoCo 上优势不如 OGBench 显著
相关工作与启发¶
- vs FQL: FQL 只用流做 actor,FAC 同时用于 critic 惩罚——OGBench 提升 +38%
- vs CQL: CQL 对所有 OOD 均匀惩罚导致过度保守,FAC 通过精确密度只在真正 OOD 处惩罚
- vs DiffQL/IDQL: 扩散策略的多步采样使策略优化不稳定,FAC 的一步流更稳定
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次联合利用流模型做 actor 和 critic,概念简洁但效果强大
- 实验充分度: ⭐⭐⭐⭐⭐ OGBench(55任务)+D4RL(15任务)+像素观测,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰,理论保证(Proposition 1)简洁
- 价值: ⭐⭐⭐⭐⭐ 在最具挑战性的离线 RL 基准上取得巨大突破