Flow Actor-Critic for Offline Reinforcement Learning (FAC)¶

会议: ICLR 2026
arXiv: 2602.18015
代码: 无
领域: 强化学习
关键词: 离线RL, 流匹配, Actor-Critic, OOD检测, 连续归一化流

一句话总结¶

FAC 首次联合利用流模型（continuous normalizing flow）同时构建表达力强的 actor 策略和基于精确密度估计的 critic 惩罚机制，通过识别 OOD 区域对 Q 值进行选择性保守估计，在 OGBench 55 个任务上以 60.3 平均分大幅超越此前最佳的 43.6。

研究背景与动机¶

领域现状：离线 RL 数据集通常包含复杂的多模态行为分布。简单高斯策略表达力不足；扩散策略虽然表达力强但多步采样使策略优化不稳定。
现有痛点：(a) CQL 的保守惩罚是全局性的——对所有 OOD 动作一视同仁，导致过度保守；(b) SVR 用重要性采样比率识别 OOD，但当行为策略被高斯模型拟合不准时比率会爆炸；(c) 现有方法在 actor 设计和 critic 惩罚之间缺乏协同——它们分别独立设计。
核心矛盾：如何在保持策略表达力的同时精确识别 OOD 区域进行保守估计？
切入角度：流模型既能提供高表达力的策略（actor），又能提供精确的密度估计（critic OOD 惩罚），一石二鸟。
核心 idea 一句话：用一个流模型同时解决 actor 表达力和 critic OOD 检测两个问题。

方法详解¶

整体框架¶

两阶段训练：(1) 通过流匹配训练行为代理模型 \(\hat{\beta}_\psi\)（提供精确密度估计）；(2) 用密度估计构建权重函数惩罚 OOD 区域的 Q 值，同时用一步流 actor 优化策略。

关键设计¶

流行为代理（Flow Behavior Proxy）:
做什么：通过流匹配训练一个连续归一化流模型来建模行为分布 \(\hat{\beta}_\psi(a|s)\)。
核心思路：流匹配损失 \(\min_\psi \mathbb{E}[\|v_\psi(\tilde{a}_u; s, u) - (a-z)\|^2]\)，其中 \(\tilde{a}_u = (1-u)z + ua\)。关键优势：流模型可以通过 ODE 积分提供精确的密度估计 \(\log\hat{\beta}_\psi(a|s)\)，而非 VAE 的 ELBO 下界或扩散模型的近似。
设计动机：精确密度估计是 OOD 检测的前提——VAE/扩散模型的近似密度会产生误判。
流 Critic 惩罚:
做什么：用密度估计构建权重函数，仅对 OOD 区域的 Q 值施加惩罚。
核心思路：权重函数 \(w^{\hat{\beta}}(s,a) = \max(0, 1 - \hat{\beta}(a|s)/\epsilon)\)，在数据支撑区域（\(\hat{\beta} \geq \epsilon\)）为零，在 OOD 区域线性增大。Critic 损失添加 \(\alpha \cdot \mathbb{E}_{a \sim \pi}[w \cdot Q(s,a)]\) 项。
Proposition 1 保证：在分布内保持无偏 Bellman 算子，在 OOD 区域强力压制 Q 值。
一步流 Actor:
做什么：用简化的一步流（直接 \(z \mapsto a\)）作为策略，避免多步采样的不稳定性。
核心思路：actor 损失 = \(\max \mathbb{E}[Q(s,a)] - \lambda \cdot \|a_\theta(s,z) - a_\psi(s,z)\|^2\)（Q 值最大化 + 行为正则化）。与多步扩散/流策略不同，一步映射使梯度稳定。

损失函数 / 训练策略¶

阶段 1：流匹配预训练行为代理
阶段 2：交替更新 critic（TD 损失 + 流密度权重惩罚）和 actor（Q 值最大化 + 行为正则化）

实验关键数据¶

主实验¶

OGBench（55 个任务，最具挑战性的离线 RL 基准）：

方法	状态基平均分↑	方法类别
ReBRAC (Gaussian)	31.0	高斯策略
FQL (Flow)	43.6	流策略（仅 actor）
FAC	60.3	流策略（actor+critic）

亮点：puzzle-3x3-play 100.0（vs FQL 29.6，+238%）；antmaze-large 92.6（vs FQL 78.6）。

D4RL Antmaze（6 任务）：平均 90.5（新 SOTA，此前最佳 FQL 83.5）。

消融实验¶

配置	OGBench 平均↑	说明
FAC 完整	60.3	actor正则+critic惩罚
仅 actor 正则（=FQL）	43.6	缺 critic 惩罚
仅 critic 惩罚	~48	缺 actor 正则
用 VAE 密度替代流密度	大幅下降	密度估计不准导致 OOD 检测失败

关键发现¶

流密度估计在 OOD 检测上显著优于 VAE/扩散模型（合成实验 Fig. 1 直观展示）
Actor 正则化和 Critic 惩罚缺一不可，FAC 的联合方法比 FQL（仅 actor）提高 +16.7
一步流 actor 比多步流策略（FAWAC、FBRAC）更稳定
在 D4RL MuJoCo 上高斯方法（经过大量调参后）仍有竞争力，但在 OGBench 的复杂任务上差距巨大

亮点与洞察¶

一个模型两个用途的设计非常优雅：流模型同时提供表达性策略和精确 OOD 密度估计，比分别设计更加高效和自洽。
密度阈值惩罚（vs CQL 的全局惩罚）是一个重要改进——只在真正 OOD 的区域保守，分布内保持无偏，避免了 CQL 的过度保守问题。
OGBench 上 60.3 vs 43.6 的巨大提升说明，在复杂多模态任务中，精确的 OOD 处理比策略表达力更关键。

局限性 / 可改进方向¶

两阶段训练（先预训练流模型再训练 actor-critic）增加了训练复杂度
密度评估需要 ODE 数值积分（10步 Euler），推理时有额外开销
阈值 \(\epsilon\) 的选择是一个额外设计选择
D4RL MuJoCo 上优势不如 OGBench 显著

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次联合利用流模型做 actor 和 critic，概念简洁但效果强大
实验充分度: ⭐⭐⭐⭐⭐ OGBench(55任务)+D4RL(15任务)+像素观测，覆盖全面
写作质量: ⭐⭐⭐⭐ 方法动机清晰，理论保证（Proposition 1）简洁
价值: ⭐⭐⭐⭐⭐ 在最具挑战性的离线 RL 基准上取得巨大突破