Flow Matching Policy with Entropy Regularization (FMER)¶

日期: 2026-03-18
arXiv: 2603.17685
领域: 强化学习
关键词: flow matching, 策略优化, 熵正则化, ODE, 多峰动作分布, 在线 RL

一句话总结¶

用 ODE 基的 Flow Matching 代替 SDE 基扩散作为在线 RL 策略，通过优势加权的 conditional FM loss + 可解析熵正则化实现原则性最大熵优化，在多峰/稀疏 FrankaKitchen 任务上超越 SOTA，训练速度比 QVPO 快 7×。

领域现状: 连续控制 RL 中多峰动作分布很常见（如机器人操作中面向同一目标有多个可行方式）。传统单模态高斯策略（SAC、PPO）无法捕捉这种多样性，导致探索不足。扩散策略（DiffuserPolicy、QVPO）通过 SDE 基方法可以表示任意多峰分布。
现有痛点: SDE 基扩散策略两大致命缺陷：
- (1) 熵不可解：随机性贯穿整个反演过程，精确熵无法计算，只能用粗糙启发式估计（如假设均匀分布）。这阻碍了有效的探索控制——模型无法精确知道当前策略探索程度。
- (2) 计算开销大：通过去噪链反向传播梯度，每个策略更新都需要 \(N\) 步去噪的梯度计算，方差大、收敛慢。
核心 idea: 用 ODE 基的 Flow Matching（沿 Optimal Transport 直线路径）代替 SDE——确定性采样让熵可解析计算，直线路径减少积分步数和计算量。同时用优势加权引导策略向高价值区域更新。

推理：状态 \(s\) → FM 策略生成 \(n\) 个候选动作 → Q 网络评估 → 选最高价值动作执行。训练：批采样 \((s, a^{\text{replay}})\) → 加权 Conditional FM loss + 可解析熵正则化 → 联合优化。

优势加权 Conditional FM Loss:
- 做什么：引导策略向高价值区域更新而非等权回归
- 核心思路：对 replay buffer 中的 \((s, a)\) 用 \(w(s,a) = \exp(A(s,a) / \tau)\) 加权 CFM loss，高优势动作获得更大回归权重
- 理论保证：证明这是在线 RL 目标下界的代理
可解析熵正则化:
- 做什么：直接最大化策略熵促进探索
- 核心思路：ODE 采样是确定性变换，通过变量替换公式精确计算：\(\log \pi(a|s) = \log p_0(\varepsilon) - \log |\det J_{\text{ODE}}| - \log |\det J_{\text{squash}}|\)
- 与 SDE 的关键区别：SDE 路径上噪声扩散，\(\pi(a|s)\) 涉及随机过程的条件分布，无法精确计算。FMER 用确定映射完全规避此困难
候选集多动作策略:
- 做什么：避免模式坍缩，同时提高鲁棒性
- 核心思路：推理时采样 \(n\) 个动作候选，选 Q 最高的执行
- 设计动机：当 Q 函数不完美时，候选集可缓冲 Q 错误

指标	QVPO	FMER	改进
训练时间 (Humanoid)	29h	<5h	快 5.8×
推理时间 (ms/step)	45	8	快 5.6×

核心贡献：ODE 基 FM + 可解析熵 + 优势加权多动作，解决扩散策略的熵不可解和计算开销两大痛点