跳转至

Intention-Conditioned Flow Occupancy Models

一句话总结

提出 InFOM,利用流匹配(flow matching)构建意图条件化的占据模型(occupancy model),通过变分推断推理数据中的潜在意图,实现无标注数据上的 RL 预训练,在 36 个状态任务和 4 个视觉任务上取得 1.8× 中位回报提升和 36% 成功率提升。

研究背景与动机

大规模预训练 - 微调范式在 NLP 和 CV 中取得巨大成功,但在强化学习(RL)中仍然是一个开放问题。RL 的核心难点在于:

时间推理:智能体需要推理当前动作的长期影响,而世界模型(world model)受累积误差限制,长距离推理能力有限

意图推理:大规模离线数据集通常由多个用户执行不同任务收集而来,这些隐含的"意图"未被显式标注

现有方法的局限:行为克隆(BC)只模仿动作、不捕获意图;判别式占据模型训练困难;后继特征(successor features)方法通常忽略用户意图

本文提出 InFOM(Intention-conditioned Flow Occupancy Models),同时学习一个概率模型来捕获时间信息和意图信息,使预训练模型能够感知不同用户的行为目的,从而在下游任务微调时实现更高效的策略学习。

方法详解

InFOM 包含预训练和微调两个阶段:

预训练阶段

1. 变分意图推断(Variational Intention Inference)

  • 给定无标注数据集 \(D=\{(s,a,s',a')\}\),通过变分推断推理潜在意图 \(z\)
  • 意图编码器 \(p_e(z|s',a')\) 从下一步转移 \((s',a')\) 推断意图(基于一致性假设:连续转移共享同一意图)
  • 最大化 ELBO:\(\mathbb{E}[\log q_d(s_f|s,a,z)] - \lambda D_{KL}(p_e(z|s',a') \| p(z))\)
  • 先验 \(p(z) = \mathcal{N}(0,I)\)\(\lambda\) 控制 KL 正则化强度

2. SARSA 流占据模型(SARSA Flow Occupancy Models)

  • 使用流匹配(flow matching)学习生成式占据模型 \(q_d(s_f|s,a,z)\),预测折扣状态占据度量
  • 引入时序差分(TD)思想到流匹配损失中,实现动态规划和组合泛化
  • 损失函数分为两部分:当前流损失 \((1-\gamma)\mathcal{L}_{\text{current}}\) 和未来流损失 \(\gamma \mathcal{L}_{\text{future}}\)
  • SARSA 变体比 Q-learning 变体更简单稳定,在大数据集上表现更好

微调阶段

3. 生成式价值估计(Generative Value Estimation)

  • 固定预训练的占据模型,采样 \(N=16\) 个未来状态 \(s_f^{(i)} \sim q_d(s_f|s,a,z)\)
  • 蒙特卡洛估计意图条件化 Q 函数:\(Q_z(s,a) = \frac{1}{(1-\gamma)N}\sum_i r(s_f^{(i)})\)
  • 意图 \(z\) 从先验 \(p(z)\) 采样而非后验

4. 隐式广义策略改进(Implicit GPI)

  • 将朴素 GPI 中对有限意图集合取 max 替换为上分位数期望损失(upper expectile loss)
  • 将多个 \(Q_z\) 蒸馏为单一标量 Q 函数:\(\mathcal{L}(Q) = \mathbb{E}[L_2^\mu(Q_z(s,a) - Q(s,a))]\)
  • 避免通过 ODE 求解器反向传播梯度,训练更稳定
  • 附加行为克隆正则化抑制 OOD 动作

实验

实验一:ExORL 和 OGBench 基准测试

在 36 个状态任务和 4 个视觉任务上与 8 种基线方法对比:

任务域 InFOM 最强基线 提升
walker (4 tasks avg) 380.9 327.6 (MBPO+ReBRAC) ~16%
jaco (4 tasks avg) 727.4 67.7 (IQL) ~20×
cube single (5 tasks) 92.5 77.8 (MBPO+ReBRAC) ~19%
visual tasks (4 tasks) +31% over best
  • 在 9 个域中的 7 个上匹配或超越所有基线
  • jaco 域改进最为显著(约 20×),归因于高维状态空间和稀疏奖励
  • image-based 任务比最强基线高 31%
  • 整体中位回报提升 1.8×,成功率提升 36%

实验二:隐式 GPI 消融实验

策略提取方式 quadruped jump 回报 scene task 1 成功率
InFOM (implicit GPI) 最高 最高
InFOM + GPI (朴素 max) 低 44% 低,方差 8×
FOM + one-step PI 显著更低 显著更低
  • 隐式 GPI 比朴素 GPI 性能高 44%、方差小 8×
  • 去除意图编码器(FOM + one-step PI)导致性能大幅下降,验证意图推理的重要性

亮点

  • 统一框架:首次将意图推断和流匹配占据模型结合,在一个框架中同时捕获时间和意图信息
  • 隐式 GPI:用 expectile loss 替代显式 max 操作,避免了 ODE 反向传播不稳定问题和有限意图集合的局限
  • 强实验表现:36+4 个任务上全面优于 8 种基线,jaco 域有 20× 改进
  • 意图可视化:t-SNE 可视化表明 InFOM 能发现与真实意图对齐的聚类结构,而 FB 和 HILP 的表征混杂

局限性

  1. 从连续状态-动作对推断意图的简化可能无法准确捕获完整轨迹级别的原始意图
  2. MC Q 估计带来方差(部分任务跨种子标准差较大)
  3. 需要同时预训练编码器和流模型,计算开销高于纯 BC 方法
  4. 一致性假设(连续转移共享意图)在实际复杂场景中可能不成立

相关工作

  • 离线无监督 RL:FB(Touati & Ollivier, 2021)、HILP(Park et al., 2024)学习技能/表征但通常不同时建模占据度量
  • 占据模型/后继表征:Dayan (1993)、Janner et al. (2020)、TD flows(Farebrother et al., 2025)使用流匹配建模占据度量但不建模意图
  • 生成式 RL:Decision Transformer、Diffuser 等用生成模型建模轨迹/策略,但通常不显式预测长期状态分布
  • 表征学习:对比学习、MAE 等学习通用表征,但不保证有利于策略适应
  • InFOM 的创新点:相比最接近的 TD flows,引入变分潜变量建模意图 + 隐式 GPI 替代有限集上的显式 GPI

评分

⭐⭐⭐⭐ (4/5)

  • 理论动机清晰,将变分推断与流匹配占据模型有机结合
  • 实验覆盖广、基线充分,36+4 任务 × 8 基线 × 8 种子
  • 隐式 GPI 是优雅的工程/理论贡献
  • 扣分点:意图一致性假设较强,MC 估计方差问题未完全解决

相关论文