InFOM: Intention-Conditioned Flow Occupancy Models¶
会议: ICLR 2026
arXiv: 2506.08902
代码: https://github.com/chongyi-zheng/infom
领域: 强化学习
关键词: 占据度量, flow matching, 意图推断, 预训练微调, 广义策略改进
一句话总结¶
InFOM 通过变分推断学习潜在意图编码器、用 flow matching 建模意图条件化的折扣状态占据度量,实现了 RL 中的高效预训练与微调,在 36 个状态任务和 4 个图像任务上比基线提升 1.8 倍中位回报和 36% 成功率。
研究背景与动机¶
领域现状:基础模型的预训练-微调范式在 NLP 和 CV 中大获成功,但在强化学习中仍是开放问题。核心困难在于 RL 需要跨时间推理(动作有长期依赖)以及识别数据集中不同用户的不同意图。
现有痛点:当前 RL 预训练方法多数忽略了时间和意图这两个关键因素。行为克隆只预测动作但不推理长期后果;世界模型受 compounding error 限制难以做长时预测;占据模型(successor representations)虽能预测远期状态分布但训练困难且忽略用户意图。
核心矛盾:大规模离线数据集通常由多个执行不同任务的用户收集,但现有预训练方法要么不建模意图(导致模式平均),要么使用离散技能(限制表达力),无法有效利用数据中的异质结构。
本文目标:构建一个能同时捕获(1)时间信息(远期状态访问分布)和(2)用户意图的概率模型,实现高效的 RL 预训练与下游任务微调。
切入角度:结合变分推断学习潜在意图、用先进的生成模型(flow matching)建模占据度量、用广义策略改进(GPI)聚合不同意图的 Q 函数进行策略提取。
核心 idea:用潜在变量模型编码用户意图,用 flow matching 建模意图条件化的折扣状态占据度量,实现意图感知的长时预测和高效策略提取。
方法详解¶
整体框架¶
预训练阶段:无奖励离线数据集 \(D = \{(s,a,s',a')\}\) → 变分意图编码器 \(p_e(z|s',a')\) 推断每个转移的潜在意图 → SARSA flow loss 训练意图条件化的 flow 占据模型 \(q_d(s_f|s,a,z)\) 预测折扣未来状态分布。微调阶段:给定奖励标签数据集 → 从占据模型采样未来状态计算蒙特卡洛 Q 值 → 用 expectile 损失蒸馏隐式 GPI → 行为克隆正则化的策略优化。
关键设计¶
-
变分意图推断:
- 功能:从连续转移对中推断数据收集策略的潜在意图
- 核心思路:最大化观测未来状态 \(s_f\) 在给定 \((s,a)\) 下的似然的证据下界 (ELBO)。编码器 \(p_e(z|s',a')\) 从下一步转移推断意图(利用一致性假设——连续转移共享相同意图),解码器 \(q_d(s_f|s,a,z)\) 在意图条件下预测远期状态。KL 散度正则化 \(D_{KL}(p_e(z|s',a') \| \mathcal{N}(0,I))\) 控制信息瓶颈。从下一步转移而非当前转移推断意图,避免了过拟合
- 设计动机:意图作为信息瓶颈,捕获数据中异质行为策略的结构,同时避免编码器退化为恒等映射
-
SARSA Flow 占据模型:
- 功能:用 flow matching 建模意图条件化的折扣状态占据度量
- 核心思路:占据度量满足 Bellman 方程 \(p_\gamma^\pi(s_f|s,a) = (1-\gamma)\delta_s(s_f) + \gamma \mathbb{E}[p_\gamma^\pi(s_f|s',a')]\)。将其嵌入 flow matching 框架,训练向量场 \(v_d(t, s^t, s, a, z)\)。SARSA flow loss 分两部分:current flow loss 处理当前步(用 \(s\) 本身作为目标),future flow loss 用 TD-bootstrap 在 \((s',a')\) 上递归。选择 SARSA(而非 Q-learning)bootstrap 是因为加入意图条件后可避免反事实误差
- 设计动机:flow matching 比扩散模型训练更稳定、推理更快(确定性 ODE vs 随机 SDE),TD 方式比 Monte Carlo 支持动态规划和轨迹拼接
-
隐式广义策略改进 (Implicit GPI):
- 功能:从多个意图条件化的 Q 函数中高效提取策略
- 核心思路:先用蒙特卡洛方法估计意图条件化的 Q 函数 \(Q_z(s,a) = \frac{1}{(1-\gamma)N}\sum_i r(s_f^{(i)})\),其中 \(s_f^{(i)} \sim q_d(s_f|s,a,z)\)。传统 GPI 需要在有限意图集合上取 max,会陷入局部最优且需要对 ODE 反传梯度。作者改用 expectile 损失 \(L_2^\mu\) 蒸馏到标量 Q 函数,相当于对意图做"软 max"。最后用 BC 正则化的 actor 最大化蒸馏后的 Q
- 设计动机:expectile 替代 hard max 避免了局部最优和 ODE 梯度反传不稳定问题,BC 正则化防止 OOD 动作和 Q 过估计的传播
损失函数 / 训练策略¶
预训练:SARSA flow loss(Eq.5)+ KL 散度正则化(Eq.4)联合训练编码器和 flow 模型。微调:奖励预测器用简单回归训练,critic 用 expectile 蒸馏损失(Eq.7,\(\mu \in [0.5, 1)\)),actor 用 Q 最大化 + BC 正则化(Eq.8)。
实验关键数据¶
主实验¶
| 域 | InFOM | 最佳基线 | 基线名称 | 提升 |
|---|---|---|---|---|
| ExORL Jaco (4任务) | 显著优于 | ~0 回报 | 所有基线 | ~20× |
| OGBench 操作 (20任务) | 最高成功率 | 次优基线 | FB Rep. | +36% |
| OGBench Visual (4任务) | 最高成功率 | 次优基线 | HILP | +31% |
| 真实机器人 | 优于基线 | - | 多种 | +34% |
消融实验¶
| 配置 | 效果 |
|---|---|
| InFOM (完整) | 最高回报 + 最小方差 |
| InFOM + 标准 GPI | 比隐式 GPI 低 44%,方差大 8× |
| FOM + one-step PI (无意图) | 回报和成功率显著下降 |
| 离散潜在变量 (VQ) | 连续潜在空间通常更好 |
| 采样 N=16 未来状态 | Q 估计的较好平衡点 |
关键发现¶
- 在最具挑战性的 OGBench 操作任务上,InFOM 比最强基线成功率高 36%——主要因为不同意图允许探索不同状态区域,缓解稀疏奖励问题
- 意图编码的 t-SNE 可视化显示 InFOM 能清晰区分"抓取"和"放置"行为,而 FB+FOM 和 HILP+FOM 产生混合的意图表示
- 隐式 GPI 比标准 GPI 不仅性能高 44%,方差更是缩小 8 倍,显示 expectile 蒸馏的稳定性优势
亮点与洞察¶
- 意图-占据模型的统一框架是本文最大创新——将用户意图和长时状态预测在一个优雅的概率框架下联合学习,解决了 RL 预训练中的两大核心难题
- SARSA flow 比 Q-learning flow 的选择很有洞见——加入意图条件后不再需要 off-policy 修正,避免了反事实误差和不稳定性
- 隐式 GPI 的设计(expectile 蒸馏替代 max)是一个通用的策略聚合技巧,可迁移到其他需要在连续条件空间上做 GPI 的场景
局限与展望¶
- 意图从连续的 \((s',a')\) 推断,可能不能完全准确捕获轨迹级别的原始意图
- 蒙特卡洛 Q 估计的方差受采样数 \(N\) 影响,部分域上的种子间方差较大(如 cheetah、puzzle)
- 一致性假设(连续转移共享意图)在高度动态环境中可能不成立
- 未探讨与行为克隆预训练方法的正交组合
相关工作与启发¶
- vs TD Flows (Farebrother et al., 2025): TD Flows 也用 flow matching 建模占据度量,但用 forward-backward 表示编码意图且在有限意图集上做 GPI;InFOM 用变分推断学习连续意图空间 + 隐式 GPI,性能更好
- vs HILP (Park et al., 2024): HILP 学习 Hilbert 表示作为技能,但预训练时学多个技能;InFOM 不学技能而是直接用意图条件化占据模型
- vs 行为克隆 (BC) 预训练: BC 只模仿动作不推理长期后果,InFOM 通过占据度量实现长时推理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将变分意图推断、flow matching 占据模型、隐式 GPI 优雅统一
- 实验充分度: ⭐⭐⭐⭐⭐ 40个任务、8种基线、消融全面、含真实机器人验证
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰但技术密度极高,需要较强的 RL 背景
- 价值: ⭐⭐⭐⭐⭐ 为 RL 预训练提供了一个强大且通用的框架
相关论文¶
- [ICLR 2026] Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models
- [ICLR 2026] Flow Actor-Critic for Offline Reinforcement Learning (FAC)
- [ICLR 2026] PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning
- [AAAI 2026] First-Order Representation Languages for Goal-Conditioned RL
- [AAAI 2026] Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation