Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling¶
会议: ICML 2025
arXiv: 2410.01440
代码: https://github.com/Singularity0104/equilibrium-planner
领域: 机器人
关键词: 机器人规划, 自精炼, 深度均衡模型, 长程规划, 推理时计算
一句话总结¶
将 LLM 的自精炼规划过程建模为不动点问题(深度均衡模型),通过隐式微分实现端到端监督训练,无需额外验证器或 RL,并设计嵌套均衡求解实现闭环长程机器人规划。
研究背景与动机¶
领域现状¶
领域现状:LLM 在机器人任务规划中展现潜力,但受限于单向依赖(无法回顾已生成的 token)、缺乏错误纠正、固定计算量无法动态分配。
现有痛点:自精炼(self-refinement)策略可解决上述问题(引入双向依赖+动态纠错),但训练困难——需要通过无限自精炼步骤做反向传播,或构建复杂的 RL/验证器管道。
核心矛盾:自精炼的训练如何简单高效地实现?
本文目标:用简单的监督学习训练自精炼的 LLM 规划器。
切入角度:将自精炼视为不动点迭代 \(x_{t+1} = f_\theta(x_t, c)\),理想计划是均衡点 \(x^* = f_\theta(x^*, c)\)。
核心 idea:用深度均衡模型的隐式微分绕过无限步反向传播,实现端到端监督训练。
方法详解¶
整体框架¶
- 将 LLM 规划器定义为不动点映射 \(f_\theta\)
- 前向推理:用 Anderson/Broyden 方法求解均衡点 \(x^* = f_\theta(x^*, c)\)
- 反向传播:用隐式函数定理计算梯度(无需展开所有迭代步)
- 嵌套均衡:内循环精炼计划,外循环收集环境反馈
关键设计¶
-
均衡序列建模:
- 功能:将 LLM 自精炼建模为不动点问题
- 核心思路:理想计划是精炼过程的不动点——再怎么精炼也不会改变
- Jacobian-free 近似简化梯度计算
- 设计动机:避免展开无限步的反向传播,用隐式微分实现 O(1) 内存训练
-
嵌套均衡求解:
- 功能:内循环精炼计划(固定反馈),外循环更新反馈(与环境交互)
- 核心思路:重用前一个均衡解作为下一轮的初始化,加速收敛
- 设计动机:高效整合闭环环境反馈
-
世界模型辅助:
- 功能:在无法与真实环境交互时用世界模型估计反馈
- 核心思路:训练一个小型世界模型预测行动后果
- 设计动机:减少真实环境交互次数
损失函数 / 训练策略¶
- 纯监督学习(无 RL、无验证器)
- 损失:均衡点与真实计划的交叉熵
- 推理时可动态增加迭代次数来提升质量
实验关键数据¶
主实验¶
VirtualHome-Env 基准:
| 方法 | 成功率 | 可执行率 |
|---|---|---|
| ReAct (LLM) | 42.3% | 65.1% |
| Tree-of-Thought | 51.7% | 72.4% |
| 均衡规划器 | 58.9% | 78.2% |
消融实验¶
| 配置 | 成功率 | 说明 |
|---|---|---|
| 单次生成(无精炼) | 38.5% | 基线 |
| 固定 3 步精炼 | 52.1% | 改进但不自适应 |
| 均衡精炼(动态步数) | 58.9% | 自适应分配计算 |
| 无世界模型 | 53.2% | 反馈不足 |
| +世界模型 | 58.9% | 完整方法 |
关键发现¶
- 推理时计算量与规划质量正相关——更多迭代 = 更好的计划
- 均衡模型比 tree search 方法更高效(不需要枚举分支)
- 嵌套均衡的初始化复用使收敛速度提升 2-3×
- 简单监督学习就能训练出有效的自精炼规划器
亮点与洞察¶
- 均衡模型 × LLM 规划的结合非常优雅——将 deep equilibrium models 从视觉/图像生成扩展到序列规划
- 隐式微分实现了"无限深度的精炼过程可用有限内存训练"
- 推理时计算扩展(inference-time scaling)是当前热点,本文提供了非 tree search 的新路径
局限与展望¶
- 不动点存在性和唯一性没有理论保证
- VirtualHome 环境相对简单,真实机器人场景待验证
- 世界模型的准确性是瓶颈
相关工作与启发¶
- vs Tree-of-Thought: Tree search 枚举分支,均衡模型迭代精炼,后者更高效
- vs DeepSeek R1: 用 RL 训练推理,本文用监督学习+均衡模型更简单
- vs Reflexion/Self-Refine: 依赖提示工程,本文端到端训练
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 均衡模型用于规划,非常新颖
- 实验充分度: ⭐⭐⭐⭐ 充分消融和扩展性分析
- 写作质量: ⭐⭐⭐⭐⭐ 数学优雅,动机清晰
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 规划和推理时计算有重要启示
相关论文¶
- [NeurIPS 2025] RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation
- [ICML 2025] Efficient Robotic Policy Learning via Latent Space Backward Planning
- [CVPR 2025] Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
- [NeurIPS 2025] RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks
- [ICML 2025] BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly