跳转至

SERP: Agentic Self-Evolutionary Replanning for Embodied Navigation

日期: 2026-03-03
arXiv: 2603.02772
代码: 无
领域: 机器人
关键词: 具身导航, 自进化, 重规划, 场景图推理, LLM Agent

一句话总结

SERP 提出自进化重规划框架,通过局部 ILAD(上下文学习 + 自动微分)实时优化动作模型参数 + 全局 GCOT(图链式思维)压缩场景图做高效语义重规划,实现从"冻结模型"到"进化模型"的范式转变。

研究背景与动机

  1. 领域现状:LLM 驱动的具身导航通过场景图 + LLM 推理生成任务计划。失败不可避免,重规划(replanning)允许机器人调整计划直到成功。
  2. 现有痛点:(1) 现有重规划冻结了动作模型——如果模型参数不对(如避障权重太低),反复重规划都会犯同样错误;(2) 全局级只关注语义失败、局部级只关注物理失败,缺乏联合重规划;(3) LLM 在大场景图上做迭代推理 token 消耗巨大。
  3. 核心矛盾:绕过失败(detour)增加额外路径成本,征服失败(fix the model)需要在线学习能力——但现有自进化方法用静态损失函数,容易陷入局部最优。
  4. 切入角度:用 VLM 做上下文学习(IL)全局重置参数 + 自动微分(AD)做局部梯度优化,两者互补——IL 提供新方向、AD 精细调参。同时用 CLIP 替代 LLM 做场景图节点检索以省 token。
  5. 核心 idea 一句话:在线 ILAD(上下文学习交替自动微分)进化动作模型参数 + GCOT 压缩场景图做高效重规划。

方法详解

整体框架

两层重规划系统:(1) 局部 ASE——ILAD 交替优化动作模型参数 \(\mathcal{P} = \{q_s, p_v, \eta\}\);(2) 全局 GCOT——LLM 分解子任务 → CLIP 检索候选节点 → LLM 构建精简图 → 推理新计划。失败先触发局部,局部失败再触发全局。

关键设计

  1. 局部自进化(ASE)

    • 动作模型的代价函数 \(F(\mathcal{A}|\mathcal{P}) = \sum(q_s\|s - s^\diamond\|^2 + p_v\|v - v^\diamond\|^2 - \eta\|d\|_1)\)
    • 参数 \(\mathcal{P} = \{q_s, p_v, \eta\}\) 权衡路径跟踪、速度跟踪和避障
    • AD 步骤\(k \notin \mathcal{X}\)):\(x^{(k+1)} = x^{(k)} - \epsilon \frac{\partial \mathcal{L}}{\partial x}\)——梯度下降精细调参
    • IL 步骤\(k \in \mathcal{X}\),如每 5 个 epoch):\(\mathcal{P}^{(k+1)} = \text{VLM}(\mathcal{P}^{(k)}, \{\mathcal{A}^-, \mathcal{P}^-\})\)——VLM 分析失败上下文并全局重置参数
    • 关键洞察:IL 后 loss 可能暂时上升(方向改变),但带来长期收益——类比"跳出局部最优"
  2. RAG 参数初始化

    • 机器人在不同参数下导航,VLM 生成场景描述,SLAM 获取位姿
    • 向量数据库存储 (时间, 位姿, 文本, 参数)
    • 新场景时检索最匹配的初始参数 \(\mathcal{P}^{(0)}\)
  3. 全局图链式思维(GCOT)

    • LLM 分解任务为原子子任务 \(\{\mathcal{I}_1, ..., \mathcal{I}_N\}\)
    • CLIP 模型(非 LLM)检索语义相关的候选节点——解耦推理(LLM)和搜索(CLIP)
    • LLM 从候选节点构建精简图 \(\hat{\mathcal{G}} \subseteq \mathcal{G}\)
    • 如果精简图可规划则生成计划,否则重新采样
    • Token 减少率(RGTR)达 93-97%

实验关键数据

6 个场景搜索/规划任务

方法 搜索 SR↑ 规划 SR↑ RGTR↑
SayPlan (Qwen3-Max) 75.6% - 75.6%
SERP (GPT-4o) 84.4% 80.0% ~95%
SERP (Qwen3-Max) 95.6% 91.1% 95.4%

局部重规划消融

配置 结果
AD only + good RAG 成功(8 epoch 收敛)
AD only + poor RAG 失败(陷入局部最优)
ILAD + poor RAG 成功(12 epoch,IL 在 5,10 epoch 介入)
IL only 失败(参数爆炸,\(\eta\) 持续增大)

关键发现

  • ILAD 的互补性是核心:AD 提供精细调参,IL 提供方向重置——缺一不可
  • IL only 导致参数发散(VLM 只有直觉理解无法精确调参),AD only 依赖良好初始化
  • GCOT 的 CLIP 检索大幅降低 LLM token 消耗(相比 SayPlan 的 LLM 检索)
  • 真实机器人实验验证了框架在物理世界的可行性

亮点与洞察

  • "征服而非绕过失败"的哲学转变:不只换条路走,而是让机器人自己变强——这对长期自主导航至关重要
  • ILAD 的交替设计精巧:IL 做"宏观战略调整"(跳出局部最优),AD 做"微观战术优化"(精确到梯度级别),两者互助
  • 推理和搜索的解耦(LLM 推理 + CLIP 检索)是实用的工程智慧:各取所长,大幅降低成本

局限性 / 可改进方向

  • 动作模型参数空间较小(仅 3 个权重),更复杂策略的进化能力待验证
  • VLM 的 IL 步骤质量依赖于场景理解能力,复杂场景可能给出错误建议
  • RAG 的向量数据库需要预先收集经验数据
  • 全局重规划每次需要 LLM 调用,延迟较高

相关工作与启发

  • vs SayPlan:SayPlan 用 LLM 做图蒸馏(token 浪费),SERP 用 CLIP 做检索 LLM 做推理(各取所长)+ 无自进化
  • vs NeuPAN/AD:纯梯度方法依赖好的初始化,SERP 的 IL 介入提供了鲁棒性
  • 启发:ILAD 思路可扩展到其他需要在线适配的机器人系统(如抓取、操纵)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 自进化重规划是全新范式,ILAD 交替策略有创意
  • 实验充分度: ⭐⭐⭐⭐ 仿真 + 真机验证,但场景数量有限
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,但数学符号略多
  • 价值: ⭐⭐⭐⭐⭐ 对自主导航的鲁棒性有重要意义