SERP: Agentic Self-Evolutionary Replanning for Embodied Navigation¶

日期: 2026-03-03
arXiv: 2603.02772
代码: 无
领域: 机器人
关键词: 具身导航, 自进化, 重规划, 场景图推理, LLM Agent

一句话总结¶

SERP 提出自进化重规划框架，通过局部 ILAD（上下文学习 + 自动微分）实时优化动作模型参数 + 全局 GCOT（图链式思维）压缩场景图做高效语义重规划，实现从"冻结模型"到"进化模型"的范式转变。

领域现状：LLM 驱动的具身导航通过场景图 + LLM 推理生成任务计划。失败不可避免，重规划（replanning）允许机器人调整计划直到成功。
现有痛点：(1) 现有重规划冻结了动作模型——如果模型参数不对（如避障权重太低），反复重规划都会犯同样错误；(2) 全局级只关注语义失败、局部级只关注物理失败，缺乏联合重规划；(3) LLM 在大场景图上做迭代推理 token 消耗巨大。
核心矛盾：绕过失败（detour）增加额外路径成本，征服失败（fix the model）需要在线学习能力——但现有自进化方法用静态损失函数，容易陷入局部最优。
切入角度：用 VLM 做上下文学习（IL）全局重置参数 + 自动微分（AD）做局部梯度优化，两者互补——IL 提供新方向、AD 精细调参。同时用 CLIP 替代 LLM 做场景图节点检索以省 token。
核心 idea 一句话：在线 ILAD（上下文学习交替自动微分）进化动作模型参数 + GCOT 压缩场景图做高效重规划。

两层重规划系统：(1) 局部 ASE——ILAD 交替优化动作模型参数 \(\mathcal{P} = \{q_s, p_v, \eta\}\)；(2) 全局 GCOT——LLM 分解子任务 → CLIP 检索候选节点 → LLM 构建精简图 → 推理新计划。失败先触发局部，局部失败再触发全局。

局部自进化（ASE）：
- 动作模型的代价函数 \(F(\mathcal{A}|\mathcal{P}) = \sum(q_s\|s - s^\diamond\|^2 + p_v\|v - v^\diamond\|^2 - \eta\|d\|_1)\)
- 参数 \(\mathcal{P} = \{q_s, p_v, \eta\}\) 权衡路径跟踪、速度跟踪和避障
- AD 步骤（\(k \notin \mathcal{X}\)）：\(x^{(k+1)} = x^{(k)} - \epsilon \frac{\partial \mathcal{L}}{\partial x}\)——梯度下降精细调参
- IL 步骤（\(k \in \mathcal{X}\)，如每 5 个 epoch）：\(\mathcal{P}^{(k+1)} = \text{VLM}(\mathcal{P}^{(k)}, \{\mathcal{A}^-, \mathcal{P}^-\})\)——VLM 分析失败上下文并全局重置参数
- 关键洞察：IL 后 loss 可能暂时上升（方向改变），但带来长期收益——类比"跳出局部最优"
RAG 参数初始化：
- 机器人在不同参数下导航，VLM 生成场景描述，SLAM 获取位姿
- 向量数据库存储 (时间, 位姿, 文本, 参数)
- 新场景时检索最匹配的初始参数 \(\mathcal{P}^{(0)}\)
全局图链式思维（GCOT）：
- LLM 分解任务为原子子任务 \(\{\mathcal{I}_1, ..., \mathcal{I}_N\}\)
- CLIP 模型（非 LLM）检索语义相关的候选节点——解耦推理（LLM）和搜索（CLIP）
- LLM 从候选节点构建精简图 \(\hat{\mathcal{G}} \subseteq \mathcal{G}\)
- 如果精简图可规划则生成计划，否则重新采样
- Token 减少率（RGTR）达 93-97%

方法	搜索 SR↑	规划 SR↑	RGTR↑
SayPlan (Qwen3-Max)	75.6%	-	75.6%
SERP (GPT-4o)	84.4%	80.0%	~95%
SERP (Qwen3-Max)	95.6%	91.1%	95.4%