跳转至

MAPG: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

日期: 2026-03-19
arXiv: 2603.19166
领域: 3D视觉 / 机器人
关键词: 视觉语言导航, 概率接地, 多智能体, 度量-语义推理, 3D场景图

一句话总结

提出 MAPG(Multi-Agent Probabilistic Grounding),将自然语言度量-语义查询(如"冰箱右边 2 米")分解为锚点+空间关系+度量约束,由多个 VLM Agent 分别接地并通过概率核组合生成规划器可用的 3D 目标分布。在新提出的 MAPG-Bench 上将目标定位误差从 5.82m 降至 0.07m(98.8% 降幅)。

研究背景与动机

  1. 领域现状: 机器人协作需将自然语言指令转化为可执行的 3D 空间决策。现有 VLN/EQA 系统依赖 VLM 单步决策(给定观察输出动作/目标),或用 LLM 迭代推理但成本高。

  2. 现有痛点: (a) VLM 在度量约束("2 米")和空间谓词("右边")的统一推理上表现不稳定;(b) 单步决策模式下,早期接地错误会沿轨迹累积;(c) 现有 3D 场景图包含邻接信息但缺乏度量信息,无法直接产生规划器可用的导航目标。

  3. 核心矛盾: 语言空间接地需同时处理语义引用("冰箱")、空间关系("右边")和度量约束("2米")——现有方法要么牺牲精度(启发式最近邻),要么牺牲效率(迭代 VLM 调用)。

  4. 切入角度: 将复杂查询分解为结构化子组件,每个子组件映射到参数化概率核,组合后得到连续的目标概率密度——既保留空间不确定性又可输出规划器可用的路径点。

方法详解

整体框架

多智能体系统(4 个角色): 1. Orchestrator:解析查询为锚物体 + 空间谓词 + 度量约束 2. Grounding Agent:在 3D 场景图中定位锚物体实例 3. Spatial Agent:构建参数化空间概率核 4. Verifier:检查一致性并触发纠正

关键设计

  1. 查询分解(Orchestrator):

    • 做什么:将自由文本指令解析为结构化 Spatial Description Clauses
    • 例如 "Where is 2m to the right of the fridge?" → 锚: fridge, 谓词: right-of, 度量: 2.0m
    • 复杂指令可提取多个子句,形成空间约束的联合
  2. 概率核组合(Spatial Agent):

    • 方向核:von Mises-Fisher 分布 \(P_{\text{dir}}(x) \propto \exp(\kappa (R_o m(\theta_0,\phi_0))^\top \widehat{(x-t_o)})\),在物体局部坐标系中定义空间谓词(left/right/front/behind)
    • 度量核:径向高斯 \(\ell_{\text{met}}(x) = -\frac{1}{2\sigma_m^2}(\|x-t_o\|-d_0)^2\),建模距离约束
    • 组合:log 空间相加 → \(\log P(x) = \ell_{\text{met}} + \ell_{\text{pred}}\),等价于概率相乘(Product of Experts)
    • 设计动机:参数化核可解析计算,比 VLM 逐帧评分高效几个数量级
  3. 级联空间核(多约束):

    • 做什么:处理复合指令如"把杯子放在水槽旁边、微波炉左边"
    • 核心思路:每个约束生成独立核,在全局坐标系中 log 空间相加后归一化
    • 若两核一致则增强,若冲突则在满足区域间分配概率

目标选择与规划接口

\(P(x)\) 中重要性采样 top-k 路径点,输入 RRT* 规划器生成可执行轨迹。

实验关键数据

MAPG-Bench 主实验

方法 O-W距离误差↓ 角度误差(yaw)↓ 任务成功率↑
GraphEQA 5.82m 13.5° 0.78
SRGPT N/A N/A N/A
MAPG (GPT-5.2) 0.07m 1.9° 0.98
MAPG (Claude Opus 4.6) 0.43m 0.3° 0.98
MAPG (Gemini 2.5 Pro) 0.45m 4.9° 0.90

关键发现

  • MAPG (GPT-5.2) 将 O-W 定位误差从 5.82m 降到 0.07m(98.8% 降低),同时 yaw 误差从 13.5° 降到 1.9°
  • O-O 接地误差:MAPG (Claude) 达 0.07m,比 SRGPT 的 0.50m 降低 86%
  • 不同 VLM 后端在 O-O vs O-W 误差上存在权衡,但整体模式一致——pipeline 结构(分解+组合)是主要性能驱动因素
  • 任务成功率 0.98 和锚点选择成功率 0.98 表明在部分可观测性下也能可靠工作

亮点与洞察

  • 概率组合是核心洞察:将语言接地从"选一个位置"变为"生成一个概率分布"——优雅地处理了空间不确定性和多约束组合
  • 模块化 + 可解释:每个核可独立可视化,便于调试和理解决策依据
  • 新基准 MAPG-Bench:100 个度量-语义查询 × 30 个 HM3D 场景,填补了现有基准在度量空间推理上的空白

局限性 / 可改进方向

  • 100 个查询的基准规模较小
  • 依赖 Hydra/Kimera 提供的 3D 场景图质量——感知错误会传导
  • 参数化核的选择(vMF + 高斯)是领域特定的,其他形状的空间关系(如"环绕")可能需要新核
  • 未在动态环境中验证

相关工作与启发

  • vs GraphEQA: 同用场景图但缺乏度量推理,将查询转为文本路径点——MAPG 用概率核显式建模度量
  • vs NeuS-QA: 用时序逻辑规范做帧选择,但需密集 VLM 调用;MAPG 用参数化核避免了 VLM-in-loop
  • vs G3 framework: MAPG 延续了结构化概率接地的传统,加入物体局部坐标系和 VLM 参数估计

评分

  • 新颖性: ⭐⭐⭐⭐ 概率核组合做度量-语义接地是新颖且优雅的方案
  • 实验充分度: ⭐⭐⭐ 新基准有价值但规模较小,有真实机器人演示加分
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,可视化好
  • 价值: ⭐⭐⭐⭐ 对 embodied AI 和机器人导航有直接应用价值