EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs¶

会议: CVPR 2026
arXiv: 2604.03318
代码: GitHub (有)
领域: Multimodal / VLM
关键词: 空间推理, Chain-of-Thought, 多帧理解, MLLM, 语言推理

一句话总结¶

提出 EgoMind，一种无需几何先验的 CoT 框架，通过角色扮演字幕 (RPC) 和渐进式空间分析 (PSA) 两个核心组件，仅用 5K SFT + 20K RL 样本即可实现多帧空间推理的竞争性能力。

多模态大语言模型 (MLLMs) 在空间认知任务中的应用日益增多，但面临两大核心挑战：

3D 先验方法的高成本：大多数现有方法通过引入点云、深度图、BEV 表示、相机参数等显式 3D 输入来增强空间推理，但这些方法需要昂贵的数据采集、对齐和训练过程。例如 SpaceVista 需要 1M 训练样本，Struct-2D 需要 200K。

纯 2D 方法的局限性：不依赖 3D 先验的方法在多帧空间推理中表现不佳，原因有二：(a) 模型逐帧处理输入，未建模跨帧的连续时空变换关系，导致空间理解碎片化；(b) 模型只关注问题中显式提及的目标物体，忽略了连接不同帧观测所需的隐式"空间桥梁"物体。

核心洞察：作者认为空间推理不一定需要显式的 3D 几何先验，通过精心设计的语言推理信号，可以引导 MLLMs 弥合跨帧视角的不连续性，从而以极低的数据成本实现强空间推理。

EgoMind CoT 由四个阶段组成：Summary Field → RPC Field → PSA Field → Reasoning Field。首先分析问题的空间推理需求，然后通过 RPC 构建全局空间上下文，再通过 PSA 提取任务相关的空间上下文，最终整合信息得出答案。

Role-Play Caption (RPC)：模拟第一人称视角的导航者，为每帧生成场景描述 \(\mathcal{D}_i\)，并在相邻帧之间生成视角转换描述 \(\Delta\mathcal{T}_{i \to i+1}\)。例如"我向前走并右转以从另一侧观察桌子"。设计动机是：(a) 通过显式建模视角转换确保跨帧空间一致性；(b) 通过识别锚定物体将不同帧的重叠观测连接起来，建立统一的全局场景图 \(\hat{\mathcal{G}}_{\mathrm{RPC}} = (\hat{\mathcal{O}}, \hat{\mathcal{R}}, \hat{\mathcal{V}})\)。
Progressive Spatial Analysis (PSA)：给定问题 \(Q\)，首先识别显式提及的目标物体集 \(\mathcal{O}_{\mathrm{exp}}\)，然后对每个物体 \(o_i\) 在场景图中扩展其空间邻域 \(\mathcal{N}(o_i) = \{o_j \in \hat{\mathcal{O}} \mid (o_i, o_j) \in \hat{\mathcal{R}}\}\)，聚合得到扩展候选集 \(\hat{\mathcal{O}}_{\mathrm{rel}}\)，覆盖隐式空间锚点。设计动机是：直接提取目标物体往往遗漏关键的中间空间桥梁，渐进扩展可发现隐式但关键的上下文元素。
全自动数据生成 Pipeline：无需人工标注。RPC 生成用 GPT-4o 生成逐帧描述，Qwen2.5-72B 推断视角转换并合成完整 RPC。空间上下文由 GPT-4o 提取。最终 GPT-4o 整合生成完整 EgoMind CoT 数据。这显著降低了数据准备成本——仅需 5K 样本做 SFT。

两阶段训练： - SFT 阶段：5K 自动生成的 CoT 样本，3 个 epoch，学习率 \(5 \times 10^{-6}\) - GRPO 强化学习阶段：20K 样本，奖励函数综合格式奖励和准确率奖励：

\[R_i = w_f R_{\mathrm{format}}(y|x) + w_a R_{\mathrm{accuracy}}(y|x)\]

基准	指标	EgoMind	Qwen2.5-VL-7B (base)	SpaceR (151K)	Spatial-MLLM (120K)
VSI-Bench	Overall	50.16	30.02	45.76	48.40
SPAR-Bench	Overall	39.03	33.19	38.26	35.10
SPBench	Overall	55.02	41.65	53.39	48.40
SITE-Bench	Overall	58.03	53.74	56.48	43.99

配置	VSI-Bench (SFT)	VSI-Bench (+RL)	说明
Full CoT (RPC+PSA)	42.33	50.16	完整框架
w/o RPC	41.52	47.69	去除全局场景建模
w/o PSA	41.23	45.15	去除渐进分析
RPC → MFC+CVP	41.84	47.12	数值化视角预测反而有害
PSA → DSA	41.54	47.24	直接分析不如渐进式