Spatial Understanding from Videos: Structured Prompts Meet Simulation Data¶

会议: NeurIPS 2025
arXiv: 2506.03642
代码: GitHub
领域: 人体理解 / 人机交互
关键词: 视觉-空间理解, 链式思维提示, 合成数据, 视觉语言模型, 3D推理

一句话总结¶

提出 SpatialMind 结构化提示策略与 ScanForgeQA 合成QA数据集的双管齐下方案，在不修改VLM架构的前提下显著增强其从扫描视频进行3D空间推理的能力。

研究背景与动机¶

视觉-空间理解（从视觉输入推断物体间的空间关系与布局）是机器人导航、自动驾驶和增强现实等应用的基础能力。虽然点云是3D场景理解的主流表示，但其获取依赖昂贵传感器且计算开销大。因此，研究者开始探索仅基于扫描视频的纯视觉方案。

然而，从扫描视频进行3D空间推理面临两大核心挑战：

空间不确定性：缺乏显式深度信息时，模型需从本质受限的2D观测中推断3D结构，遮挡、透视畸变和纹理歧义带来大量不确定性，需要跨帧的多步逻辑推理。

数据稀缺：现有数据集规模小、多样性不足，且均源自真实场景扫描、难以扩展，限制了VLM获取鲁棒空间知识的能力。

现有2D空间理解方法（如SpatialVLM、SpatialBot）在复杂3D环境中性能显著下降。已有的3D方法大多依赖点云，实用性和可扩展性受限。因此需要一种可扩展的视觉纯方案来提升VLM的空间推理能力。

方法详解¶

整体框架¶

框架分两大组件：(1) SpatialMind — 结构化链式思维(CoT)提示策略，引导VLM执行分步空间推理；(2) ScanForgeQA — 从3D仿真场景自动构建的大规模合成QA数据集，用于微调。两者可独立使用也可组合，不修改VLM底层架构。

关键设计¶

场景分解 (Scene Decomposition)

场景分解包含三个步骤： - 局部建模 (Local Modeling)：对每帧视频，利用VLM检测候选目标物体并估计其相对于参考物体的局部3D坐标 \(\mathbf{p}_{ij}^{\text{local}} \in \mathbb{R}^3\)，构建局部3D地图 \(\mathcal{L}_i\)。 - 坐标映射 (Coordinate Mapping)：通过VLM推断相邻帧间的相对旋转 \(\mathbf{R}_{k,k-1}\) 和平移 \(\mathbf{t}_{k,k-1}\)，累积计算每帧的全局变换 \(\mathbf{T}_i = \prod_{k=1}^{i} \begin{bmatrix} \mathbf{R}_{k,k-1} & \mathbf{t}_{k,k-1} \\ \mathbf{0} & 1 \end{bmatrix}\)，将局部坐标通过齐次变换转换为全局坐标。基于空间邻近性和语义一致性合并跨帧重复检测，得到全局3D地图 \(\mathcal{G}\)。 - 认知生成 (Cognition Generation)：探索三种表示：3D地图、2D空间网格（将物体映射到离散格子 \((i_k,j_k) = (\lfloor x_k/s \rfloor, \lfloor y_k/s \rfloor)\)）、自然语言位置描述。实验发现VLM最擅长理解文本描述。

问题分解 (Question Decomposition)

将空间问题按类型分类（如物体大小、相对距离、相对方向等），为每种类型设计专用推理流程。例如"相对距离"类问题按四步推理：识别物体 → 估计坐标 → 计算两两距离 → 选最小值。推理时根据问题类型自动选择对应的推理方案。

ScanForgeQA 数据集构建

三阶段流水线： - 场景构建：(a) 从3D-FRONT数据集拆分出34,116个单房间场景；(b) 用LLM引导的HoloDeck工具合成160个新场景。 - 扫描生成：在Unity引擎中用两种策略模拟扫描视频：轨道扫描（定高圆形轨迹，每5度拍一帧，72帧/圈）和导航扫描（在可行走区域规划路径，起止点各做360度旋转，共72帧/路径）。 - QA生成：自动生成三类问题——属性估计（物体数量、大小、房间面积）、空间推理（相对距离、绝对距离、方向、接触关系）、假设分析（操作可行性）。最终包含34,276场景、103K扫描视频、925K QA对。

损失函数 / 训练策略¶

采用标准SFT微调策略在ScanForgeQA上训练VLM。提示策略为无训练方案。为避免微调影响通用能力，可混入少量传统视频理解数据（如5%-10% ShareGPT4Video）实现能力平衡。

实验关键数据¶

主实验¶

模型	方法	VSI-Bench Avg	提升
Qwen2.5-VL-7B	Baseline	37.2	-
Qwen2.5-VL-7B	+SpatialMind	39.2	↑2.0%
Qwen2.5-VL-7B	+ScanForgeQA	43.3	↑6.1%
Qwen2.5-VL-7B	+Both	43.9	↑6.7%
InternVL2-40B	Baseline	36.0	-
InternVL2-40B	+Both	44.5	↑8.5%
Qwen2.5-VL-72B	Baseline	39.2	-
Qwen2.5-VL-72B	+Both	47.1	↑7.9%
GPT-4o	+SpatialMind	40.8	↑6.8%
Gemini-1.5 Pro	+SpatialMind	52.8	↑7.4%

模型	方法	OpenEQA Acc	ScanQA BLEU-1	SQA3D EM-1
Qwen2.5-VL-7B	Baseline	50.1	32.5	17.2
Qwen2.5-VL-7B	+Both	58.6	37.9	24.5
Qwen2.5-VL-72B	Baseline	53.8	35.4	34.8
Qwen2.5-VL-72B	+Both	60.4	44.1	46.3

消融实验¶

配置	Room Size	VSI-Bench Avg	说明
Qwen2.5-VL-7B baseline	38.9	37.2	基线
+SQA3D 微调	38.8	38.9	已有数据集效果有限
+ScanQA 微调	38.5	39.1	已有数据集效果有限
+ScanForgeQA 微调	44.9	43.3	合成数据显著更优
CoT-Question only	50.6	41.3	仅问题分解
CoT-Scene only	52.1	42.7	场景描述贡献更大
Full SpatialMind	53.8	44.0	两者互补

关键发现¶

文本描述是VLM最易理解的场景表示格式，优于3D地图和2D网格
大模型从提示策略中受益更多，小模型从微调中收益更大（7B微调+6.1%，提示仅+2.0%）
提示+微调两者互补，组合使用持续带来增益
ScanForgeQA微调对通用视频能力影响轻微（MVBench略升，Video-MME略降），混合数据可缓解

亮点与洞察¶

纯视觉方案不修改模型架构，通用性强，可适配各种规模和类型的VLM
合成数据管线可扩展性好，避免了真实场景数据获取的高成本
人类与VLM各有所长：人类在定性任务（如外观排序100%准确率）上表现优异，VLM在精确定量估计上反超人类，两者互补

局限与展望¶

场景分解依赖VLM自身的位姿估计能力，视角变化剧烈时误差可能累积
仿真数据与真实世界仍存在域差距
文本描述格式可能在物体密集场景中信息压缩不足
可探索与深度估计模型或SLAM技术结合以提升坐标精度

评分¶

新颖性: ⭐⭐⭐⭐ 提示+合成数据双管齐下是合理创新，但各组件并非全新
实验充分度: ⭐⭐⭐⭐⭐ 多个基准、多种模型、充分消融，实验非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ 提供了实用的空间推理增强方案，对具身智能领域有直接参考价值