Spatial Understanding from Videos: Structured Prompts Meet Simulation Data¶
会议: NeurIPS 2025
arXiv: 2506.03642
代码: GitHub
领域: 人体理解 / 人机交互
关键词: 视觉-空间理解, 链式思维提示, 合成数据, 视觉语言模型, 3D推理
一句话总结¶
提出 SpatialMind 结构化提示策略与 ScanForgeQA 合成QA数据集的双管齐下方案,在不修改VLM架构的前提下显著增强其从扫描视频进行3D空间推理的能力。
研究背景与动机¶
视觉-空间理解(从视觉输入推断物体间的空间关系与布局)是机器人导航、自动驾驶和增强现实等应用的基础能力。虽然点云是3D场景理解的主流表示,但其获取依赖昂贵传感器且计算开销大。因此,研究者开始探索仅基于扫描视频的纯视觉方案。
然而,从扫描视频进行3D空间推理面临两大核心挑战:
空间不确定性:缺乏显式深度信息时,模型需从本质受限的2D观测中推断3D结构,遮挡、透视畸变和纹理歧义带来大量不确定性,需要跨帧的多步逻辑推理。
数据稀缺:现有数据集规模小、多样性不足,且均源自真实场景扫描、难以扩展,限制了VLM获取鲁棒空间知识的能力。
现有2D空间理解方法(如SpatialVLM、SpatialBot)在复杂3D环境中性能显著下降。已有的3D方法大多依赖点云,实用性和可扩展性受限。因此需要一种可扩展的视觉纯方案来提升VLM的空间推理能力。
方法详解¶
整体框架¶
框架分两大组件:(1) SpatialMind — 结构化链式思维(CoT)提示策略,引导VLM执行分步空间推理;(2) ScanForgeQA — 从3D仿真场景自动构建的大规模合成QA数据集,用于微调。两者可独立使用也可组合,不修改VLM底层架构。
关键设计¶
- 场景分解 (Scene Decomposition)
场景分解包含三个步骤: - 局部建模 (Local Modeling):对每帧视频,利用VLM检测候选目标物体并估计其相对于参考物体的局部3D坐标 \(\mathbf{p}_{ij}^{\text{local}} \in \mathbb{R}^3\),构建局部3D地图 \(\mathcal{L}_i\)。 - 坐标映射 (Coordinate Mapping):通过VLM推断相邻帧间的相对旋转 \(\mathbf{R}_{k,k-1}\) 和平移 \(\mathbf{t}_{k,k-1}\),累积计算每帧的全局变换 \(\mathbf{T}_i = \prod_{k=1}^{i} \begin{bmatrix} \mathbf{R}_{k,k-1} & \mathbf{t}_{k,k-1} \\ \mathbf{0} & 1 \end{bmatrix}\),将局部坐标通过齐次变换转换为全局坐标。基于空间邻近性和语义一致性合并跨帧重复检测,得到全局3D地图 \(\mathcal{G}\)。 - 认知生成 (Cognition Generation):探索三种表示:3D地图、2D空间网格(将物体映射到离散格子 \((i_k,j_k) = (\lfloor x_k/s \rfloor, \lfloor y_k/s \rfloor)\))、自然语言位置描述。实验发现VLM最擅长理解文本描述。
- 问题分解 (Question Decomposition)
将空间问题按类型分类(如物体大小、相对距离、相对方向等),为每种类型设计专用推理流程。例如"相对距离"类问题按四步推理:识别物体 → 估计坐标 → 计算两两距离 → 选最小值。推理时根据问题类型自动选择对应的推理方案。
- ScanForgeQA 数据集构建
三阶段流水线: - 场景构建:(a) 从3D-FRONT数据集拆分出34,116个单房间场景;(b) 用LLM引导的HoloDeck工具合成160个新场景。 - 扫描生成:在Unity引擎中用两种策略模拟扫描视频:轨道扫描(定高圆形轨迹,每5度拍一帧,72帧/圈)和导航扫描(在可行走区域规划路径,起止点各做360度旋转,共72帧/路径)。 - QA生成:自动生成三类问题——属性估计(物体数量、大小、房间面积)、空间推理(相对距离、绝对距离、方向、接触关系)、假设分析(操作可行性)。最终包含34,276场景、103K扫描视频、925K QA对。
损失函数 / 训练策略¶
采用标准SFT微调策略在ScanForgeQA上训练VLM。提示策略为无训练方案。为避免微调影响通用能力,可混入少量传统视频理解数据(如5%-10% ShareGPT4Video)实现能力平衡。
实验关键数据¶
主实验¶
| 模型 | 方法 | VSI-Bench Avg | 提升 |
|---|---|---|---|
| Qwen2.5-VL-7B | Baseline | 37.2 | - |
| Qwen2.5-VL-7B | +SpatialMind | 39.2 | ↑2.0% |
| Qwen2.5-VL-7B | +ScanForgeQA | 43.3 | ↑6.1% |
| Qwen2.5-VL-7B | +Both | 43.9 | ↑6.7% |
| InternVL2-40B | Baseline | 36.0 | - |
| InternVL2-40B | +Both | 44.5 | ↑8.5% |
| Qwen2.5-VL-72B | Baseline | 39.2 | - |
| Qwen2.5-VL-72B | +Both | 47.1 | ↑7.9% |
| GPT-4o | +SpatialMind | 40.8 | ↑6.8% |
| Gemini-1.5 Pro | +SpatialMind | 52.8 | ↑7.4% |
| 模型 | 方法 | OpenEQA Acc | ScanQA BLEU-1 | SQA3D EM-1 |
|---|---|---|---|---|
| Qwen2.5-VL-7B | Baseline | 50.1 | 32.5 | 17.2 |
| Qwen2.5-VL-7B | +Both | 58.6 | 37.9 | 24.5 |
| Qwen2.5-VL-72B | Baseline | 53.8 | 35.4 | 34.8 |
| Qwen2.5-VL-72B | +Both | 60.4 | 44.1 | 46.3 |
消融实验¶
| 配置 | Room Size | VSI-Bench Avg | 说明 |
|---|---|---|---|
| Qwen2.5-VL-7B baseline | 38.9 | 37.2 | 基线 |
| +SQA3D 微调 | 38.8 | 38.9 | 已有数据集效果有限 |
| +ScanQA 微调 | 38.5 | 39.1 | 已有数据集效果有限 |
| +ScanForgeQA 微调 | 44.9 | 43.3 | 合成数据显著更优 |
| CoT-Question only | 50.6 | 41.3 | 仅问题分解 |
| CoT-Scene only | 52.1 | 42.7 | 场景描述贡献更大 |
| Full SpatialMind | 53.8 | 44.0 | 两者互补 |
关键发现¶
- 文本描述是VLM最易理解的场景表示格式,优于3D地图和2D网格
- 大模型从提示策略中受益更多,小模型从微调中收益更大(7B微调+6.1%,提示仅+2.0%)
- 提示+微调两者互补,组合使用持续带来增益
- ScanForgeQA微调对通用视频能力影响轻微(MVBench略升,Video-MME略降),混合数据可缓解
亮点与洞察¶
- 纯视觉方案不修改模型架构,通用性强,可适配各种规模和类型的VLM
- 合成数据管线可扩展性好,避免了真实场景数据获取的高成本
- 人类与VLM各有所长:人类在定性任务(如外观排序100%准确率)上表现优异,VLM在精确定量估计上反超人类,两者互补
局限与展望¶
- 场景分解依赖VLM自身的位姿估计能力,视角变化剧烈时误差可能累积
- 仿真数据与真实世界仍存在域差距
- 文本描述格式可能在物体密集场景中信息压缩不足
- 可探索与深度估计模型或SLAM技术结合以提升坐标精度
相关工作与启发¶
- 对比SpatialVLM、SpatialRGPT等2D空间理解方法,指出其在复杂3D场景中的局限
- CoT提示思路可推广到其他需要多步推理的视觉任务
- 合成数据+微调的组合策略为数据稀缺领域提供了可复制的范式
评分¶
- 新颖性: ⭐⭐⭐⭐ 提示+合成数据双管齐下是合理创新,但各组件并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 多个基准、多种模型、充分消融,实验非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富
- 价值: ⭐⭐⭐⭐ 提供了实用的空间推理增强方案,对具身智能领域有直接参考价值
相关论文¶
- [NeurIPS 2025] Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models
- [AAAI 2026] Self-Correction Distillation for Structured Data Question Answering
- [NeurIPS 2025] MOSPA: Human Motion Generation Driven by Spatial Audio
- [NeurIPS 2025] Faster Algorithms for Structured John Ellipsoid Computation
- [NeurIPS 2025] K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning