SSR: Enhancing Depth Perception in VLMs via Rationale-Guided Spatial Reasoning¶

会议: NeurIPS 2025
arXiv: 2505.12448
代码: https://yliu-cs.github.io/SSR
领域: multimodal_vlm
关键词: 空间推理, 深度感知, 视觉语言模型, Chain-of-Thought, 知识蒸馏

一句话总结¶

提出 SSR 框架，将原始深度信息转化为结构化文本推理 rationale，并通过知识蒸馏压缩为紧凑潜在嵌入，以即插即用方式增强现有 VLM 的空间推理能力。

研究背景与动机¶

VLM 在多模态任务上表现出色，但仅依赖 RGB 输入难以准确捕捉空间信息（相对位置、距离等）。现有融合空间线索的方法存在两类问题：依赖专用传感器（如 LiDAR 获取点云）不适用于仅有单目 RGB 的场景；或者虽然引入了深度图，但对深度信息的利用停留在表面（作为补充输入），未能发挥其推理价值。

核心洞察是：人类在推理空间关系时，不仅仅"看到"深度，而是将深度作为推理过程的一部分——先分析物体间的空间关系，再利用这种理解来指导后续推理。现有方法缺乏这种隐式的深度推理能力，因此需要一种更sophisticated的深度整合方式。

方法详解¶

整体框架¶

SSR 包含一个核心即插即用模块 MIDI（Mamba-based Image-Depth Interpreter），负责将 RGB 图像和深度图转化为包含空间推理信息的潜在 token 表示。整体流程为：输入图像→单目深度估计→MIDI 模块生成 rationale latent tokens→与原始图像和文本一起输入 VLM 生成答案。训练分两阶段：Stage 1 对齐推理+语义空间，Stage 2（可选）联合训练 MIDI 和 VLM。

关键设计¶

MIDI 模块（Mamba-based Image-Depth Interpreter）: 使用 CLIP ViT-L/14 编码 RGB 图像特征、SigLIP 编码深度特征，分别通过 MLP 投影到语义空间。然后将图像特征、深度特征和文本 query 输入一个基于 Mamba 的语言模型，生成中间推理 rationale 的潜在 token。关键创新是使用 Mamba（而非 Transformer）作为推理模块，计算效率更高。在 rationale 序列中均匀插入特殊 token，便于知识蒸馏压缩。
Rationale-to-Latent 知识蒸馏: 不同于传统 CoT 依赖冗长文本推理，SSR 将推理 rationale 压缩为紧凑的潜在嵌入。Stage 1 中，LLM 从 MIDI 生成的潜在 token 中重建文本 rationale，迫使潜在表示编码完整的推理信息。训练完成后，MIDI 可直接插入 VLM 的输入序列，无需修改 VLM 参数。
SSR-CoT 数据集与 SSRBench: 整合 LLaVA-CoT、Visual-CoT、VoCoT、SpatialQA 四个数据源，使用 Depth Pro 提取深度图、SpatialRGPT 挖掘空间属性、GPT-4o 生成详细推理过程，构建约 120 万级图像-深度-问题-rationale-答案对。SSRBench 包含 6 个任务（3 通用+3 空间），从 SSR-CoT 中抽取并严格去重。

损失函数 / 训练策略¶

Stage 1 (Reasoning and Alignment): 标准因果语言模型损失，训练 MIDI 生成的潜在 token 使下游 LLM 能重建原始 rationale 文本。仅训练 MIDI 模块，VLM 冻结。
Stage 2 (Co-Training, 可选): 丢弃中间 rationale，用标准因果损失训练 VLM 直接生成答案。联合训练 MIDI + VLM，并额外引入 LLaVA-Instruct-150K 扩展数据。
使用 LoRA + FSDP，单节点 8×H800，Stage 1 约 19h，Stage 2 约 48h。

实验关键数据¶

主实验¶

Benchmark	指标	SSR (3B)	Qwen2.5-VL-3B	提升
SpatialBench	平均	64.8%	59.3%	+5.4
SSRBench 通用	平均	79.3%	62.8%	+16.5
SSRBench 空间	平均	69.7%	48.8%	+20.9
CV-Bench	平均	68.9%	67.0%	+1.9
VSR	零样本	82.9%	76.4%	+6.5

SSR (7B) 进一步提升：SpatialBench 上超越 LLaVA-NeXT-13B、SpatialBot-3B 等基线。

消融实验¶

配置	说明	效果
有 rationale vs 无 rationale	SSR-CoT 数据质量验证	准确率 +11.62%（67.80→79.42）
Stage 1 only (即插即用)	不联合训练 VLM	已有显著提升
Stage 1 + Stage 2	联合训练	进一步提升各 benchmark
MIDI 模块大小 130M	轻量级开销	与 3B VLM 配合即获大幅提升

关键发现¶

MIDI 模块仅 130M 参数，就能为 3B VLM 带来空间推理平均 20.9% 的提升，性价比极高。
Stage 1 训练的即插即用特性使得无需重新训练 VLM，实用性强。
SSR-CoT 数据中 rationale 质量保证机制（缓存池+采样验证+迭代重标注）有效。
不同规模 VLM（3B→7B）均能从 SSR 获益，且在通用任务上也有提升而非仅限于空间任务。

亮点与洞察¶

深度信息的正确使用方式：不是简单拼接深度特征，而是将深度转化为推理 rationale，再压缩为潜在表示——这种"先推理再压缩"的范式让深度信息真正参与了高阶认知过程。
即插即用设计：MIDI 模块训练后可直接插入任意 VLM 的输入序列，无需修改原模型，部署友好。
Mamba 作为推理引擎：选择 Mamba 而非 Transformer 进行推理，充分利用其选择性状态空间特性和线性复杂度优势。
数据构建流水线（Depth Pro + SpatialRGPT + GPT-4o）系统化，可复用。- Stage 1 训练 19h、Stage 2 训练 48h 的计算开销可接受，且 Stage 2 是可选的。

局限与展望¶

依赖单目深度估计模型（Depth Pro）的质量，深度估计失败时推理也会受影响。
SSR-CoT 数据集构建依赖 GPT-4o，成本较高且可能引入偏差。
轻量 Mamba 推理模块的表达能力是否足以处理极复杂的空间场景有待验证。
SSRBench 缺乏 3D 场景或视频级别的空间推理评测。
深度编码器（SigLIP）与图像编码器（CLIP ViT-L/14）使用不同模型，两者特征空间的对齐质量可能影响下游推理。
仅在 Qwen2.5-VL 上验证 Stage 2 联合训练，对其他 VLM 骨干的适配性有待确认。
Rationale 质量检验仅抽样 10%，可能存在未检出的低质量样本。

评分¶

新颖性: ⭐⭐⭐⭐ 将深度信息转化为推理 rationale 再蒸馏为 latent 的范式新颖
实验充分度: ⭐⭐⭐⭐ 多 benchmark 验证，配备自建 SSRBench，数据质量评估完善
写作质量: ⭐⭐⭐⭐ 框架图清晰，流程详尽
价值: ⭐⭐⭐⭐ 即插即用的空间增强方案实用性强，对具身 AI 有意义