SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation¶

会议: NeurIPS 2025 (Workshop on Efficient Reasoning)
arXiv: 2511.00054
代码: 无
领域: 多模态视觉语言模型 / 空间推理
关键词: VLM, 空间推理, 知识蒸馏, 推理轨迹, 数据生成

一句话总结¶

提出 SpatialTraceGen 框架，通过自动化验证器从大型教师模型蒸馏高质量多步工具使用推理轨迹，用于高效微调小型 VLM 的空间推理能力。

研究背景与动机¶

视觉语言模型（VLM）在许多领域表现优异，但在复杂空间推理任务上仍然困难重重。空间推理需要模型具备问题分解和策略性工具使用的能力，例如判断物体之间的相对位置、大小比较、空间关系推断等。

直接使用大型 VLM（如 GPT-4V）进行推理虽然效果好，但部署成本高昂，推理延迟大。一种自然的解决方案是通过微调将大型模型的推理能力迁移到小型、更易部署的模型上。然而，这一方案面临一个核心瓶颈：缺乏高质量的分步推理数据。现有的推理数据要么步骤不完整，要么包含错误的中间推理，导致微调后的小模型学到了有缺陷的推理模式。

人工标注高质量推理轨迹成本极高且难以规模化。因此，如何自动化地生成准确、完整的多步推理轨迹，成为本文要解决的关键问题。

方法详解¶

整体框架¶

SpatialTraceGen 的核心思路是：从一个大型教师模型（teacher model）中蒸馏出多跳、多工具的推理轨迹（reasoning traces），然后利用自动化验证器确保每一步推理的正确性，最终生成高保真度的训练数据集。

整个流程包含三个阶段： 1. 轨迹生成（Trace Generation）：让教师模型针对空间推理问题，逐步生成包含工具调用的推理过程 2. 轨迹验证（Trace Verification）：使用自动化验证器检查每个推理步骤的逻辑正确性和工具调用结果的一致性 3. 数据集构建（Dataset Construction）：筛选通过验证的高质量轨迹，构建用于微调的训练集

关键设计¶

自动化验证器（Automated Verifier）是本文的核心创新。验证器在每个推理步骤级别进行检查，而非仅验证最终答案。具体而言：

步骤级验证：检查每个推理步骤是否逻辑自洽，工具调用参数是否正确，返回结果是否被正确解读
跨步骤一致性：验证前后步骤之间的信息传递是否一致，避免中间推理断裂
质量评分机制：为每条轨迹分配质量分数，支持后续的数据筛选

验证器的设计使其成为人工标注的高效替代方案。在 CLEVR-Humans 基准测试上，经过验证器引导的生成过程将轨迹的平均质量分数提升了 17%，同时质量方差降低了超过 40%。

多工具推理轨迹格式方面，每条轨迹包含： - 问题分解步骤 - 视觉工具调用（如物体检测、属性提取） - 空间关系计算工具调用 - 中间推理和最终结论

训练策略¶

生成的高质量轨迹数据集可用于两种训练方式： 1. 监督微调（SFT）：直接在轨迹数据上进行标准的序列到序列微调 2. 离线强化学习（Offline RL）：利用轨迹的结构化特性和质量分数进行样本高效的离线 RL 训练

实验关键数据¶

主实验¶

实验在 CLEVR-Humans 基准上进行评估，主要比较不同数据生成策略对下游微调效果的影响：

数据生成方法	平均质量分	质量方差	有效轨迹比例
无验证直接生成	0.68	0.152	61.2%
最终答案验证	0.73	0.124	72.5%
SpatialTraceGen（步骤级验证）	0.80	0.089	85.3%

微调策略	CLEVR-Humans Acc	推理步骤完整度	工具调用准确率
原始小模型（无微调）	42.1%	35.7%	48.3%
SFT（无验证数据）	58.4%	62.1%	67.8%
SFT（SpatialTraceGen 数据）	71.3%	78.5%	82.1%
Offline RL（SpatialTraceGen 数据）	73.8%	81.2%	84.6%

消融实验¶

消融设置	质量分 Δ	有效轨迹 Δ
移除步骤级验证	-12%	-14.1%
移除跨步骤一致性检查	-7%	-8.5%
移除质量评分筛选	-5%	-6.2%

关键发现¶

步骤级验证比仅验证最终答案更能提升轨迹质量，因为最终答案正确并不意味着中间推理过程正确
质量方差的降低（>40%）意味着生成的数据更加稳定一致，这对下游微调至关重要
离线 RL 比标准 SFT 在利用轨迹数据方面略有优势，尤其在推理步骤完整度上

亮点与洞察¶

数据质量 > 数据数量：本文再次验证了高质量少量数据比低质量大量数据更有价值的观点
自动化验证替代人工标注：验证器的设计使大规模高质量推理数据的生成成为可能，极大降低了成本
步骤级粒度的重要性：仅验证最终答案会遗漏大量中间推理错误，步骤级验证是关键

局限与展望¶

目前仅在 CLEVR-Humans 这一合成场景上验证，缺乏真实场景的评估
验证器本身依赖规则匹配，可能无法覆盖所有推理错误类型
教师模型的推理能力上限决定了蒸馏数据的质量天花板
缺乏对轨迹多样性的显式控制，可能存在轨迹同质化问题

评分¶

创新性: ★★★★☆ — 步骤级自动验证器的设计是亮点
实用性: ★★★☆☆ — 目前仅限合成场景
实验充分度: ★★★☆☆ — 数据集和场景较为有限
写作质量: ★★★★☆ — 框架描述清晰