See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model¶

会议: NeurIPS 2025
arXiv: 2509.16087
代码: 无
领域: 多模态VLM
关键词: 空间理解, 多模态大模型, 视觉提示, 视觉里程计, 训练无关

一句话总结¶

提出 See&Trek，一个无需训练和GPU的空间提示框架，通过最大语义丰富度采样和运动重建来增强 MLLM 的空间理解能力，在 VSI-Bench 上最高提升 3.5%。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在图像理解、VQA 等任务上取得了显著进展，但空间推理仍是短板，尤其是涉及物体定位、运动预测和物理交互的场景。

现有痛点：当前 MLLM 处理视频时普遍采用均匀时间采样策略（如抽 8 或 32 帧），这导致两个根本问题： - 视觉同质性：均匀采样容易选到没有显著特征的帧（如墙壁、天花板），降低了输入帧的信噪比 - 运动未知：仅依赖采样帧，没有显式自运动信息，模型无法推断物体运动和位移，只能依赖预训练期间获得的常识先验做推测

核心矛盾：空间推理需要丰富的视觉语义和明确的运动信息，但现有 pipeline 两者都缺乏

切入角度：利用现成的感知模型（YOLO）和视觉里程计（VO），在无需训练的情况下为 MLLM 注入空间线索

核心 idea：通过最大语义丰富度采样增加视觉多样性，通过运动重建恢复相机轨迹并编码到关键帧中

方法详解¶

整体框架¶

给定视频序列，See&Trek 分三步：(1) 用 YOLO 检测物体并选择语义最丰富的关键帧（Maximum Semantic Richness Sampling）；(2) 用 ORB 特征和本质矩阵估计相机运动轨迹（Motion Reconstruction）；(3) 将运动信息编码到关键帧上作为时空标记（Spatiotemporal Encoding），最终与文本提示组合输入 MLLM。

关键设计¶

最大语义丰富度采样 (Balanced-TopK)：
- 功能：从视频中选出 K 个语义最丰富且时间分布均匀的关键帧
- 核心思路：先用 YOLO 检测每帧中的物体类别集合 \(\mathcal{C}_t\)，选出物体类别最多的帧作为初始帧；然后将有效区间分为 K-1 个时间段，在每段中选与已有类别重叠最少、物体最多的帧
- 设计动机：简单的 TopK 会偏向物体最多的时间段，导致时间局部偏差。Balanced-TopK 通过时间分段和去重策略，兼顾语义丰富性和时间多样性
运动重建：
- 功能：从单目视频估计相机运动轨迹
- 核心思路：对相邻帧提取 ORB 特征并匹配，通过 RANSAC 估计本质矩阵 \(\mathbf{E}\)，SVD 分解得到相对旋转 \(\mathbf{R}_t\) 和平移 \(\mathbf{T}_t\)，递推累积得全局轨迹：\(\mathbf{T}_t^{world} = \mathbf{R}_{t-1}^{world}\mathbf{T}_t + \mathbf{T}_{t-1}^{world}\)
- 设计动机：显式的相机运动信息让 MLLM 能基于证据而非推测来理解空间关系
时空编码：
- 功能：将轨迹信息视觉化地编码到关键帧上
- 核心思路：为每个关键帧分配颜色标记（连续色图，反映时间顺序）和帧索引号，直接叠加在图像右上角，同时生成 BEV 和 3D 轨迹可视化图
- 设计动机：解决关键帧与运动轨迹的关联问题——MLLM 无法将独立的帧与独立的轨迹图联系起来，时空编码通过视觉标记架起桥梁

训练策略¶

完全无训练，只需 CPU 计算几次 ORB 匹配和 YOLO 推理，单次前向传播即可完成。

实验关键数据¶

主实验 — VSI-Bench¶

模型	原始 Avg.	+See&Trek	提升
InternVL3-1B	29.5	32.0	+3.5%
InternVL3-8B	40.2	43.2	+3.0%
InternVL3-14B	44.2	45.6	+1.4%
Qwen2.5-VL-7B	27.3	29.0	+2.6%
LLaVA-OneVision-7B	31.4	33.0	+1.6%
Kimi-VL-A3B	33.4	35.1	+1.7%

消融实验 — STI-Bench¶

模型	原始	+See&Trek	静态理解提升	动态理解提升
InternVL3-8B	35.2	36.5	+0.5%	+3.4%
Qwen2.5-VL-7B	30.3	33.2	+1.8%	+4.3%

关键发现¶

See&Trek 对相对方向 (Rel. Dir.) 和接近顺序 (Appr. Order) 提升最显著，这两个任务最依赖运动信息
在物体计数 (Obj. Count) 上偶有下降，因为语义采样可能丢失部分同类物体出现的帧
小模型（1B/3B）受益更大，说明方法能弥补小模型空间理解能力的不足
完全不需要训练和 GPU，即插即用，兼容开源和商业模型

亮点与洞察¶

零成本增强：不修改模型参数、不需要额外训练，仅通过输入增强就能提升空间理解，这是一种非常实用的工程思路
Balanced-TopK 的设计巧妙：通过时间分段+去重，在有限帧预算下最大化信息量，该策略可迁移到视频理解的其他场景
运动重建作为"免费特征"：经典 CV 的 VO 管线为 MLLM 提供了一种结构化的空间先验，相比端到端学习更可靠

局限与展望¶

VO 基于特征匹配，在纹理贫乏或快速运动场景下会失败
Balanced-TopK 依赖 YOLO 的检测能力，对 YOLO 不认识的物体类别无能为力
方法只适用于视频输入，无法处理单图空间推理
对 Object Count 类任务偶有负面影响，需要针对任务类型自适应选择是否启用

评分¶

新颖性: ⭐⭐⭐⭐ 首个零训练空间提示框架，思路简洁有效
实验充分度: ⭐⭐⭐⭐ 覆盖 10+ 模型和两个 benchmark，结果全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表信息量大
价值: ⭐⭐⭐⭐ 工程实用性强，即插即用