Spatial Preference Rewarding for MLLMs Spatial Understanding¶

会议: ICCV 2025
arXiv: 2510.14374
代码: SPR
领域: 多模态大模型 / 空间理解
关键词: MLLM, 空间理解, 偏好优化, DPO, 目标定位

一句话总结¶

提出 SPR（Spatial Preference Rewarding）框架，通过语义分数和定位分数自动构建偏好数据对，利用 DPO 训练 MLLM 区分高精度定位（正样本）和模糊/错误定位（负样本），大幅提升细粒度空间理解能力，尤其在高 IoU 阈值下效果显著。

研究背景与动机¶

多模态大语言模型（MLLM）在空间理解任务上取得了显著进展，如引用对话（referential dialogue）、定位描述（grounding captioning）等。然而 MLLM 在细粒度空间感知上仍存在明显不足：

区域描述模糊：模型生成的 grounded 区域描述经常不够详细，对象定位不准确

注意力偏移：模型可能被查询区域外的对象"分心"，未能聚焦于用户指定的区域

缺乏正负样本反馈：现有指令微调（SFT）仅优化模型模仿正样本（ground truth），无法惩罚推理时产生的错误定位。这与传统目标检测中正负样本训练机制的缺失形成对比

核心矛盾：SFT 训练范式缺少对 MLLM 实际输出质量的直接监督——模型知道什么是"对的"，但不知道什么是"错的"。

切入角度：将偏好优化（DPO）引入空间理解领域，让模型学会区分精确定位和错误定位，而非仅仅模仿标注。现有偏好优化工作主要聚焦于减少幻觉，细粒度空间对齐的偏好优化几乎空白。

方法详解¶

整体框架¶

SPR 采用三步式 DPO 流水线： 1. 收集 MLLM 原始响应：构建随机区域查询 → 多样化提示生成 grounded 区域描述 2. 评估与排序：语义分数 + 定位分数综合评估 → 最优/最差配对 → 精化最优描述 3. 偏好优化训练：DPO + LoRA 微调

关键设计¶

1. 随机区域查询构建¶

现有区域描述数据集过于简单（如"停在街上的车"等短语），难以产生有足够差异性的偏好数据对。因此作者设计了从头构建查询区域的方案：

从 Objects365 数据集中筛选对象丰富的图像
随机选一个标注框作为起始区域
迭代扩展到最近的邻近对象，直到包含 4+ 个对象
构建多样化提示（含裁剪区域图像 + 对象引用），引导 MLLM 生成多个候选区域描述

2. 语义分数（Semantic Score）¶

评估描述与查询区域的语义匹配度：

\[S_{sem} = \frac{1}{2} \left( S(I_{crop}, T) + S_{local}(I, T) \right)\]

\(S(I_{crop}, T)\)：裁剪区域图像与描述文本的 CLIP 余弦相似度
\(S_{local}(I, T)\)：完整图像通过局部注意力层提取区域嵌入的相似度

设计动机：仅用裁剪图像会忽略周围上下文；结合局部注意力的完整图像相似度弥补了这一不足。

3. 定位分数（Localization Score）¶

评估描述中对象的定位准确度和详细程度：

用 Grounding DINO 从描述文本提取对象框
结合原始标注框形成 ground truth 集合
合并 MLLM 描述中的定位框和 Grounding DINO 结果作为预测集合
计算预测框与 GT 框的平均 IoU（阈值 0.5）

\[S_{loc} = \frac{1}{n} \sum_i^n \max_j \mathbf{p}[i,j]\]

鼓励模型描述更多对象并给出准确的定位框。

4. 综合评分与描述精化¶

\[S = \lambda S_{sem} + (1-\lambda) S_{loc}, \quad \lambda = 0.8\]

最高分和最低分的描述配对为偏好/拒绝数据
精化步骤：对偏好描述进一步提升定位质量——保留 IoU>0.5 的预测，将其定位框替换为匹配的 GT 框，增大偏好/拒绝对之间的定位差异

损失函数 / 训练策略¶

DPO 损失：

\[\mathcal{L} = -\mathbb{E}_{(x,y_w,y_l)} \left[ \log\sigma\left(\beta \log\frac{\pi_*(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log\frac{\pi_*(y_l|x)}{\pi_{ref}(y_l|x)}\right) \right]\]

基础模型作为冻结的参考策略 \(\pi_{ref}\)
策略模型 \(\pi_*\) 通过 LoRA 更新权重
训练在 10k images（Objects365）上构建偏好数据
1×A100，Ferret-7B 约 3 小时，13B 约 5 小时

实验关键数据¶

主实验（Referring Expression Comprehension，Acc@0.5）¶

模型	RefCOCO val	RefCOCO+ val	RefCOCOg val	Flickr30k val
Ferret-7B	87.49	80.78	83.93	80.39
+ SPR	88.39	82.07	85.58	81.53
Ferret-13B	89.48	82.81	85.83	81.13
+ SPR	89.94	83.29	86.46	81.82
CogVLM-17B	92.76	88.68	89.75	-
+ SPR	92.95	88.83	90.01	-

SPR 在三个不同基线 MLLM 上一致性地提升了性能。

消融实验（不同 IoU 阈值下的 REC）¶

IoU 阈值	0.5	0.6	0.7	0.8	0.9
Ferret-7B	83.91	81.28	76.72	67.02	43.25
+ SPR	84.93	82.36	78.42	70.09	52.21
提升	+1.02	+1.08	+1.70	+3.07	+8.96

SPR 的提升随 IoU 阈值升高而显著增大——在 0.9 阈值下 7B 模型提升 8.96 个点，表明 SPR 真正提升了定位精度而非仅仅增加了检测数量。

关键发现¶

高 IoU 阈值下效果放大：SPR 在严格定位要求下优势更加明显（IoU=0.9 时 +8.96 点）
DPO > SFT：仅用接受数据做 SFT 只获得约一半的提升（REC +0.44 vs DPO +1.02）
语义分数和定位分数缺一不可：λ=0 或 λ=1 都明显弱于 λ=0.8 的综合配置
描述精化对多目标定位尤为关键：在 Phrase Grounding 中提升更为显著
空间能力提升带来通用能力增益：GQA、TextVQA 等通用 benchmark 也有提升，同时 POPE 幻觉指标也有改善

亮点与洞察¶

将传统检测的正负样本思想迁移到 MLLM：填补了 MLLM 空间理解领域缺乏负样本监督的空白
全自动流水线：无需外部 MLLM 或人工标注，可扩展性强
极低的训练成本：1 个 A100，3-5 小时即可完成
模型无关性：在 Ferret、LLaVA-OV、CogVLM 三个不同 MLLM 上均有效
高 IoU 阈值的实验设计：区别于常规只看 0.5 阈值，提供了更深入的定位精度分析

局限与展望¶

CLIP 作为语义评分器可能对某些细粒度差异不够敏感
偏好数据仅基于 Objects365 构建，领域泛化性有待验证
未探索 SFT 和 DPO 的融合训练策略
定位分数依赖 Grounding DINO 的检测质量
仅验证了 2D 图像场景，未扩展到视频或 3D 空间理解

评分¶

新颖性: ⭐⭐⭐⭐ — 将偏好优化聚焦于空间定位精度，填补了重要空白
技术深度: ⭐⭐⭐ — 方法简洁有效，但技术复杂度不高
实用价值: ⭐⭐⭐⭐⭐ — 低成本、即插即用，对 MLLM 空间理解有直接提升
写作质量: ⭐⭐⭐⭐ — 清晰系统，实验设计出色