Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning¶

会议: CVPR 2026
arXiv: 2510.27606
代码: GitHub
领域: 图像生成
关键词: 空间理解, 自监督学习, 强化学习RLVR, 大视觉语言模型, 深度感知

一句话总结¶

本文提出Spatial-SSRL，一种自监督强化学习范式，通过从普通RGB/RGB-D图像自动构造五种pretext任务（patch重排、翻转识别、裁剪修补、深度排序、相对3D位置预测），利用GRPO优化LVLM的空间理解能力，在七个空间benchmark上平均提升3.89%-4.63%，且无需人工标注或外部工具。

研究背景与动机¶

领域现状：大视觉语言模型（LVLM）在VQA、图像描述等任务上接近饱和，但空间理解能力远低于人类水平。现有提升方法分为两类：数据驱动的SFT（构造空间QA对微调）和RLVR（用可验证奖励做强化学习）。

现有痛点：SFT方法依赖昂贵的人工标注或GPT-4生成QA对，且容易过拟合到数据集特定模式。工具型方法（如使用深度估计器、目标检测器等）pipeline复杂、计算成本高。模拟环境方法（rendering 3D场景）与真实世界存在domain gap。RLVR方法受限于特定环境（如3D扫描），数据规模和覆盖范围有限。

核心矛盾：空间理解需要大规模可验证的监督信号，但现有方法获取这类信号的代价太高——要么需要昂贵的人工标注，要么需要复杂的工具链，要么受限于特定3D数据集。

本文目标 设计一种零标注、无工具、可扩展的自监督方案来生成可验证的空间理解训练信号，并与RLVR训练范式自然结合。

切入角度：图像内部固有的结构一致性（相对深度、几何一致性、视角不变性）本身就提供了确定性可验证的监督信号。将视觉自监督学习（SSL）的pretext任务重新定位为RLVR的奖励函数，而非传统的特征预训练目标。

核心 idea：把经典的SSL任务（jigsaw、翻转检测等）改造成LVLM的QA prompt + 确定性验证函数，直接用GRPO做后训练。

方法详解¶

整体框架¶

Spatial-SSRL分为两个阶段：（1）自监督任务构造——从RGB/RGB-D图像自动生成五种pretext任务的QA对（Spatial-SSRL-81k数据集，100%标注准确率）；（2）RL训练——先SFT冷启动让模型熟悉任务格式，再用GRPO优化。五种任务覆盖2D布局理解（depth-free）和3D空间推理（depth-based）。

关键设计¶

Shuffled Patch Reordering（图像块重排）:
- 功能：将图像分成 \(M \times N\) 的grid，随机打乱，要求模型预测恢复原图的排列 \(\pi^{-1}\)
- 核心思路：对图像 \(I\) 划分patch网格 \(\mathcal{X} = \{x_{i,j}\}\)，应用随机排列 \(\pi\) 得到打乱图像，ground-truth答案为逆排列 \(\pi^{-1} = [\pi^{-1}(0), \pi^{-1}(1), \ldots, \pi^{-1}(M \times N - 1)]\)。可选地mask一个随机patch为白色以增加难度，防止模型靠边缘匹配取巧
- 设计动机：恢复打乱的patch排列本质上需要理解全局2D布局一致性和相对位置关系，这些能力直接迁移到理解真实场景中的物体排列
Flipped Patch Recognition（翻转识别）:
- 功能：随机选一个patch做水平或垂直翻转，要求模型识别翻转的patch索引和翻转方向
- 核心思路：对选中patch \(\hat{x}_t\) 以等概率做 \(x_{\text{vert}}(r,c) = x(P_H - 1 - r, c)\) 或 \(x_{\text{horz}}(r,c) = x(r, P_W - 1 - c)\)，答案为 \([t, d]\)
- 设计动机：检测细微的方向违反需要对局部几何、镜像对称性和方向线索（文字/人脸/阴影）的敏感度
Cropped Patch Inpainting（裁剪修补）:
- 功能：随机裁剪一个区域mask为黑色，给出4个候选patch（含3个干扰项），要求模型选出正确的填充patch
- 核心思路：干扰项设计巧妙——90°旋转版、内部子区域、外部扩展区域，都与正确答案视觉上相似，迫使模型关注精细的纹理连续性和语义一致性
- 设计动机：测试纹理-上下文匹配和细粒度结构推理能力
Regional Depth Ordering（区域深度排序）:
- 功能：选3个深度明确分离的区域，标记数字标签后打乱展示，要求模型按从近到远排序
- 核心思路：从depth map \(D\) 中选择满足约束的3个区域：区域内深度范围 \(r(R_i) < r_{\max} = 0.15\)（区域内一致），区域间间隔 \(d(R_i, R_{i+1}) > d_{\min} = 0.05\)（区域间可分）
- 设计动机：排序任务需要整合深度线索、透视理解和序数推理，是3D场景理解的基础能力
Relative 3D Position Prediction（相对3D位置预测）:
- 功能：给定物体朝向，预测另一个点在该物体坐标系中的相对位置（左/右/前/后的组合）
- 核心思路：通过2D刚体变换将相机坐标系的 \((x_2, z_2)\) 转换到物体坐标系 \((\tilde{x}_2, \tilde{z}_2)\)，根据阈值判断方向标签 \((\tilde{p}_x, \tilde{p}_z)\)。物体朝向 \(\theta\) 从四个基本方向均匀采样
- 设计动机：需要心象旋转、自我中心坐标变换和深度集成能力，是空间理解中最高阶的任务

损失函数 / 训练策略¶

冷启动SFT：先在~3600样本上做5 epoch的SFT（lr=\(1 \times 10^{-5}\)），让模型熟悉任务格式
GRPO优化：KL正则权重0.01，每样本rollout 5次，temperature 1.0，batch size 128，lr=\(1 \times 10^{-6}\)，360步
奖励设计：\(r = 0.9 \cdot r_{\text{acc}} + 0.1 \cdot r_{\text{fmt}}\)，准确率权重远高于格式权重
使用think标签引导推理链输出

实验关键数据¶

主实验（7个空间理解benchmark）¶

模型	Spatial457	3DSRBench	SpatialEval	QSpatial+	What'sUp	ViewSpatial	VSI-Bench	Avg
Qwen2.5-VL-3B	33.70	50.30	54.65	33.66	85.85	35.38	27.84	45.91
Spatial-SSRL-3B	46.07	51.72	59.59	39.60	86.71	36.62	33.49	50.54
Δ	+12.37	+1.42	+4.94	+5.95	+0.86	+1.24	+5.65	+4.63
Qwen2.5-VL-7B	44.67	53.39	62.37	46.53	86.95	36.83	38.08	52.69
Spatial-SSRL-7B	53.34	56.53	64.03	54.46	90.61	37.81	39.29	56.58
Δ	+8.67	+3.14	+1.66	+7.93	+3.66	+0.98	+1.21	+3.89

所有7个benchmark上均有提升，Spatial457上最大提升+12.37%。

推理能力验证¶

配置	Avg准确率	说明
Qwen2.5-VL-7B (无推理)	52.69	baseline
Qwen2.5-VL-7B (有推理)	49.58	推理反而降低！(-3.11)
Spatial-SSRL-7B (有推理)	56.58	推理链真正有效(+3.89)

baseline开启推理反而掉点（What'sUp: 86.95→70.61），说明基础模型缺乏有效的空间推理能力。Spatial-SSRL通过RL训练成功教会了模型生成有效推理链。

关键发现¶

3D推理类benchmark获益最多（Spatial457 +12.37%, QSpatial+ +7.93%），验证depth-based任务的贡献
基础模型开启CoT推理反而掉点是重要发现——说明空间推理能力需要专门训练而非简单的prompt engineering
Qwen3-VL-4B上也有+1.29%空间提升且通用VQA也涨+1.18%，说明方法不损害通用能力
Spatial-SSRL-81k数据集实现100%标注准确率（因为所有答案来自确定性变换），这是依赖noisy检测器的方法无法达到的
冷启动SFT很必要——直接RL训练导致生成正确格式的成功率<5%

亮点与洞察¶

SSL + RLVR的结合范式是最大创新点。SSL pretext任务天然提供确定性可验证答案，与RLVR要求的verifiable reward完美契合——这个insight可能催生大量follow-up工作将其他SSL任务引入LVLM后训练
五种任务的互补设计覆盖了从2D布局到3D空间关系的完整层次：patch reordering（全局布局）→ flip recognition（局部方向）→ inpainting（纹理一致性）→ depth ordering（3D深度）→ 3D position（自我中心坐标变换）
干扰项设计的巧妙之处：inpainting任务中用旋转版、内部子区域、外部扩展区域作为干扰项，防止模型靠低级特征取巧

局限与展望¶

依赖depth map的两个任务需要RGB-D数据，限制了数据源（虽然depth可以用单目估计但会引入噪声）
五种任务的相对权重未做细致调优，当前是等比例混合
仅在Qwen2.5-VL和Qwen3-VL上测试，对其他LVLM架构（如LLaVA、InternVL）的泛化性未知
81k的数据规模相比SFT方法已经较小但RL训练效率还有提升空间
可以探索更多SSL任务——如颜色通道重排、频域变换预测、多视角一致性验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ SSL pretext任务作为RLVR reward的范式具有开创性，五种任务设计全面
实验充分度: ⭐⭐⭐⭐ 7个benchmark + 3个base model + 通用能力验证，但消融可以更详细
写作质量: ⭐⭐⭐⭐⭐ 方法动机清晰，任务设计的数学形式化严谨，图示优秀
价值: ⭐⭐⭐⭐⭐ 零标注、可扩展、与RLVR天然兼容，为LVLM空间理解提升开辟了新路径