RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation¶

会议: CVPR2026
arXiv: 2603.14880
代码: lif314/RealVLG-R1
领域: 语义分割
关键词: 视觉语言定位, 机器人抓取, 强化学习微调, 多粒度标注, 零样本泛化, 大规模视觉语言模型

一句话总结¶

提出 RealVLG 框架，包含 11B 级真实世界多粒度标注数据集 RealVLG-11B 和基于强化学习微调的统一模型 RealVLG-R1，首次将视觉语言定位（VLG）与机器人抓取统一到同一范式中，实现从自然语言指令到 bounding box、分割掩码、抓取姿态和接触点的端到端预测，并展现出零样本泛化能力。

研究背景与动机¶

VLG 与抓取的脱节：现有视觉语言定位研究聚焦于粗粒度的目标级定位（bounding box / 分割掩码），而传统机器人抓取方法依赖几何线索，缺乏语言语义引导，二者之间存在明显鸿沟。
合成数据质量不足：Grasp-Anything 等数据集使用 diffusion 模型生成低分辨率合成场景，抓取标注由 RAGT-3/3 自动生成质量有限，语言描述仅覆盖场景或物体类别级别。
缺少细粒度语言描述：现有抓取数据集的语言标注粗糙，缺乏对目标物体属性、空间关系的精细描述，无法支持语言驱动的细粒度操作。
SFT 难以处理多解问题：抓取姿态本质上存在多种可行解，但监督微调会强制拟合单一标签，导致"均值化"预测，物理上不可行。
真实世界数据集规模不足：已有真实世界抓取数据集标注不统一，缺乏分割、检测、语言描述等多模态对齐标注。
零样本能力缺失：基于闭合环境训练的抓取方法可扩展性差，无法在未见过的真实场景中直接部署。

方法详解¶

整体框架¶

RealVLG 由数据集（RealVLG-11B）和模型（RealVLG-R1）两部分组成：

RealVLG-11B 数据集：整合 Cornell、VMRD、OCID-Grasp、GraspNet、GraspClutter6D 等真实世界抓取数据集，统一扩展了 bounding box、分割掩码、矩形抓取姿态、接触点和自然语言描述，覆盖约 16.5 万张图像、800+ 物体实例、130 万标注和约 110 亿抓取示例。
RealVLG-R1 模型：以 Qwen2.5-VL 为骨干，采用强化学习微调（RLVR）策略，通过可验证奖励信号驱动模型学习，统一预测四类输出。

数据标注流水线（关键设计 1）¶

语言标注：从8个视角渲染物体3D模型 → GPT-4o 生成 Meta Description → 再结合图像为每个目标生成包含类别、颜色、形状、空间关系的 Language Instruction
定位验证：Qwen-VL-Max 对 image + language 做 grounding 输出 bounding box → SAM2 生成分割掩码
抓取姿态统一：将 6-DoF 抓取姿态转换为统一矩形抓取表示，并基于分割掩码计算接触点
人工审核：人工交叉验证 Meta Description、Language Instruction、Bbox、Segmentation Mask 四模态一致性，不合格则迭代修正

强化学习微调（关键设计 2）¶

采用 RLVR 范式，用可验证奖励函数 \(R(q,o)\) 替代固定标签监督
使用 GRPO 算法进行 token 级重要性加权的策略优化
进一步采用 GSPO 方法，在序列级引入长度归一化的重要性权重 \(s_i(\theta) = \left(\frac{\pi_\theta(y_i|x)}{\pi_{\theta_{old}}(y_i|x)}\right)^{1/|y_i|}\)，降低长序列方差

任务特定奖励函数（损失设计）¶

Bbox 奖励：基于 IoU 阈值的二值奖励 \(R_{Bbox} = \mathbf{1}(\text{IoU}(B_p, B_{gt}) \geq \tau)\)
分割奖励：结合 IoU 粗定位 + S-measure 细粒度掩码质量 \(R_{Seg} = \mathbf{1}(\text{IoU}) + S_\alpha(M_p, M_{gt})\)
抓取奖励：对 \((x, y, \cos\theta, \sin\theta, w)\) 五个分量分别计算 Huber 损失之和取负
接触点奖励：矩形对齐 IoU 二值奖励 + 两个接触点的 L2 距离惩罚
格式奖励：所有任务统一要求 <think>...</think><answer>...</answer> 格式

实验¶

数据质量评估¶

数据集	MTLD ↑	CLIP Score ↑	\(R_s\) ↑	\(R_g\) ↑	\(R_c\) ↑
Grasp-Anything	27.45	0.54	–	0.38	0.69
Grasp-Anything++	15.14	0.52	–	0.31	0.62
RealVLG-11B	36.49	0.65	0.99	0.69	0.87

RealVLG-11B 在语言多样性（MTLD）、视觉-语言对齐（CLIP Score）和空间一致性上全面超越合成数据集。

RealVLG Benchmark 主实验¶

模型	Seen Bbox (gIoU)	Seen Grasp (mIoU/gAcc)	Novel Bbox (gIoU)	Novel Grasp (mIoU/gAcc)
Qwen-VL-Max	92.3	16.0/16.7	88.4	8.1/5.4
Qwen2.5VL-3B + SFT	56.4	3.4/1.7	57.2	4.4/1.5
RealVLG-R1-3B (GRPO)	87.2	34.7/40.3	78.5	16.3/17.1
RealVLG-R1-7B (GSPO)	89.0	33.6/32.8	88.5	16.5/18.3

消融与关键发现¶

SFT vs RL 微调：SFT 相比 base 模型仅提升约 5% gIoU，而 GRPO/GSPO 提升超过 30%，证明强化学习在多解抓取任务上的显著优势。
GRPO vs GSPO：GRPO 在小模型上抓取精度更高（3B: mIoU 34.7 vs 29.2），GSPO 在大模型上稳定性更好且输出 Rv 率达 100%。
零样本泛化：在 Novel（全新物体）场景下，RealVLG-R1-7B (GSPO) 的 Bbox gIoU 仍达 88.5%，抓取 mIoU/gAcc 为 16.5/18.3%，展示出非平凡的泛化能力。
输出有效率：闭源 Qwen-VL-Max 的 Rv 仅 60-70%，而 RealVLG-R1 所有配置均达 96-100%，说明 RL 微调显著提升了结构化输出的一致性。
仅用 10% 训练数据：RealVLG-R1 和 SFT 仅使用训练集 10% 的数据训练 10 个 epoch，说明方法在数据效率上表现优异。

亮点¶

首个统一 VLG + 抓取的框架：将语义定位和物理交互推理统一到同一模型中，是基于 LVLM 的首个端到端机器人感知模型
高质量数据标注流水线：GPT-4o 自动生成 + Qwen-VL-Max 验证 + SAM2 分割 + 人工审核四重保障
110 亿级真实世界抓取数据集：规模最大的同时包含语义和视觉信息的真实世界感知数据集
强化学习解决多解问题：巧妙地用可验证奖励替代固定标签，优雅解决了抓取姿态多可行解的核心难题
零样本部署能力：无需针对新场景微调即可在真实世界未见环境中执行感知和操作

局限性¶

当前仅支持 2D 矩形抓取姿态，未扩展到 3D 空间和 6-DoF 抓取
Novel 场景下抓取精度（mIoU ~16%）仍有较大提升空间，与检测性能差距明显
分割完全依赖 SAM2 作为 frozen 模块，模型自身不直接生成掩码
实验未报告在真实机器人上的闭环操作成功率
数据集主要覆盖桌面场景，对复杂工业和户外环境的泛化性未验证
推理时需采样 G 组响应计算优势估计，推理效率可能受限

评分¶

新颖性: ⭐⭐⭐⭐ — 首次统一 VLG 与抓取，将 RLVR 范式从 NLP 推理迁移到具身感知
实验充分度: ⭐⭐⭐⭐ — 数据质量评估 + Benchmark + 多基线对比完备，但缺少真实机器人闭环实验
写作质量: ⭐⭐⭐⭐ — 论文结构清晰，数据集构建流程详尽，公式推导完整
价值: ⭐⭐⭐⭐ — 数据集和 Benchmark 对社区有长期价值，统一框架思路值得跟进