跳转至

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

会议: NeurIPS 2025
arXiv: 2502.13143
作者: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong 等 (清华大学, 上海交大, Galbot, 北京大学, UIUC, 上海科技大学) 代码: SoFar
领域: 3d_vision
关键词: semantic orientation, 6-DoF manipulation, spatial reasoning, 3D scene graph, point cloud

一句话总结

提出"语义朝向"(Semantic Orientation)概念,用自然语言描述物体方向(如 USB 的"插入方向"、杯子的"把手方向"),构建 OrienText300K 大规模数据集训练 PointSO 模型实现零样本朝向预测,并集成为 SoFar 系统实现 6-DoF 场景理解与机器人操作。

研究背景与动机

现有空间推理方法主要关注物体位置关系(左/右/前/后),而忽略了物体朝向——这是 6-DoF 精细操作的关键因素。例如: - 用刀切面包需要知道刀刃方向 - 扶正倾倒的酒杯需要知道杯口朝上的方向 - 插充电器需要对准插孔方向

传统朝向表示使用四元数/欧拉角,依赖预定义参考系或模板模型,存在显著局限:

缺乏语义关联:旋转矩阵无法表达"把手方向""插入方向"等功能性语义

泛化性差:需要为每类物体预定义坐标框架,无法处理开放世界中的新物体

VLM 能力缺失:当前视觉语言模型(GPT-4V、LLaVA 等)难以理解和输出精确的物体朝向

核心洞察:人类用自然语言直觉地描述朝向(如"刀刃朝下"),这种语义化的朝向表示可以桥接几何推理与功能语义,实现无参考系的开放词汇朝向理解。

方法详解

语义朝向定义

对物体 \(X\) 和语言描述 \(\ell\),语义朝向定义为单位方向向量: $\(\mathbf{s}_{\ell}^{X} = \mathcal{F}(X, \ell) \in S(2)\)$ 其中 \(\ell\) 可以是通用方向(前/上)、物体部件(把手/瓶盖)或交互动作(倒出/插入)。一个物体可关联多个语义朝向,形成集合 \(S_X = \{\mathbf{s}_{\ell_1}^X, \ldots, \mathbf{s}_{\ell_n}^X\}\)

OrienText300K 数据集

从 Objaverse(约 800K 个 3D 模型)出发,经过严格过滤和标注构建:

数据过滤(6 条准则):标准正交视图、无地面辅助、合理物体、高质量、可辨识、非场景级。使用 GPT-4o 自动过滤,过滤准确率 88.3%。

数据标注:利用 GPT-4o 作为判别器,解读六视图语义内容生成语义-视图配对。标注准确率 97.1%。

最终得到 350K+ 干净样本,渲染 8M+ 高质量图像。

PointSO 模型架构

基于 plain Transformer 的跨模态 3D-语言融合模型:

  1. 3D 编码:FPS 采样种子点 → KNN 分组 → 轻量 PointNet 提取局部几何特征
  2. 语言编码:CLIP(冻结)提取全局文本特征
  3. 跨模态融合:将文本 token 逐元素加到每层的点 token 上(简单但效果最佳)
  4. 预测头:MLP 将 [CLS] token 映射为方向向量
  5. 损失函数:负余弦相似度 \(\mathcal{L}_{\text{cos}}\)

SoFar 系统框架

整合 PointSO 与基础模型(SAM、Florence-2)的完整推理系统:

6-DoF 场景图构建: 1. VLM 从语言查询提取任务相关物体短语 2. Florence-2 + SAM 执行语言条件分割,获取 3D 点云 3. VLM 生成朝向描述,PointSO 预测语义朝向 4. 构建场景图 \(\mathcal{G} = (\mathbf{V}, \mathbf{E})\),节点含物体 ID、3D 位置、包围盒、语义朝向集合

链式思维空间推理: 1. 分析场景与查询,识别相关物体 2. 计算目标位置和朝向 3. 平移 \(\mathbf{t}_i = \tilde{\mathbf{c}}_i - \mathbf{c}_i\),旋转通过 Kabsch-Umeyama 算法从初始和目标语义朝向估计

低层运动执行:GSNet 生成抓取候选 → 选择最优抓取 → OMPL 规划无碰撞轨迹

实验关键数据

Table 1: Open6DOR 6-DoF 物体重排评估

方法 位置 Level 0 位置 Level 1 位置总体 旋转 Level 0 旋转 Level 1 旋转 Level 2 旋转总体 6-DoF 位置 6-DoF 旋转 6-DoF 总体 耗时
GPT-4V 46.8 39.1 45.2 9.1 6.9 11.7 9.2 - - - -
Dream2Real 17.2 11.0 15.9 37.3 27.6 26.2 31.3 26.2 18.7 13.5 358.3s
Open6DOR-GPT 78.6 60.3 74.9 45.7 32.5 49.8 41.1 84.8 40.0 35.6 126.3s
SoFar-LLaVA 86.3 57.9 78.7 62.5 30.2 67.1 48.6 83.0 48.2 40.3 9.6s
SoFar 96.0 81.5 93.0 68.6 42.2 70.1 57.0 92.7 52.7 48.7 8.5s

SoFar 在感知任务上全面领先:位置总体 93.0%(vs Open6DOR-GPT 74.9%,+18.1%);旋转总体 57.0%(+15.9%);6-DoF 综合 48.7%(+13.1%);推理时间仅 8.5s(vs 126.3s,加速约 15 倍)。

执行任务(Open6DOR V2)上,SoFar 同样超越 Octo 和 OpenVLA,6-DoF 总体成功率 18.4% vs 8.0%/8.2%。

Table 4: SimplerEnv Google Robot 评估(成功率)

方法 训练数据 Pick Coke Can Avg Move Near Avg Open/Close Drawer Avg 总体平均
RT-1-X OXE 0.490 0.323 0.294 0.397
RT-2-X OXE 0.823 0.792 0.353 0.661
OpenVLA OXE 0.545 0.477 0.177 0.411
SoFar Zero-Shot 0.907 0.740 0.297 0.676

Visual Matching 设置下 SoFar 达到总体 74.9% 成功率,超越所有基线(含使用 OXE 训练数据的方法),且为零样本迁移。Pick Coke Can 任务上 SoFar 达 92.3%。

Table 2: PointSO 语义朝向预测精度

模型 45° 30° 15° 平均
PointSO-S 77.34 74.22 67.97 60.94 70.12
PointSO-B 79.69 77.34 70.31 62.50 72.46
PointSO-L 81.25 78.13 72.66 65.63 74.42

即使在 5° 严格阈值下,PointSO-L 仍有 65.63% 准确率。在鲁棒性测试中(单视图、噪声、随机旋转),模型保持较好性能。

Table 6: 6-DoF SpatialBench 空间推理评估

方法 位置相对 位置绝对 朝向相对 朝向绝对 总体
GPT-4o 49.4 28.4 44.2 25.8 36.2
SpatialBot 50.9 21.6 39.6 22.9 32.7
RoboPoint 43.8 30.8 33.8 25.8 33.5
SoFar 59.6 33.8 54.6 31.3 43.9

SoFar 总体 43.9%,较次优方法提升超过 18%(相对增幅),在朝向推理上优势尤为明显。

亮点

  • 语义朝向概念:首次将物体朝向与自然语言语义绑定,提出无参考系、开放词汇的朝向表示,填补了位置推理和朝向推理之间的空白
  • 大规模数据+自动标注:OrienText300K(350K+ 模型、8M+ 图像)通过 GPT-4o 自动过滤和标注,避免昂贵的机器人数据采集,标注准确率 97.1%
  • 零样本泛化:SoFar 在 Open6DOR、SimplerEnv、真实世界任务上均为零样本,却超越使用大规模机器人轨迹训练的 VLA 模型(Octo、OpenVLA)
  • 跨具身泛化:支持夹爪、吸盘、灵巧手等不同末端执行器,以及操作、导航、VQA 等多任务
  • 推理效率:8.5s 推理时间,比 Open6DOR-GPT 快 15 倍,比 Dream2Real 快 42 倍

局限性

  • 解耦系统的级联误差:各子模块(分割、抓取、朝向预测)的误差会累积,如不稳定抓取导致放置时物体旋转偏移
  • 执行成功率仍有提升空间:Open6DOR V2 执行任务中 6-DoF 成功率仅 18.4%,部分物体本身难以操作
  • 依赖深度输入:需要 RGB-D 图像,纯 RGB 场景下需额外深度估计模块
  • 闭环能力有限:当前通过 VLM 错误检测+重试(最多 3 次)近似闭环,非真正的闭环控制
  • OrienText300K 来源单一:数据来源于 Objaverse,可能存在物体类别分布偏差

相关工作

  • 空间推理:SpatialVLM、SpatialBot、RoboPoint 等侧重位置关系,未建模朝向;SoFar 将推理扩展到完整 6-DoF
  • 机器人操作:RT-1/RT-2(端到端策略)、VoxPoser(3D 值图)、CoPa(可泛化操作)均未显式建模语义朝向
  • VLA 模型:Octo、OpenVLA、SpatialVLA 等需要大规模机器人数据训练,泛化性受限;SoFar 零样本即优于它们
  • 物体姿态估计:传统方法依赖 CAD 模型或类别级模板,无法处理开放世界新物体;语义朝向提供了更灵活的替代方案
  • 场景图:传统场景图编码物体关系但缺少朝向信息;SoFar 的 6-DoF 场景图首次融入语义朝向

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 语义朝向概念具有原创性,将自然语言与3D方向向量绑定的思路新颖且优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖仿真(Open6DOR V1/V2, SimplerEnv)+真实世界(60任务100+物体)+VQA(SpatialBench),多基线对比,消融完整
  • 写作质量: ⭐⭐⭐⭐ — 概念清晰,图示丰富,系统描述完整;但内容量大导致部分细节压缩
  • 价值: ⭐⭐⭐⭐⭐ — 为6-DoF机器人操作提供了新的表示范式,数据集和基准有望推动后续研究

相关论文