SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation¶

会议: NeurIPS 2025
arXiv: 2502.13143
作者: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong 等 (清华大学, 上海交大, Galbot, 北京大学, UIUC, 上海科技大学) 代码: SoFar
领域: 3d_vision
关键词: semantic orientation, 6-DoF manipulation, spatial reasoning, 3D scene graph, point cloud

一句话总结¶

提出"语义朝向"(Semantic Orientation)概念，用自然语言描述物体方向（如 USB 的"插入方向"、杯子的"把手方向"），构建 OrienText300K 大规模数据集训练 PointSO 模型实现零样本朝向预测，并集成为 SoFar 系统实现 6-DoF 场景理解与机器人操作。

研究背景与动机¶

现有空间推理方法主要关注物体位置关系（左/右/前/后），而忽略了物体朝向——这是 6-DoF 精细操作的关键因素。例如： - 用刀切面包需要知道刀刃方向 - 扶正倾倒的酒杯需要知道杯口朝上的方向 - 插充电器需要对准插孔方向

传统朝向表示使用四元数/欧拉角，依赖预定义参考系或模板模型，存在显著局限：

缺乏语义关联：旋转矩阵无法表达"把手方向""插入方向"等功能性语义

泛化性差：需要为每类物体预定义坐标框架，无法处理开放世界中的新物体

VLM 能力缺失：当前视觉语言模型（GPT-4V、LLaVA 等）难以理解和输出精确的物体朝向

核心洞察：人类用自然语言直觉地描述朝向（如"刀刃朝下"），这种语义化的朝向表示可以桥接几何推理与功能语义，实现无参考系的开放词汇朝向理解。

方法详解¶

语义朝向定义¶

对物体 $X$ 和语言描述 $\ell$，语义朝向定义为单位方向向量： $$\mathbf{s}_{\ell}^{X} = \mathcal{F}(X, \ell) \in S(2)$$ 其中 $\ell$ 可以是通用方向（前/上）、物体部件（把手/瓶盖）或交互动作（倒出/插入）。一个物体可关联多个语义朝向，形成集合 $S_X = \{\mathbf{s}_{\ell_1}^X, \ldots, \mathbf{s}_{\ell_n}^X\}$。

OrienText300K 数据集¶

从 Objaverse（约 800K 个 3D 模型）出发，经过严格过滤和标注构建：

数据过滤（6 条准则）：标准正交视图、无地面辅助、合理物体、高质量、可辨识、非场景级。使用 GPT-4o 自动过滤，过滤准确率 88.3%。

数据标注：利用 GPT-4o 作为判别器，解读六视图语义内容生成语义-视图配对。标注准确率 97.1%。

最终得到 350K+ 干净样本，渲染 8M+ 高质量图像。

PointSO 模型架构¶

基于 plain Transformer 的跨模态 3D-语言融合模型：

3D 编码：FPS 采样种子点 → KNN 分组 → 轻量 PointNet 提取局部几何特征
语言编码：CLIP（冻结）提取全局文本特征
跨模态融合：将文本 token 逐元素加到每层的点 token 上（简单但效果最佳）
预测头：MLP 将 [CLS] token 映射为方向向量
损失函数：负余弦相似度 $\mathcal{L}_{\text{cos}}$

SoFar 系统框架¶

整合 PointSO 与基础模型（SAM、Florence-2）的完整推理系统：

6-DoF 场景图构建： 1. VLM 从语言查询提取任务相关物体短语 2. Florence-2 + SAM 执行语言条件分割，获取 3D 点云 3. VLM 生成朝向描述，PointSO 预测语义朝向 4. 构建场景图 $\mathcal{G} = (\mathbf{V}, \mathbf{E})$，节点含物体 ID、3D 位置、包围盒、语义朝向集合

链式思维空间推理： 1. 分析场景与查询，识别相关物体 2. 计算目标位置和朝向 3. 平移 $\mathbf{t}_i = \tilde{\mathbf{c}}_i - \mathbf{c}_i$，旋转通过 Kabsch-Umeyama 算法从初始和目标语义朝向估计

低层运动执行：GSNet 生成抓取候选 → 选择最优抓取 → OMPL 规划无碰撞轨迹

实验关键数据¶

Table 1: Open6DOR 6-DoF 物体重排评估¶

方法	位置 Level 0	位置 Level 1	位置总体	旋转 Level 0	旋转 Level 1	旋转 Level 2	旋转总体	6-DoF 位置	6-DoF 旋转	6-DoF 总体	耗时
GPT-4V	46.8	39.1	45.2	9.1	6.9	11.7	9.2	-	-	-	-
Dream2Real	17.2	11.0	15.9	37.3	27.6	26.2	31.3	26.2	18.7	13.5	358.3s
Open6DOR-GPT	78.6	60.3	74.9	45.7	32.5	49.8	41.1	84.8	40.0	35.6	126.3s
SoFar-LLaVA	86.3	57.9	78.7	62.5	30.2	67.1	48.6	83.0	48.2	40.3	9.6s
SoFar	96.0	81.5	93.0	68.6	42.2	70.1	57.0	92.7	52.7	48.7	8.5s

SoFar 在感知任务上全面领先：位置总体 93.0%（vs Open6DOR-GPT 74.9%，+18.1%）；旋转总体 57.0%（+15.9%）；6-DoF 综合 48.7%（+13.1%）；推理时间仅 8.5s（vs 126.3s，加速约 15 倍）。

执行任务（Open6DOR V2）上，SoFar 同样超越 Octo 和 OpenVLA，6-DoF 总体成功率 18.4% vs 8.0%/8.2%。

Table 4: SimplerEnv Google Robot 评估（成功率）¶

方法	训练数据	Pick Coke Can Avg	Move Near Avg	Open/Close Drawer Avg	总体平均
RT-1-X	OXE	0.490	0.323	0.294	0.397
RT-2-X	OXE	0.823	0.792	0.353	0.661
OpenVLA	OXE	0.545	0.477	0.177	0.411
SoFar	Zero-Shot	0.907	0.740	0.297	0.676

Visual Matching 设置下 SoFar 达到总体 74.9% 成功率，超越所有基线（含使用 OXE 训练数据的方法），且为零样本迁移。Pick Coke Can 任务上 SoFar 达 92.3%。

Table 2: PointSO 语义朝向预测精度¶

模型	45°	30°	15°	5°	平均
PointSO-S	77.34	74.22	67.97	60.94	70.12
PointSO-B	79.69	77.34	70.31	62.50	72.46
PointSO-L	81.25	78.13	72.66	65.63	74.42

即使在 5° 严格阈值下，PointSO-L 仍有 65.63% 准确率。在鲁棒性测试中（单视图、噪声、随机旋转），模型保持较好性能。

Table 6: 6-DoF SpatialBench 空间推理评估¶

方法	位置相对	位置绝对	朝向相对	朝向绝对	总体
GPT-4o	49.4	28.4	44.2	25.8	36.2
SpatialBot	50.9	21.6	39.6	22.9	32.7
RoboPoint	43.8	30.8	33.8	25.8	33.5
SoFar	59.6	33.8	54.6	31.3	43.9

SoFar 总体 43.9%，较次优方法提升超过 18%（相对增幅），在朝向推理上优势尤为明显。

亮点¶

语义朝向概念：首次将物体朝向与自然语言语义绑定，提出无参考系、开放词汇的朝向表示，填补了位置推理和朝向推理之间的空白
大规模数据+自动标注：OrienText300K（350K+ 模型、8M+ 图像）通过 GPT-4o 自动过滤和标注，避免昂贵的机器人数据采集，标注准确率 97.1%
零样本泛化：SoFar 在 Open6DOR、SimplerEnv、真实世界任务上均为零样本，却超越使用大规模机器人轨迹训练的 VLA 模型（Octo、OpenVLA）
跨具身泛化：支持夹爪、吸盘、灵巧手等不同末端执行器，以及操作、导航、VQA 等多任务
推理效率：8.5s 推理时间，比 Open6DOR-GPT 快 15 倍，比 Dream2Real 快 42 倍

局限性¶

解耦系统的级联误差：各子模块（分割、抓取、朝向预测）的误差会累积，如不稳定抓取导致放置时物体旋转偏移
执行成功率仍有提升空间：Open6DOR V2 执行任务中 6-DoF 成功率仅 18.4%，部分物体本身难以操作
依赖深度输入：需要 RGB-D 图像，纯 RGB 场景下需额外深度估计模块
闭环能力有限：当前通过 VLM 错误检测+重试（最多 3 次）近似闭环，非真正的闭环控制
OrienText300K 来源单一：数据来源于 Objaverse，可能存在物体类别分布偏差

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 语义朝向概念具有原创性，将自然语言与3D方向向量绑定的思路新颖且优雅
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖仿真(Open6DOR V1/V2, SimplerEnv)+真实世界(60任务100+物体)+VQA(SpatialBench)，多基线对比，消融完整
写作质量: ⭐⭐⭐⭐ — 概念清晰，图示丰富，系统描述完整；但内容量大导致部分细节压缩
价值: ⭐⭐⭐⭐⭐ — 为6-DoF机器人操作提供了新的表示范式，数据集和基准有望推动后续研究