跳转至

3EED: Ground Everything Everywhere in 3D

会议: NeurIPS 2025
arXiv: 2511.01755
代码: https://github.com/worldbench/3EED
领域: 3D视觉 / 视觉定位
关键词: 3D visual grounding, 多平台, 多模态, 室外场景, 跨平台迁移

一句话总结

提出 3EED——首个大规模多平台(车、无人机、四足机器人)、多模态(LiDAR+RGB)室外 3D 视觉定位基准,包含超 12.8 万目标和 2.2 万语言描述,规模是现有室外数据集的 10 倍;同时设计了跨平台对齐、多尺度采样和尺度自适应融合的基线方法,揭示了跨平台 3D grounding 的巨大性能差距。

背景与动机

3D 视觉定位(visual grounding)要求模型根据自然语言在 3D 场景中定位目标物体,是具身智能(导航、交互、态势感知)的核心能力。现有基准几乎全集中在室内 RGB-D 小场景(ScanRefer、Nr3D 等),物体局限于家具类别,不满足真实世界需求。少量室外数据集(Talk2Car、KITTI360Pose 等)也仅限于单一平台(车载 LiDAR),规模小、模态单一,缺乏多平台视角的多样性。现实中,不同具身智能体(自动驾驶车、无人机、四足)的传感器配置、视角几何、点云密度差异巨大,迫切需要统一的室外多平台 grounding 基准。

核心问题

  1. 缺乏多平台室外 3D grounding 数据集:现有数据集要么局限于室内,要么局限于单一车载平台,无法评估跨平台泛化能力。
  2. 跨平台域差距:不同平台的视角(俯拍/平视/仰视)、LiDAR 密度、目标尺度分布差异极大,室内方法直接迁移到室外多平台场景性能崩溃。
  3. 标注效率问题:大规模 3D 目标标注和语言描述生成成本高,需要高效的半自动流水线。

方法详解

整体框架

3EED 工作分两大部分:数据集构建基线方法设计

数据集方面,从 Waymo(车载)和 M3ED(无人机+四足)收集同步的 LiDAR 和 RGB 数据,通过多检测器融合 + 跟踪 + 人工校验的三阶段流水线获得高质量 3D 框标注,再利用 Qwen2-VL-72B 生成结构化语言描述,经人工验证过滤。

基线方法方面,在 BUTD-DETR 基础上改进:PointNet++ 编码 LiDAR 点云,冻结 RoBERTa 编码语言,Transformer 解码器预测 3D 框。额外引入三个模块:跨平台对齐(CPA)、多尺度采样(MSS)和尺度自适应融合(SAF)。

关键设计

  1. 数据标注流水线:
  2. 3D 框标注: 车载直接用 Waymo 官方标注;无人机/四足通过多检测器(PV-RCNN、CenterPoint等)生成伪标签 → KDE 融合 + 3D 多目标跟踪(CTRL)补全 → Tokenize-Anything 投影到 RGB 做类别验证 → 人工精修。整套流程限制人工为每帧约 100 秒。
  3. 语言描述: 将 3D 框投影到 RGB 图上,配合五槽结构化提示(类别/状态/位置/方位/空间关系)输入 Qwen2-VL-72B 生成描述,再经平台无关的改写规则统一术语,最后 5 名标注员人工验证/修订。所有描述基于观察者视角(相机视角),确保跨平台一致。

  4. 跨平台对齐 (CPA): 在特征提取前,将每个场景旋转对齐到重力方向(消除roll/pitch),对无人机数据额外做高度偏移归一化。把所有平台放入统一的重力对齐坐标系中,使得"上方/下方/后面"等空间关系在不同平台间编码一致。这是一步一次性几何归一化,不需要修改网络架构,但让骨干网将容量用于目标/内容特征学习而非姿态校正。

  5. 多尺度采样 (MSS): PointNet++ 每层使用多个半径(从 0.6m 到 4.8m)查询邻域,同时保留近处目标的精细局部细节和远处稀疏目标的广域上下文。避免单一半径方案的失败模式:小半径导致远距离无邻居点,大半径导致近距离过度平滑。这直接应对了 LiDAR 随距离稀疏化的问题。

  6. 尺度自适应融合 (SAF): 将所有半径计算的特征送入轻量 MLP 生成逐点动态权重,融合多尺度特征为单一嵌入,自适应地强调最能解释局部几何的半径尺度。防止"错误尺度"的决策,在大密度变化的跨平台场景中稳定预测。参数和延迟开销极小。

损失函数 / 训练策略

  • 匈牙利匹配将预测框分配到真值框(类似 DETR)
  • 损失组合:框回归 L1 + 3D GIoU + token 级分类损失 + 对称对比对齐损失(query-to-token 和 token-to-query 双向)
  • 目标性监督:focal loss,将每个真值中心最近的 4 个点标为正样本
  • 点云统一下采样到 16,384 点,PointNet++ 从头训练,RoBERTa 冻结
  • 学习率:视觉编码器 1e-3,其它 1e-4,训练 100 epochs,2×RTX 4090
  • 多目标 grounding 设置:每个目标关联独立 positive map,匈牙利匹配一对一分配,训练 200 epochs

实验关键数据

跨平台 grounding(多平台联合训练,Acc@25 %)

平台 指标 本文 BUTD-DETR WildRefer 提升
Vehicle Acc@25 63.84
Drone Acc@25 53.45
Quadruped Acc@25 53.31
平均 Acc@25 +12.29

跨平台零样本迁移(仅在 Vehicle 训练)

测试平台 指标 BUTD-DETR 本文
Vehicle(域内) Acc@25 52.38
Drone(零样本) Acc@25 1.54 大幅提升
Quadruped(零样本) Acc@25 10.18 大幅提升

多目标 grounding(Vehicle 平台)

方法 Acc@25 mIoU
BUTD-DETR 25.40 47.88
本文 大幅提升 大幅提升

消融实验要点

  • CPA 贡献最大: 去掉 CPA 后 Vehicle Acc@25 从 80.86 降到 71.76(-9.10),是跨平台对齐的关键
  • MSS 次之: 去掉 MSS 后 Vehicle Acc@25 降到 75.65(-5.21),解决远距离点云稀疏问题
  • SAF 补充: 去掉 SAF 后 Quadruped Acc@25 从 53.31 降到 51.98(-1.33),稳定密度变化下的预测
  • 场景复杂度影响: Quadruped 上从 1-3 个目标(Acc@25=71.23)到 7-9 个目标(30.75)急剧下降
  • 平台特性: Drone 最难(仅 102 点/目标 vs Vehicle 462 点/目标),且场景密度最高(8.05 目标/场景)

亮点

  • 首个多平台统一的室外 3D grounding 基准:覆盖车/无人机/四足三种截然不同的具身视角,是领域的重要基础设施贡献
  • 标注流水线设计精巧:多检测器融合 + 跟踪 + 分类验证 + 人工精修的级联方案,兼顾效率和质量;VLM 生成 + 人工筛选的语言标注方案可复用
  • CPA 简单但高效:仅做一次坐标系旋转对齐就能带来 +9.10 的 Acc@25 提升,说明室外 3D 任务中几何归一化是被忽视但极其重要的预处理
  • 揭示了跨平台 grounding 的巨大挑战:BUTD-DETR 从 Vehicle 迁移到 Drone 的 Acc@25 从 52.38 骤降到 1.54,几乎完全失效,这为后续研究指明了方向

局限性 / 可改进方向

  • 仅聚焦两类目标(Vehicle 和 Pedestrian),未覆盖更多户外物体类别(交通标志、锥桶等)
  • 静态场景:不涉及时序动态建模和对话式交互
  • 纯 LiDAR 基线:提出的基线方法只用 LiDAR 点云,未充分利用 RGB 图像信息做多模态融合
  • 假设描述准确:未考虑歧义、矛盾或噪声文本输入
  • 传感器覆盖有限:仅 LiDAR+RGB,未探索热成像、事件相机等更多模态
  • 潜在扩展: 融合 RGB 视觉特征(CLIP/DINOv2)做多模态 grounding;引入时序推理;扩展到开放词汇类别

与相关工作的对比

  • vs ScanRefer/Nr3D: 室内小场景、密集 RGB-D、家具类别 → 3EED 是室外大尺度、稀疏 LiDAR、多平台。根本性地拓展了 3D grounding 的应用范围
  • vs Talk2Car/Talk2LiDAR: 仅车载单平台,规模小(几千条表达)→ 3EED 多平台、2.2 万表达、12.8 万目标,规模大 10 倍
  • vs WildRefer: 最相关的工作,也做了室外多平台 grounding,但本文在数据规模、标注质量和跨平台评估协议上更全面,且提出了针对性的平台感知基线

启发与关联

  • 跨平台对齐(CPA)的思路可以推广到其他跨域 3D 感知任务(如域自适应 3D 检测),简单的几何归一化往往比复杂的网络设计更有效
  • VLM + 人工验证的标注流水线是一个通用范式,可以应用于其他 3D 语言数据集的高效构建
  • ideas/3d_vision/20260317_neural_op_ov_3d_seg.md 中的开放词汇 3D 分割方向相关:如果将 grounding 扩展为开放词汇 3D 定位,可以结合该方向
  • 多平台 grounding 本质上是一个域泛化问题,可以借鉴 domain generalization 的思路(如风格迁移、元学习)

评分

  • 新颖性: ⭐⭐⭐⭐ 首个多平台室外 3D grounding 基准是重要贡献,但基线方法的技术创新相对有限
  • 实验充分度: ⭐⭐⭐⭐⭐ 评估协议设计全面(域内/跨域/多目标/联合训练),消融充分,数据统计详尽
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富,但内容冗长(含附录篇幅较大)
  • 价值: ⭐⭐⭐⭐ 数据集对领域有重要推动作用,揭示了跨平台 grounding 的关键挑战,但方法层面启发有限