3EED: Ground Everything Everywhere in 3D¶
会议: NeurIPS 2025
arXiv: 2511.01755
代码: https://github.com/worldbench/3EED
领域: 3D视觉 / 视觉定位
关键词: 3D visual grounding, 多平台, 多模态, 室外场景, 跨平台迁移
一句话总结¶
提出 3EED——首个大规模多平台(车、无人机、四足机器人)、多模态(LiDAR+RGB)室外 3D 视觉定位基准,包含超 12.8 万目标和 2.2 万语言描述,规模是现有室外数据集的 10 倍;同时设计了跨平台对齐、多尺度采样和尺度自适应融合的基线方法,揭示了跨平台 3D grounding 的巨大性能差距。
背景与动机¶
3D 视觉定位(visual grounding)要求模型根据自然语言在 3D 场景中定位目标物体,是具身智能(导航、交互、态势感知)的核心能力。现有基准几乎全集中在室内 RGB-D 小场景(ScanRefer、Nr3D 等),物体局限于家具类别,不满足真实世界需求。少量室外数据集(Talk2Car、KITTI360Pose 等)也仅限于单一平台(车载 LiDAR),规模小、模态单一,缺乏多平台视角的多样性。现实中,不同具身智能体(自动驾驶车、无人机、四足)的传感器配置、视角几何、点云密度差异巨大,迫切需要统一的室外多平台 grounding 基准。
核心问题¶
- 缺乏多平台室外 3D grounding 数据集:现有数据集要么局限于室内,要么局限于单一车载平台,无法评估跨平台泛化能力。
- 跨平台域差距:不同平台的视角(俯拍/平视/仰视)、LiDAR 密度、目标尺度分布差异极大,室内方法直接迁移到室外多平台场景性能崩溃。
- 标注效率问题:大规模 3D 目标标注和语言描述生成成本高,需要高效的半自动流水线。
方法详解¶
整体框架¶
3EED 工作分两大部分:数据集构建和基线方法设计。
数据集方面,从 Waymo(车载)和 M3ED(无人机+四足)收集同步的 LiDAR 和 RGB 数据,通过多检测器融合 + 跟踪 + 人工校验的三阶段流水线获得高质量 3D 框标注,再利用 Qwen2-VL-72B 生成结构化语言描述,经人工验证过滤。
基线方法方面,在 BUTD-DETR 基础上改进:PointNet++ 编码 LiDAR 点云,冻结 RoBERTa 编码语言,Transformer 解码器预测 3D 框。额外引入三个模块:跨平台对齐(CPA)、多尺度采样(MSS)和尺度自适应融合(SAF)。
关键设计¶
- 数据标注流水线:
- 3D 框标注: 车载直接用 Waymo 官方标注;无人机/四足通过多检测器(PV-RCNN、CenterPoint等)生成伪标签 → KDE 融合 + 3D 多目标跟踪(CTRL)补全 → Tokenize-Anything 投影到 RGB 做类别验证 → 人工精修。整套流程限制人工为每帧约 100 秒。
-
语言描述: 将 3D 框投影到 RGB 图上,配合五槽结构化提示(类别/状态/位置/方位/空间关系)输入 Qwen2-VL-72B 生成描述,再经平台无关的改写规则统一术语,最后 5 名标注员人工验证/修订。所有描述基于观察者视角(相机视角),确保跨平台一致。
-
跨平台对齐 (CPA): 在特征提取前,将每个场景旋转对齐到重力方向(消除roll/pitch),对无人机数据额外做高度偏移归一化。把所有平台放入统一的重力对齐坐标系中,使得"上方/下方/后面"等空间关系在不同平台间编码一致。这是一步一次性几何归一化,不需要修改网络架构,但让骨干网将容量用于目标/内容特征学习而非姿态校正。
-
多尺度采样 (MSS): PointNet++ 每层使用多个半径(从 0.6m 到 4.8m)查询邻域,同时保留近处目标的精细局部细节和远处稀疏目标的广域上下文。避免单一半径方案的失败模式:小半径导致远距离无邻居点,大半径导致近距离过度平滑。这直接应对了 LiDAR 随距离稀疏化的问题。
-
尺度自适应融合 (SAF): 将所有半径计算的特征送入轻量 MLP 生成逐点动态权重,融合多尺度特征为单一嵌入,自适应地强调最能解释局部几何的半径尺度。防止"错误尺度"的决策,在大密度变化的跨平台场景中稳定预测。参数和延迟开销极小。
损失函数 / 训练策略¶
- 匈牙利匹配将预测框分配到真值框(类似 DETR)
- 损失组合:框回归 L1 + 3D GIoU + token 级分类损失 + 对称对比对齐损失(query-to-token 和 token-to-query 双向)
- 目标性监督:focal loss,将每个真值中心最近的 4 个点标为正样本
- 点云统一下采样到 16,384 点,PointNet++ 从头训练,RoBERTa 冻结
- 学习率:视觉编码器 1e-3,其它 1e-4,训练 100 epochs,2×RTX 4090
- 多目标 grounding 设置:每个目标关联独立 positive map,匈牙利匹配一对一分配,训练 200 epochs
实验关键数据¶
跨平台 grounding(多平台联合训练,Acc@25 %)¶
| 平台 | 指标 | 本文 | BUTD-DETR | WildRefer | 提升 |
|---|---|---|---|---|---|
| Vehicle | Acc@25 | 63.84 | — | — | — |
| Drone | Acc@25 | 53.45 | — | — | — |
| Quadruped | Acc@25 | 53.31 | — | — | — |
| 平均 | Acc@25 | — | — | — | +12.29 |
跨平台零样本迁移(仅在 Vehicle 训练)¶
| 测试平台 | 指标 | BUTD-DETR | 本文 |
|---|---|---|---|
| Vehicle(域内) | Acc@25 | 52.38 | 高 |
| Drone(零样本) | Acc@25 | 1.54 | 大幅提升 |
| Quadruped(零样本) | Acc@25 | 10.18 | 大幅提升 |
多目标 grounding(Vehicle 平台)¶
| 方法 | Acc@25 | mIoU |
|---|---|---|
| BUTD-DETR | 25.40 | 47.88 |
| 本文 | 大幅提升 | 大幅提升 |
消融实验要点¶
- CPA 贡献最大: 去掉 CPA 后 Vehicle Acc@25 从 80.86 降到 71.76(-9.10),是跨平台对齐的关键
- MSS 次之: 去掉 MSS 后 Vehicle Acc@25 降到 75.65(-5.21),解决远距离点云稀疏问题
- SAF 补充: 去掉 SAF 后 Quadruped Acc@25 从 53.31 降到 51.98(-1.33),稳定密度变化下的预测
- 场景复杂度影响: Quadruped 上从 1-3 个目标(Acc@25=71.23)到 7-9 个目标(30.75)急剧下降
- 平台特性: Drone 最难(仅 102 点/目标 vs Vehicle 462 点/目标),且场景密度最高(8.05 目标/场景)
亮点¶
- 首个多平台统一的室外 3D grounding 基准:覆盖车/无人机/四足三种截然不同的具身视角,是领域的重要基础设施贡献
- 标注流水线设计精巧:多检测器融合 + 跟踪 + 分类验证 + 人工精修的级联方案,兼顾效率和质量;VLM 生成 + 人工筛选的语言标注方案可复用
- CPA 简单但高效:仅做一次坐标系旋转对齐就能带来 +9.10 的 Acc@25 提升,说明室外 3D 任务中几何归一化是被忽视但极其重要的预处理
- 揭示了跨平台 grounding 的巨大挑战:BUTD-DETR 从 Vehicle 迁移到 Drone 的 Acc@25 从 52.38 骤降到 1.54,几乎完全失效,这为后续研究指明了方向
局限性 / 可改进方向¶
- 仅聚焦两类目标(Vehicle 和 Pedestrian),未覆盖更多户外物体类别(交通标志、锥桶等)
- 静态场景:不涉及时序动态建模和对话式交互
- 纯 LiDAR 基线:提出的基线方法只用 LiDAR 点云,未充分利用 RGB 图像信息做多模态融合
- 假设描述准确:未考虑歧义、矛盾或噪声文本输入
- 传感器覆盖有限:仅 LiDAR+RGB,未探索热成像、事件相机等更多模态
- 潜在扩展: 融合 RGB 视觉特征(CLIP/DINOv2)做多模态 grounding;引入时序推理;扩展到开放词汇类别
与相关工作的对比¶
- vs ScanRefer/Nr3D: 室内小场景、密集 RGB-D、家具类别 → 3EED 是室外大尺度、稀疏 LiDAR、多平台。根本性地拓展了 3D grounding 的应用范围
- vs Talk2Car/Talk2LiDAR: 仅车载单平台,规模小(几千条表达)→ 3EED 多平台、2.2 万表达、12.8 万目标,规模大 10 倍
- vs WildRefer: 最相关的工作,也做了室外多平台 grounding,但本文在数据规模、标注质量和跨平台评估协议上更全面,且提出了针对性的平台感知基线
启发与关联¶
- 跨平台对齐(CPA)的思路可以推广到其他跨域 3D 感知任务(如域自适应 3D 检测),简单的几何归一化往往比复杂的网络设计更有效
- VLM + 人工验证的标注流水线是一个通用范式,可以应用于其他 3D 语言数据集的高效构建
- 与
ideas/3d_vision/20260317_neural_op_ov_3d_seg.md中的开放词汇 3D 分割方向相关:如果将 grounding 扩展为开放词汇 3D 定位,可以结合该方向 - 多平台 grounding 本质上是一个域泛化问题,可以借鉴 domain generalization 的思路(如风格迁移、元学习)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个多平台室外 3D grounding 基准是重要贡献,但基线方法的技术创新相对有限
- 实验充分度: ⭐⭐⭐⭐⭐ 评估协议设计全面(域内/跨域/多目标/联合训练),消融充分,数据统计详尽
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富,但内容冗长(含附录篇幅较大)
- 价值: ⭐⭐⭐⭐ 数据集对领域有重要推动作用,揭示了跨平台 grounding 的关键挑战,但方法层面启发有限