3EED: Ground Everything Everywhere in 3D¶

会议: NeurIPS 2025
arXiv: 2511.01755
代码: https://github.com/worldbench/3EED
领域: 3D视觉 / 视觉定位
关键词: 3D visual grounding, 多平台, 多模态, 室外场景, 跨平台迁移

一句话总结¶

提出 3EED——首个大规模多平台（车、无人机、四足机器人）、多模态（LiDAR+RGB）室外 3D 视觉定位基准，包含超 12.8 万目标和 2.2 万语言描述，规模是现有室外数据集的 10 倍；同时设计了跨平台对齐、多尺度采样和尺度自适应融合的基线方法，揭示了跨平台 3D grounding 的巨大性能差距。

背景与动机¶

3D 视觉定位（visual grounding）要求模型根据自然语言在 3D 场景中定位目标物体，是具身智能（导航、交互、态势感知）的核心能力。现有基准几乎全集中在室内 RGB-D 小场景（ScanRefer、Nr3D 等），物体局限于家具类别，不满足真实世界需求。少量室外数据集（Talk2Car、KITTI360Pose 等）也仅限于单一平台（车载 LiDAR），规模小、模态单一，缺乏多平台视角的多样性。现实中，不同具身智能体（自动驾驶车、无人机、四足）的传感器配置、视角几何、点云密度差异巨大，迫切需要统一的室外多平台 grounding 基准。

核心问题¶

缺乏多平台室外 3D grounding 数据集：现有数据集要么局限于室内，要么局限于单一车载平台，无法评估跨平台泛化能力。
跨平台域差距：不同平台的视角（俯拍/平视/仰视）、LiDAR 密度、目标尺度分布差异极大，室内方法直接迁移到室外多平台场景性能崩溃。
标注效率问题：大规模 3D 目标标注和语言描述生成成本高，需要高效的半自动流水线。

方法详解¶

整体框架¶

3EED 工作分两大部分：数据集构建和基线方法设计。

数据集方面，从 Waymo（车载）和 M3ED（无人机+四足）收集同步的 LiDAR 和 RGB 数据，通过多检测器融合 + 跟踪 + 人工校验的三阶段流水线获得高质量 3D 框标注，再利用 Qwen2-VL-72B 生成结构化语言描述，经人工验证过滤。

基线方法方面，在 BUTD-DETR 基础上改进：PointNet++ 编码 LiDAR 点云，冻结 RoBERTa 编码语言，Transformer 解码器预测 3D 框。额外引入三个模块：跨平台对齐（CPA）、多尺度采样（MSS）和尺度自适应融合（SAF）。

关键设计¶

数据标注流水线:
3D 框标注: 车载直接用 Waymo 官方标注；无人机/四足通过多检测器（PV-RCNN、CenterPoint等）生成伪标签 → KDE 融合 + 3D 多目标跟踪（CTRL）补全 → Tokenize-Anything 投影到 RGB 做类别验证 → 人工精修。整套流程限制人工为每帧约 100 秒。
语言描述: 将 3D 框投影到 RGB 图上，配合五槽结构化提示（类别/状态/位置/方位/空间关系）输入 Qwen2-VL-72B 生成描述，再经平台无关的改写规则统一术语，最后 5 名标注员人工验证/修订。所有描述基于观察者视角（相机视角），确保跨平台一致。
跨平台对齐 (CPA): 在特征提取前，将每个场景旋转对齐到重力方向（消除roll/pitch），对无人机数据额外做高度偏移归一化。把所有平台放入统一的重力对齐坐标系中，使得"上方/下方/后面"等空间关系在不同平台间编码一致。这是一步一次性几何归一化，不需要修改网络架构，但让骨干网将容量用于目标/内容特征学习而非姿态校正。
多尺度采样 (MSS): PointNet++ 每层使用多个半径（从 0.6m 到 4.8m）查询邻域，同时保留近处目标的精细局部细节和远处稀疏目标的广域上下文。避免单一半径方案的失败模式：小半径导致远距离无邻居点，大半径导致近距离过度平滑。这直接应对了 LiDAR 随距离稀疏化的问题。
尺度自适应融合 (SAF): 将所有半径计算的特征送入轻量 MLP 生成逐点动态权重，融合多尺度特征为单一嵌入，自适应地强调最能解释局部几何的半径尺度。防止"错误尺度"的决策，在大密度变化的跨平台场景中稳定预测。参数和延迟开销极小。

损失函数 / 训练策略¶

匈牙利匹配将预测框分配到真值框（类似 DETR）
损失组合：框回归 L1 + 3D GIoU + token 级分类损失 + 对称对比对齐损失（query-to-token 和 token-to-query 双向）
目标性监督：focal loss，将每个真值中心最近的 4 个点标为正样本
点云统一下采样到 16,384 点，PointNet++ 从头训练，RoBERTa 冻结
学习率：视觉编码器 1e-3，其它 1e-4，训练 100 epochs，2×RTX 4090
多目标 grounding 设置：每个目标关联独立 positive map，匈牙利匹配一对一分配，训练 200 epochs

实验关键数据¶

跨平台 grounding（多平台联合训练，Acc@25 %）¶

平台	指标	本文	BUTD-DETR	WildRefer	提升
Vehicle	Acc@25	63.84	—	—	—
Drone	Acc@25	53.45	—	—	—
Quadruped	Acc@25	53.31	—	—	—
平均	Acc@25	—	—	—	+12.29

跨平台零样本迁移（仅在 Vehicle 训练）¶

测试平台	指标	BUTD-DETR	本文
Vehicle（域内）	Acc@25	52.38	高
Drone（零样本）	Acc@25	1.54	大幅提升
Quadruped（零样本）	Acc@25	10.18	大幅提升

多目标 grounding（Vehicle 平台）¶

方法	Acc@25	mIoU
BUTD-DETR	25.40	47.88
本文	大幅提升	大幅提升

消融实验要点¶

CPA 贡献最大: 去掉 CPA 后 Vehicle Acc@25 从 80.86 降到 71.76（-9.10），是跨平台对齐的关键
MSS 次之: 去掉 MSS 后 Vehicle Acc@25 降到 75.65（-5.21），解决远距离点云稀疏问题
SAF 补充: 去掉 SAF 后 Quadruped Acc@25 从 53.31 降到 51.98（-1.33），稳定密度变化下的预测
场景复杂度影响: Quadruped 上从 1-3 个目标（Acc@25=71.23）到 7-9 个目标（30.75）急剧下降
平台特性: Drone 最难（仅 102 点/目标 vs Vehicle 462 点/目标），且场景密度最高（8.05 目标/场景）

亮点¶

首个多平台统一的室外 3D grounding 基准：覆盖车/无人机/四足三种截然不同的具身视角，是领域的重要基础设施贡献
标注流水线设计精巧：多检测器融合 + 跟踪 + 分类验证 + 人工精修的级联方案，兼顾效率和质量；VLM 生成 + 人工筛选的语言标注方案可复用
CPA 简单但高效：仅做一次坐标系旋转对齐就能带来 +9.10 的 Acc@25 提升，说明室外 3D 任务中几何归一化是被忽视但极其重要的预处理
揭示了跨平台 grounding 的巨大挑战：BUTD-DETR 从 Vehicle 迁移到 Drone 的 Acc@25 从 52.38 骤降到 1.54，几乎完全失效，这为后续研究指明了方向

局限性 / 可改进方向¶

仅聚焦两类目标（Vehicle 和 Pedestrian），未覆盖更多户外物体类别（交通标志、锥桶等）
静态场景：不涉及时序动态建模和对话式交互
纯 LiDAR 基线：提出的基线方法只用 LiDAR 点云，未充分利用 RGB 图像信息做多模态融合
假设描述准确：未考虑歧义、矛盾或噪声文本输入
传感器覆盖有限：仅 LiDAR+RGB，未探索热成像、事件相机等更多模态
潜在扩展: 融合 RGB 视觉特征（CLIP/DINOv2）做多模态 grounding；引入时序推理；扩展到开放词汇类别

与相关工作的对比¶

vs ScanRefer/Nr3D: 室内小场景、密集 RGB-D、家具类别 → 3EED 是室外大尺度、稀疏 LiDAR、多平台。根本性地拓展了 3D grounding 的应用范围
vs Talk2Car/Talk2LiDAR: 仅车载单平台，规模小（几千条表达）→ 3EED 多平台、2.2 万表达、12.8 万目标，规模大 10 倍
vs WildRefer: 最相关的工作，也做了室外多平台 grounding，但本文在数据规模、标注质量和跨平台评估协议上更全面，且提出了针对性的平台感知基线

启发与关联¶

跨平台对齐（CPA）的思路可以推广到其他跨域 3D 感知任务（如域自适应 3D 检测），简单的几何归一化往往比复杂的网络设计更有效
VLM + 人工验证的标注流水线是一个通用范式，可以应用于其他 3D 语言数据集的高效构建
与 ideas/3d_vision/20260317_neural_op_ov_3d_seg.md 中的开放词汇 3D 分割方向相关：如果将 grounding 扩展为开放词汇 3D 定位，可以结合该方向
多平台 grounding 本质上是一个域泛化问题，可以借鉴 domain generalization 的思路（如风格迁移、元学习）

评分¶

新颖性: ⭐⭐⭐⭐ 首个多平台室外 3D grounding 基准是重要贡献，但基线方法的技术创新相对有限
实验充分度: ⭐⭐⭐⭐⭐ 评估协议设计全面（域内/跨域/多目标/联合训练），消融充分，数据统计详尽
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图表丰富，但内容冗长（含附录篇幅较大）
价值: ⭐⭐⭐⭐ 数据集对领域有重要推动作用，揭示了跨平台 grounding 的关键挑战，但方法层面启发有限