Detect Anything 3D in the Wild¶

会议: ICCV 2025
arXiv: 2504.07958
代码: https://github.com/OpenDriveLab/DetAny3D
领域: 自动驾驶 / 3D目标检测
关键词: 3D检测基础模型, 零样本泛化, 单目3D检测, 2D-to-3D知识迁移, 开放世界检测

一句话总结¶

DetAny3D 是一个可提示（promptable）的3D检测基础模型，通过融合SAM和depth-pretrained DINO两个2D基础模型的先验知识，并提出2D Aggregator和Zero-Embedding Mapping机制实现稳定的2D-to-3D知识迁移，仅用单目图像即可在任意场景和相机配置下实现零样本3D目标检测，在新类别上零样本AP3D超越基线最多21%。

研究背景与动机¶

3D目标检测是自动驾驶、机器人和增强现实的核心技术。理想的通用3D检测器应能从单目图像输入中检测任意物体，不依赖特定传感器参数。然而现有方法存在以下痛点：

闭集假设限制：现有检测器（如Cube R-CNN, Omni3D）虽支持多数据集训练，但仍局限于预定义的类别空间，无法检测未见过的物体
相机配置敏感：跨数据集部署时，因相机参数差异导致严重域差距
3D标注数据稀缺：3D标注数据量仅百万级，比2D图像标注（数十亿级）少3-4个数量级，从零训练3D基础模型几乎不可行

核心矛盾在于：3D数据不足以支撑基础模型训练，但2D基础模型（SAM、DINOv2）拥有丰富的形状和几何先验。本文的切入角度是利用预训练2D基础模型的知识来弥补3D数据的不足，通过精心设计的架构实现有效的2D-to-3D知识迁移。

方法详解¶

整体框架¶

DetAny3D 以单目RGB图像和提示（box/point/text/intrinsic）作为输入。图像被两个基础模型并行编码：SAM（提供像素级形状信息，作为可提示骨干）和 depth-pretrained DINO（通过UniDepth预训练，提供几何深度先验）。两者特征通过 2D Aggregator 融合后，经 Depth/Camera Module 提取几何嵌入，最终由 3D Interpreter 解码为3D包围盒预测。

关键设计¶

2D Aggregator（2D特征聚合器）:
- 功能：融合来自SAM和DINO的异构特征，消除表示冲突
- 核心思路：采用层次化交叉注意力机制，包含4个级联对齐单元。每个单元通过可学习门控权重 \(\alpha_i\)（初始化为0.5）动态融合两个模型的特征：\(\mathbf{F}_{\text{fused}}^{i}=\alpha_{i}\cdot\mathbf{F}_{s}^{i}+(1-\alpha_{i})\cdot\mathbf{F}_{d}^{i}\)，然后以融合特征为KV、查询特征为Q进行交叉注意力
- 设计动机：SAM擅长细粒度空间信息，DINO擅长深度几何信息，两者具有互补性但特征空间不同，需要自适应对齐和融合
3D Interpreter 与 Zero-Embedding Mapping (ZEM):
- 功能：将2D特征逐步注入3D几何信息，同时确保稳定的2D-to-3D知识迁移
- 核心思路：包含 Two-Way Transformer（继承SAM解码器结构）和 Geometric Transformer。ZEM 使用零初始化的 \(1\times1\) 卷积层，将几何嵌入 \(\mathbf{G}\) 逐步注入到特征中：\(\mathbf{G}'=\text{GeoTrans}(\mathbf{Q}, \text{ZEM}(\mathbf{G})+\mathbf{F}_s, \text{ZEM}(\mathbf{G})+\mathbf{F}_s)\)
- 设计动机：直接注入3D几何特征会干扰预训练的2D特征，导致灾难性遗忘。ZEM通过零初始化确保训练初期不改变原始2D特征，逐步学习几何注入，稳定跨数据集训练
多模态提示交互:
- 功能：支持box、point、text和intrinsic四种提示方式
- 核心思路：Box/Point提示遵循SAM的位置编码方式；Text提示通过Grounding DINO获取2D框后转换；Intrinsic提示为可选的相机内参，未提供时模型自行预测
- 设计动机：借鉴SAM的可提示设计理念，实现灵活的用户交互和开放世界检测

损失函数 / 训练策略¶

总损失为三部分之和： - 深度损失 \(\mathcal{L}_{\text{depth}}\)：SILog损失监督深度预测 - 相机内参损失 \(\mathcal{L}_{\text{cam}}\)：基于密集相机射线表示的SILog损失 - 检测损失 \(\mathcal{L}_{\text{det}}\)：Smooth L1损失（3D框参数回归）+ Chamfer损失（旋转矩阵）+ MSE损失（3D IoU分数）

训练细节：SAM编码器冻结，使用ViT-L DINOv2和ViT-H SAM初始化。8×8 A100 GPU，batch size 64，训练80 epoch约2周。DA3D数据集包含16个数据集，0.4M帧，20种相机配置。

实验关键数据¶

主实验¶

零样本新类别检测（GT prompt）:

数据集	指标	DetAny3D	OVMono3D	提升
KITTI	AP3D	28.96	8.44	+20.52 (3.4×)
SUNRGBD	AP3D	39.09	17.16	+21.93 (2.3×)
ARKitScenes	AP3D	57.72	14.12	+43.60 (4.1×)

零样本新相机配置检测（Grounding DINO prompt, target-aware metric）:

数据集	指标	DetAny3D	OVMono3D	提升
Cityscapes3D	AP3D	15.71	10.98	+4.73
Waymo	AP3D	15.95	10.27	+5.68
3RScan	AP3D	9.58	8.48	+1.10

域内Omni3D检测（GT prompt）：AP3D = 34.38 vs OVMono3D 25.32（+9.06）

消融实验¶

配置	AP3D	说明
SAM基线（无附加组件）	5.81	仅SAM+3D头
+ Depth & Camera模块	10.10	深度和相机模块提供+4.29
+ 合并DINO	20.20	DINO几何先验贡献巨大(+10.10)
+ 2D Aggregator	23.21	比直接加法融合更好(+3.01)
+ ZEM	25.80	稳定迁移带来+2.59

关键发现¶

合并depth-pretrained DINO是最大的增益来源，证明了几何先验对单目3D检测的关键作用
ZEM机制在跨数据集训练时稳定性提升显著，避免了不同数据分布间的冲突
2D提示质量是性能瓶颈——使用GT 2D框时AP3D远高于使用Cube R-CNN检测结果
DetAny3D的3D检测结果可用于下游任务如Sora视频生成的3D框引导

亮点与洞察¶

核心创新：首个真正意义上的可提示3D检测基础模型，零样本泛化能力远超现有方法
巧妙的知识迁移：ZEM的零初始化策略简单但极其有效，避免了2D预训练权重的灾难性遗忘
工程价值：聚合了16个数据集构建DA3D统一基准，为3D检测基础模型的系统评估提供了标准
展示了从2D基础模型到3D任务的有效知识迁移路径，对其他3D任务有启发

局限与展望¶

依赖于2D提示的质量，当前2D检测器（如Cube R-CNN）的性能成为瓶颈
SAM编码器在训练中冻结，可能限制了对3D任务的适应性
直线声学射线模型假设可能在复杂几何场景中不够精确
未探索点云或深度传感器等多模态输入的可能性
3RScan等命名歧义严重的数据集上效果仍然有限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个可提示3D检测基础模型，ZEM机制新颖有效
实验充分度: ⭐⭐⭐⭐⭐ 16个数据集，零样本/域内/消融全面覆盖，结果显著
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详尽，图表丰富
价值: ⭐⭐⭐⭐⭐ 为3D检测领域开辟了基础模型方向，实际应用价值高