🎯 目标检测¶
📹 ICCV2025 · 共 3 篇
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection
-
提出首个端到端的单目开放集3D目标检测器3D-MOOD,通过将开放集2D检测"提升"到3D空间,结合几何感知3D query生成与canonical image space设计,在Omni3D闭集和Argoverse 2/ScanNet开集基准上均达到SOTA。
- Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection
-
首次将Mixture of Experts引入实时开放词汇目标检测器,通过MoE-Tuning将Grounding DINO 1.5 Edge从dense模型扩展为动态推理框架,提出细粒度专家分解和预训练权重分配策略,仅用1.56M开源数据超越使用20M私有数据训练的原版模型。
- YOLOE: Real-Time Seeing Anything
-
提出YOLOE,在YOLO架构中统一支持文本提示、视觉提示和无提示三种开放场景的检测和分割,通过RepRTA(可重参数化区域-文本对齐)、SAVPE(语义激活视觉提示编码器)和LRPC(懒惰区域-提示对比)三个设计实现高效率高性能,以3x更少的训练成本在LVIS上超越YOLO-World v2。