Few-Shot Incremental 3D Object Detection in Dynamic Indoor Environments¶
会议: CVPR 2026
arXiv: 2604.07997
代码: https://github.com/zyrant/FI3Det
领域: 3D视觉
关键词: 少样本增量学习, 3D目标检测, 视觉语言模型, 多模态原型, 室内场景理解
一句话总结¶
提出 FI3Det,首个少样本增量 3D 目标检测框架:在基础训练阶段通过 VLM 引导的未知对象学习模块提前感知潜在新类别,在增量阶段通过门控多模态原型铸造模块融合 2D 语义和 3D 几何特征进行新类检测,在 ScanNet V2 和 SUN RGB-D 上的新类 mAP 平均提升 17.37%。
研究背景与动机¶
- 领域现状:3D 目标检测方法(如 VoteNet、TR3D、FCAF3D)在固定类别集上已取得很好性能,但都基于静态范式——假设所有类别标注在单次训练中可用。增量 3D 检测方法(SDCoT、AIC3DOD)能逐步识别新类,但仍需大量新类标注。
- 现有痛点:(a) 现有增量 3D 检测方法依赖丰富的新类标注,这在动态室内具身环境中不现实——新物体出现时很难立即获得大量标注;(b) 2D 领域已有少样本增量检测(ONCE、Sylph、IL-DETR),但 3D 领域完全空白;(c) 数据高效的 3D 检测方法(GFS-VL、MixSup)主要关注伪标签生成,忽略了特征级学习。
- 核心矛盾:在极少数新类样本条件下,如何既学会新类别又不遗忘已学类别?3D 室内场景中复杂的布局和多样的物体组合使得类间变化更大,加剧了这个矛盾。
- 本文目标 (a) 定义并解决少样本增量 3D 目标检测新任务;(b) 在基础阶段建立对新类的早期感知能力;(c) 在增量阶段高效适应新类别同时保持旧类性能。
- 切入角度:作者观察到室内 3D 场景中新类物体往往已存在于训练场景中但没有标注(如 Fig. 2 所示,基础类旁常出现未标注的新类物体)。利用 VLM 的零样本识别能力可以在基础训练阶段就挖掘这些未知物体,建立对新类的早期认知。
- 核心 idea:基础阶段用 VLM 挖掘未标注的未知对象进行特征和框级学习,增量阶段用融合 2D 语义和 3D 几何的多模态原型实现少样本新类检测。
方法详解¶
整体框架¶
FI3Det 分为两个阶段。基础训练阶段:在 TR3D 检测器基础上添加 VLM 引导的未知对象学习模块,包括未知对象挖掘(生成伪 3D 框和 2D 语义特征)和未知对象加权(抑制噪声)。增量学习阶段:冻结检测器参数,通过门控多模态原型铸造模块构建 2D 语义和 3D 几何原型,使用自适应门控融合进行新类检测。输入是 3D 点云场景和对应的 RGB 图像,输出是对基础类+新类的 3D 目标框预测。
关键设计¶
-
VLM 引导的未知对象学习模块(VLM-guided Unknown Object Learning)
- 功能:在基础训练阶段利用 VLM 挖掘场景中的未标注未知对象,提供辅助监督信号,让检测器提前获得对新类的感知能力。
- 核心思路:分两步——(a) 未知对象挖掘:用 GroundingDINO 生成 2D 框,用类别无关的分割模型提取 2D 掩码 \(\mathbf{M}^{2D}\),将掩码投射到 3D 空间得到 \(\mathbf{M}^{3D}\),对每个实例计算平均 VLM 特征 \(\mathbf{f}_j^{2D}\) 和拟合 3D 框 \(\mathbf{b}_j^{3D}\)。同时添加 objectness head(前景感知)和 feature head(2D-3D 特征对齐)。(b) 未知对象加权:点级加权使用高斯函数 \(w_{e,j}^{point} = \exp(-\|\mathbf{p}_e - \mathbf{c}_j\|_2^2 / 2\sigma^2)\) 使靠近框中心的点权重更高;框级加权 \(w_j^{box} = \|\frac{1}{|\mathcal{B}_j|}\sum \text{norm}(\hat{\mathbf{f}}_e^{2D})\|_2\) 衡量框内特征一致性,一致性越高框越可靠。
- 设计动机:VLM 生成的伪标签有噪声,直接使用会引入错误监督。高斯点级加权基于分割边缘误差较大的直觉,框级加权基于同一对象内特征应语义一致的先验。两级加权联合使用有效抑制噪声。
-
门控多模态原型铸造模块(Gated Multimodal Prototype Imprinting)
- 功能:在增量阶段,利用少量新类样本高效构建分类原型,无需重新训练检测器,避免灾难性遗忘。
- 核心思路:分别从对齐的 2D 特征 \(\hat{\mathbf{F}}^{2D}\) 和 3D 几何特征 \(\mathbf{F}^{3D}\) 构建模态特异性原型 \(\mathbf{T}^{2D}\) 和 \(\mathbf{T}^{3D}\)。使用动量更新策略 \(\mathbf{T}_c^{3D} \leftarrow \mu \mathbf{T}_c^{3D} + (1-\mu)\bar{\mathbf{F}}_c^{3D}\)(\(\mu=0.999\))稳定原型估计。然后计算各模态的余弦相似度分类得分 \(\mathbf{S}^{3D}\) 和 \(\mathbf{S}^{2D}\)。多模态门控融合使用两组可学习门控函数:\([\alpha^{3D}, \alpha^{2D}] = \text{Softmax}(\text{MLP}([\mathbf{F}^{3D}; \hat{\mathbf{F}}^{2D}]))\) 控制模态权重,\(\gamma = \sigma(\text{MLP}([\mathbf{F}^{3D}; \hat{\mathbf{F}}^{2D}]))\) 重新平衡类别贡献。最终融合得分 \(\mathbf{S}^{fuse} = \gamma \odot (\alpha^{3D} \odot \mathbf{S}^{3D} + \alpha^{2D} \odot \mathbf{S}^{2D})\)。
- 设计动机:单模态原型无法充分利用 2D 语义和 3D 几何的互补优势。简单求和忽略了各模态的不同特性。自适应门控让模型根据具体场景和物体特征动态调整模态贡献,\(\gamma\) 额外防止某些类别预测过度自信。
-
辅助损失函数设计
- 功能:为未知对象学习提供三方面监督。
- 核心思路:(a) 前景监督 \(\mathcal{L}_{obj}\):BCE + Dice loss 训练 objectness head,使用加权的连续前景分数而非硬标签;(b) 特征监督 \(\mathcal{L}_{feat}\):余弦相似度损失对齐 3D 特征与 VLM 2D 特征;(c) 回归监督 \(\mathcal{L}_{reg}^{unk}\):加权 DIOU loss 学习未知对象的几何定位。三者均使用点级和框级联合权重。
- 设计动机:类别无关的前景检测能力、语义特征对齐、空间定位能力三者缺一不可,共同确保增量阶段原型能匹配到正确的新类提案。
损失函数 / 训练策略¶
基础训练:\(\mathcal{L} = \mathcal{L}_{det} + \mathcal{L}_{aux}\),其中 \(\mathcal{L}_{aux} = \mathcal{L}_{aux-obj} + \mathcal{L}_{aux-feat} + \mathcal{L}_{aux-box}\)。增量阶段:冻结检测器参数,只更新原型和门控函数,使用 \(\mathcal{L}_{inc}\) 在新类上训练。
实验关键数据¶
主实验¶
ScanNet V2 批量增量设置(1-way 5-shot):
| 方法 | Base mAP | Novel mAP | All mAP |
|---|---|---|---|
| Imprinting | 71.47 | 0.23 | 67.72 |
| IL-DETR | 65.63 | 0.35 | 62.00 |
| SDCOT++ | 62.12 | 0.09 | 58.68 |
| AIC3DOD | 70.54 | 4.59 | 66.88 |
| VLM-vanilla | 71.81 | 14.09 | 68.60 |
| FI3Det | 72.84 | 38.48 | 70.94 |
SUN RGB-D 批量增量设置(1-way 5-shot):
| 方法 | Base mAP | Novel mAP | All mAP |
|---|---|---|---|
| AIC3DOD | 58.83 | 0.02 | 52.95 |
| VLM-vanilla | 62.12 | 11.93 | 57.10 |
| FI3Det | 63.05 | 73.17 | 64.07 |
消融实验¶
| 配置 | Base | Novel | All | 说明 |
|---|---|---|---|---|
| VLM-vanilla (baseline) | 71.81 | 14.09 | 68.60 | 无本文模块 |
| + UOM | 72.73 | 25.43 | 70.10 | +未知对象挖掘,Novel +11.34 |
| + UOM + UOW | 72.83 | 32.46 | 70.61 | +加权,Novel +7.03 |
| + UOM + GPI | 72.73 | 28.94 | 70.30 | +门控原型 |
| + UOM + UOW + GPI (Full) | 72.84 | 38.48 | 70.94 | 完整模型,Novel最优 |
门控组件消融:
| 配置 | Novel mAP | 说明 |
|---|---|---|
| 无门控 | 32.46 | 直接求和 |
| 仅 \(\alpha^*\) | 36.58 | +模态权重,+4.12 |
| 仅 \(\gamma\) | 34.68 | +类别重平衡 |
| \(\alpha^*\) + \(\gamma\) | 38.48 | 最优组合 |
关键发现¶
- UOM 贡献最大:未知对象挖掘从 14.09% 提升到 25.43%(+80%),证明在基础阶段建立对新类的早期认知是关键。
- Base 类性能在所有变体中保持稳定(~72.8%),说明基于原型铸造的策略有效避免了灾难性遗忘。
- 在 SUN RGB-D 1-way 5-shot 设置下,FI3Det 的 Novel mAP(73.17%)甚至超过了 Base mAP(63.05%),显示出极强的新类适应能力。
- 超参数 \(\sigma=0.5\)、\(\mu=0.999\) 是最优配置,\(\mu\) 越大性能越好说明动量稳定化对少样本原型至关重要。
亮点与洞察¶
- Base 阶段的未知对象学习是一个非常巧妙的思路:新类物体往往已经出现在训练场景中但没标注,利用 VLM 挖掘这些"暗物质"让检测器提前具备新类感知能力。这个观察及其利用方式可以迁移到任何增量学习或开放世界检测任务中。
- 两级加权(点级+框级)对噪声伪标签的处理很实用:高斯空间加权和特征一致性加权分别从空间和语义角度过滤噪声,这是一个可复用的 trick。
- 多模态门控融合相比简单加权或拼接更灵活,\(\gamma\) 门控可以抑制某些类别上某个模态的过度自信预测,有效提升鲁棒性。
局限与展望¶
- 当前 VLM(GroundingDINO)的检测能力限制了未知对象挖掘的质量,随着更强 VLM 出现,上限可能进一步提升。
- 实验限于室内场景(ScanNet V2、SUN RGB-D),室外自动驾驶等大尺度场景尚未验证。
- 增量阶段冻结检测器参数意味着检测器的特征表示不会针对新类进一步优化,可能在新类与基础类分布差异很大时受限。
- 原型铸造方法对每类只有一个原型,是否可以像 FedMEPD 那样使用多原型来捕获类内变化?
相关工作与启发¶
- vs SDCoT++: SDCoT++ 是增量 3D 检测的先驱但需要大量新类标注,在少样本设置下性能急剧下降(Novel mAP 0.09%)。FI3Det 通过原型铸造避免了大规模再训练。
- vs AIC3DOD: AIC3DOD 在全增量设置下表现不错,但在少样本下(Novel 4.59%)远不如 FI3Det(38.48%),因为缺乏 VLM 引导的预训练和多模态融合。
- vs VLM-vanilla: 直接使用 VLM 伪框但不做加权和多模态融合时 Novel 为 14.09%,FI3Det 的加权和门控融合将其提升到 38.48%,证明噪声处理和多模态融合的重要性。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次定义并解决少样本增量 3D 检测任务,VLM 引导的基础阶段未知对象学习思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集,批量和序列两种增量设置,多组消融,超参分析完整
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述详细,图示丰富
- 价值: ⭐⭐⭐⭐ 为具身智能中的动态环境感知开辟了新研究方向
相关论文¶
- [CVPR 2026] SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation
- [CVPR 2026] R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection# R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection
- [CVPR 2026] VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
- [CVPR 2026] Towards Intrinsic-Aware Monocular 3D Object Detection
- [CVPR 2026] SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection