YOLO-IOD: Towards Real Time Incremental Object Detection¶
会议: AAAI 2026
arXiv: 2512.22973
代码: 无
领域: 目标检测
关键词: 增量目标检测, YOLO, 知识蒸馏, 灾难性遗忘, 伪标签
一句话总结¶
首次系统性地将增量目标检测(IOD)引入 YOLO 实时框架,识别三种知识冲突类型,提出 CPR + IKS + CAKD 三模块协同解决方案,并引入更真实的 LoCo COCO 基准评估。
研究背景与动机¶
增量目标检测(IOD) 要求模型在学习新类别的同时保留旧类别的检测能力。现有 IOD 方法主要基于 Faster R-CNN 或 DETR,但在实际工业部署中,YOLO 系列检测器因其实时推理能力被广泛采用。然而,将现有 IOD 方法应用到 YOLO 上时,性能严重下降。
本文核心贡献:首次系统识别 YOLO 基增量检测器中导致灾难性遗忘的三种知识冲突:
1. 前景-背景混淆¶
在增量设置中,前一阶段和未来阶段的未标注目标被误分类为背景。YOLO 依赖激进的数据增强(Mosaic、MixUp)且假设标注准确——在 IOD 中,伪标签的噪声被这些增强放大,严重影响性能。
2. 参数干扰¶
不同任务经常依赖模型中重叠的参数子集。新任务的更新改变共享参数,破坏先前学习的表示,导致旧任务的灾难性遗忘。
3. 知识蒸馏错位¶
教师和学生模型为不同类别分布优化,违反标准知识蒸馏中"两模型共享一致学习目标"的核心假设。YOLO 的密集预测特性使该问题更加突出。现有方法仅选择不与新标签重合的旧任务输出作为蒸馏目标,只能蒸馏部分知识。
LoCo COCO 基准的必要性:现有 IOD 基准随意划分类别,忽略类别共现关系,且允许图像在各增量阶段重复出现(平均每张图出现 1.84 个阶段)。这违反了持续学习的基本前提,且人为地提高了伪标签方法的效果(因为检测器可以在重用的训练图上生成伪标签)。
方法详解¶
整体框架¶
YOLO-IOD 基于预训练 YOLO-World,通过分阶段参数高效微调实现增量学习,包含三个模块:
- CPR(冲突感知伪标签精炼)→ 解决前景-背景混淆
- IKS(重要性核选择)→ 解决参数干扰
- CAKD(跨阶段非对称知识蒸馏)→ 解决蒸馏错位
关键设计¶
1. 冲突感知伪标签精炼(CPR)¶
增强伪标签损失:将伪标签置信度 \(s\) 作为软监督目标,结合置信度感知加权和熵正则化:
- 第一项:focal-style 置信度对齐监督
- 第二项:与置信度反向缩放的自适应熵正则化
- 低置信度伪标签提供软监督并被正则化保持不确定性,高置信度标签贡献稳定监督
聚类未知伪标签: 1. 构建通用词汇表 \(V_{gen}\)(500 个常见目标 + 50 个抽象超类别,由 LLM 总结) 2. 使用 YOLO-World + \(V_{gen}\) 检测所有非标注前景 3. 对检测类别的文本特征进行频率加权 K-Means 聚类,得到未知超类别集合 \(\mathcal{U}\) 4. 将知识冲突转化为发现和学习未知超类别的过程
2. 重要性核选择(IKS)¶
以卷积核为粒度(而非单个参数)量化参数重要性,避免存储成本随任务数线性增长。
Fisher 信息参数重要性:
差分重要性(排除对旧任务关键的参数):
仅选择 top-\(\mathcal{K}\) 的核进行微调(基础阶段 20%,增量阶段 12%),其余冻结。
3. 跨阶段非对称知识蒸馏(CAKD)(核心创新)¶
采用双教师框架,目标检测器 \(\mathcal{M}_t\) 为学生: - 旧教师 \(\mathcal{M}_{t-1}\):专注于 \(\mathcal{C}_{1:t-1}\),其检测头抑制无关特征的响应 - 当前教师 \(\mathcal{M}_{s_t}\):仅在当前阶段数据 \(D_t\) 上训练,聚焦于 \(\mathcal{C}_t\)
蒸馏过程:将学生 neck 特征 \(\mathbf{F}_{student}^{neck}\) 送入教师检测头,生成跨阶段 post-head 特征进行蒸馏。
focal 权重:\(w_{focal}(p) = \max_j \text{logit}_{teacher}(p, j)\),抑制背景/噪声区域。
分类蒸馏损失: $\(\mathcal{L}_{cls\_kd} = \sum_p \|\mathbf{E}_{teacher}(p) - \mathbf{E}_{student\_cross}(p)\|_2^2 \cdot w_{focal}(p)\)$
回归蒸馏损失: $\(\mathcal{L}_{reg\_kd} = \sum_p \mathcal{L}_{IoU}(B_{tea}(p), B_{stu\_cross}(p)) \cdot w_{focal}(p)\)$
总蒸馏目标:\(\mathcal{L}_{CAKD} = \alpha \mathcal{L}_{cls\_kd} + \beta \mathcal{L}_{reg\_kd}\)
为什么比现有方法好:现有方法仅选择不与新标签重合的旧输出蒸馏,只能传递部分知识。CAKD 通过双教师检测头全局蒸馏,分别处理新旧类别,避免了错位监督。
LoCo COCO 基准构建¶
- 构建类别共现矩阵 \(\mathbf{A} \in \mathbb{R}^{N \times N}\)
- 图聚类将类别分为频繁共现的组,分配到同一任务
- 对仍跨阶段的重叠图像随机分配到一个任务
- 确保每张图只出现在一个阶段,消除数据泄漏
训练策略¶
- 基础模型:YOLO-World (X)
- 批大小 16,4 × RTX 3090
- 学习率:backbone 2e-5, neck/head 2e-4
- AdamW 优化器,20 epochs,第 10 epoch 后关闭 Mosaic 增强
- IKS 核选择比例:基础阶段 20%,增量阶段 12%
实验关键数据¶
主实验¶
单步增量设置(COCO 40+40):
| 方法 | 检测器 | AP | AbsGap | RelGap |
|---|---|---|---|---|
| BPF | Faster R-CNN | 34.4 | 5.8 | 14.4% |
| CL-DETR | Deformable DETR | 42.0 | 5.0 | 10.6% |
| SDDGR | Deformable DETR | 43.0 | 4.0 | 8.5% |
| GCD | Grounding DINO | 45.7 | 11.5 | 20.1% |
| ERD | YOLO-World(X) | 49.9 | 4.6 | 8.4% |
| RGR | YOLO-World(X) | 51.5 | 3.0 | 5.5% |
| YOLO-IOD | YOLO-World(X) | 53.0 | 1.5 | 2.7% |
YOLO-IOD 仅有 2.7% 的相对性能差距(接近联合训练 54.5 的上界),且无需回放(RGR 需要生成式回放)。
多步增量设置(关键结果):
| 设置 | YOLO-IOD 最终 AP | RGR 最终 AP | YOLO-IOD RelGap | RGR RelGap |
|---|---|---|---|---|
| 40-10 (5步) | 50.6 | 44.8 | 7.1% | 17.8% |
| 40-20 (3步) | 51.9 | 48.6 | 4.8% | 10.8% |
| 20-20 (4步) | 51.7 | 48.1 | 5.1% | 11.7% |
| 10-10 (8步) | 49.7 | 43.4 | 8.8% | 20.3% |
在最长的 10-10 设置(8 个增量阶段)下,YOLO-IOD 仍仅有 8.8% 相对差距,远优于 RGR 的 20.3%。
消融实验¶
组件消融(COCO 70-10 / 40-10):
| 伪标签 | CPR | IKS | CAKD | 70-10 AP | 40-10 AP |
|---|---|---|---|---|---|
| ✓ | - | - | - | 48.4 | 44.3 |
| ✓ | ✓ | - | - | 50.3 | 47.3 |
| ✓ | ✓ | ✓ | - | 51.5 | 49.1 |
| ✓ | - | - | ✓ | 50.8 | 49.2 |
| ✓ | ✓ | ✓ | ✓ | 52.4 | 50.6 |
CPR 单独贡献 +1.9/+3.0 AP;IKS 在 CPR 基础上再 +1.2/+1.8 AP;CAKD 单独即超基线 +2.4/+4.9 AP。三者协同效果最优。
LoCo COCO 评估:
| 方法 | COCO 40+40 AP | LoCo 40+40 AP | CoGap |
|---|---|---|---|
| RGR | 35.6 | 35.0 | 0.6% |
| CL-DETR | 42.0 | 40.9 | 1.1% |
| GCD | 45.7 | 44.7 | 1.0% |
| YOLO-IOD | 53.0 | 52.2 | 0.8% |
所有方法在 LoCo COCO 上都有 AP 下降,证实原始 COCO 分区存在数据泄漏。YOLO-IOD 受影响最小。
IKS 核选择比例消融:\(\mathcal{K}=12\%\) 时达最优平衡——过小(5%)限制适应能力,过大(20%)导致遗忘。
CAKD 双教师消融:早期阶段"仅当前教师"更好(促进快速适应);后期"仅旧教师"更好(保持稳定性)。完整 CAKD 始终最优。
关键发现¶
- YOLO-World 的预训练语义知识为 IOD 提供了强大的初始化,联合训练 AP 达 54.5(远超 Faster R-CNN 的 40.2)
- 三种知识冲突的解耦处理比统一方案更有效
- 不使用回放的 YOLO-IOD 超越了使用回放的 RGR
- 数据泄漏对现有基准的影响虽小(0.6-2.0% AP)但真实存在
- 在 8 步增量中 RelGap 仅 8.8%,证明方法的长期稳定性
亮点与洞察¶
- 问题识别的系统性:三种知识冲突的归纳全面且准确,每种冲突对应一个解决模块
- CAKD 的双教师设计:通过将学生特征送入不同教师的检测头来实现非对称蒸馏,思路巧妙——利用检测头天然地过滤无关特征
- LoCo COCO 基准:不仅消除数据泄漏,还考虑类别共现关系,更贴近真实增量场景
- 实时推理:YOLO-World 基础上构建,保持实时速度的同时实现 SOTA 增量性能
局限性 / 可改进方向¶
- 依赖 YOLO-World 的预训练质量,换用更轻量化的 YOLO 版本可能性能下降
- IKS 中 Fisher 信息的计算需要额外前传,增加训练开销
- 聚类未知伪标签依赖 LLM 生成的通用词汇表,可能在专业领域(如医疗)不适用
- 仅在 COCO 上评估,更多领域数据集(如 LVIS 等长尾数据集)的验证仍需进一步展开
- CAKD 的双教师训练需要维护两个教师模型,内存开销较大
相关工作与启发¶
- BPF 的双教师概念启发了 CAKD,但本文通过跨阶段特征传递解决了蒸馏错位问题
- ERD 的弹性响应蒸馏在 YOLO 上适配不佳,本文通过 focal 权重选择性蒸馏解决
- YOLO-World 的开放词汇能力为聚类未知伪标签提供了基础
- LoCo COCO 的图聚类思路可推广到其他增量学习基准的构建
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 三种知识冲突的识别+三对应模块+新基准,贡献全面
- 实验充分度: ⭐⭐⭐⭐⭐ — 单步/多步/LoCo COCO/组件消融,覆盖极为全面
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,框架图直观
- 价值: ⭐⭐⭐⭐⭐ — 将 IOD 引入工业级 YOLO 框架,弥合学术与应用的鸿沟
相关论文¶
- [CVPR 2026] Beyond Prompt Degradation: Prototype-Guided Dual-Pool Prompting for Incremental Object Detection
- [ICCV 2025] YOLOE: Real-Time Seeing Anything
- [ECCV 2024] Bridge Past and Future: Overcoming Information Asymmetry in Incremental Object Detection
- [AAAI 2026] An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice
- [AAAI 2026] VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection