跳转至

YOLO-IOD: Towards Real Time Incremental Object Detection

会议: AAAI 2026
arXiv: 2512.22973
代码: 无
领域: 目标检测
关键词: 增量目标检测, YOLO, 知识蒸馏, 灾难性遗忘, 伪标签

一句话总结

首次系统性地将增量目标检测(IOD)引入 YOLO 实时框架,识别三种知识冲突类型,提出 CPR + IKS + CAKD 三模块协同解决方案,并引入更真实的 LoCo COCO 基准评估。

研究背景与动机

增量目标检测(IOD) 要求模型在学习新类别的同时保留旧类别的检测能力。现有 IOD 方法主要基于 Faster R-CNN 或 DETR,但在实际工业部署中,YOLO 系列检测器因其实时推理能力被广泛采用。然而,将现有 IOD 方法应用到 YOLO 上时,性能严重下降。

本文核心贡献:首次系统识别 YOLO 基增量检测器中导致灾难性遗忘的三种知识冲突

1. 前景-背景混淆

在增量设置中,前一阶段和未来阶段的未标注目标被误分类为背景。YOLO 依赖激进的数据增强(Mosaic、MixUp)且假设标注准确——在 IOD 中,伪标签的噪声被这些增强放大,严重影响性能。

2. 参数干扰

不同任务经常依赖模型中重叠的参数子集。新任务的更新改变共享参数,破坏先前学习的表示,导致旧任务的灾难性遗忘。

3. 知识蒸馏错位

教师和学生模型为不同类别分布优化,违反标准知识蒸馏中"两模型共享一致学习目标"的核心假设。YOLO 的密集预测特性使该问题更加突出。现有方法仅选择不与新标签重合的旧任务输出作为蒸馏目标,只能蒸馏部分知识。

LoCo COCO 基准的必要性:现有 IOD 基准随意划分类别,忽略类别共现关系,且允许图像在各增量阶段重复出现(平均每张图出现 1.84 个阶段)。这违反了持续学习的基本前提,且人为地提高了伪标签方法的效果(因为检测器可以在重用的训练图上生成伪标签)。

方法详解

整体框架

YOLO-IOD 基于预训练 YOLO-World,通过分阶段参数高效微调实现增量学习,包含三个模块:

  1. CPR(冲突感知伪标签精炼)→ 解决前景-背景混淆
  2. IKS(重要性核选择)→ 解决参数干扰
  3. CAKD(跨阶段非对称知识蒸馏)→ 解决蒸馏错位

关键设计

1. 冲突感知伪标签精炼(CPR)

增强伪标签损失:将伪标签置信度 \(s\) 作为软监督目标,结合置信度感知加权和熵正则化:

\[\mathcal{L}_{pseudo}^{cls} = -|s - p_t|^\gamma \log(p_t) + \lambda \cdot (1-s)^\delta \cdot H(\hat{y})\]
  • 第一项:focal-style 置信度对齐监督
  • 第二项:与置信度反向缩放的自适应熵正则化
  • 低置信度伪标签提供软监督并被正则化保持不确定性,高置信度标签贡献稳定监督

聚类未知伪标签: 1. 构建通用词汇表 \(V_{gen}\)(500 个常见目标 + 50 个抽象超类别,由 LLM 总结) 2. 使用 YOLO-World + \(V_{gen}\) 检测所有非标注前景 3. 对检测类别的文本特征进行频率加权 K-Means 聚类,得到未知超类别集合 \(\mathcal{U}\) 4. 将知识冲突转化为发现和学习未知超类别的过程

2. 重要性核选择(IKS)

以卷积核为粒度(而非单个参数)量化参数重要性,避免存储成本随任务数线性增长。

Fisher 信息参数重要性

\[\mathbf{I}_t(\mathbf{w}^k) = \sum_{j=1}^{d_k} \left( \frac{1}{N_t} \sum_{n=1}^{N_t} \left( \frac{\partial \log p(y_n|x_n;\theta)}{\partial w_j^k} \right)^2 \right)\]

差分重要性(排除对旧任务关键的参数):

\[\Delta \mathbf{I}_t(\mathbf{w}^k) = \mathbf{I}_t(\mathbf{w}^k) - \rho \sum_{i=1}^{t-1} \mathbf{I}_i(\mathbf{w}^k)\]

仅选择 top-\(\mathcal{K}\) 的核进行微调(基础阶段 20%,增量阶段 12%),其余冻结。

3. 跨阶段非对称知识蒸馏(CAKD)(核心创新)

采用双教师框架,目标检测器 \(\mathcal{M}_t\) 为学生: - 旧教师 \(\mathcal{M}_{t-1}\):专注于 \(\mathcal{C}_{1:t-1}\),其检测头抑制无关特征的响应 - 当前教师 \(\mathcal{M}_{s_t}\):仅在当前阶段数据 \(D_t\) 上训练,聚焦于 \(\mathcal{C}_t\)

蒸馏过程:将学生 neck 特征 \(\mathbf{F}_{student}^{neck}\) 送入教师检测头,生成跨阶段 post-head 特征进行蒸馏。

focal 权重\(w_{focal}(p) = \max_j \text{logit}_{teacher}(p, j)\),抑制背景/噪声区域。

分类蒸馏损失: $\(\mathcal{L}_{cls\_kd} = \sum_p \|\mathbf{E}_{teacher}(p) - \mathbf{E}_{student\_cross}(p)\|_2^2 \cdot w_{focal}(p)\)$

回归蒸馏损失: $\(\mathcal{L}_{reg\_kd} = \sum_p \mathcal{L}_{IoU}(B_{tea}(p), B_{stu\_cross}(p)) \cdot w_{focal}(p)\)$

总蒸馏目标\(\mathcal{L}_{CAKD} = \alpha \mathcal{L}_{cls\_kd} + \beta \mathcal{L}_{reg\_kd}\)

为什么比现有方法好:现有方法仅选择不与新标签重合的旧输出蒸馏,只能传递部分知识。CAKD 通过双教师检测头全局蒸馏,分别处理新旧类别,避免了错位监督。

LoCo COCO 基准构建

  1. 构建类别共现矩阵 \(\mathbf{A} \in \mathbb{R}^{N \times N}\)
  2. 图聚类将类别分为频繁共现的组,分配到同一任务
  3. 对仍跨阶段的重叠图像随机分配到一个任务
  4. 确保每张图只出现在一个阶段,消除数据泄漏

训练策略

  • 基础模型:YOLO-World (X)
  • 批大小 16,4 × RTX 3090
  • 学习率:backbone 2e-5, neck/head 2e-4
  • AdamW 优化器,20 epochs,第 10 epoch 后关闭 Mosaic 增强
  • IKS 核选择比例:基础阶段 20%,增量阶段 12%

实验关键数据

主实验

单步增量设置(COCO 40+40):

方法 检测器 AP AbsGap RelGap
BPF Faster R-CNN 34.4 5.8 14.4%
CL-DETR Deformable DETR 42.0 5.0 10.6%
SDDGR Deformable DETR 43.0 4.0 8.5%
GCD Grounding DINO 45.7 11.5 20.1%
ERD YOLO-World(X) 49.9 4.6 8.4%
RGR YOLO-World(X) 51.5 3.0 5.5%
YOLO-IOD YOLO-World(X) 53.0 1.5 2.7%

YOLO-IOD 仅有 2.7% 的相对性能差距(接近联合训练 54.5 的上界),且无需回放(RGR 需要生成式回放)。

多步增量设置(关键结果):

设置 YOLO-IOD 最终 AP RGR 最终 AP YOLO-IOD RelGap RGR RelGap
40-10 (5步) 50.6 44.8 7.1% 17.8%
40-20 (3步) 51.9 48.6 4.8% 10.8%
20-20 (4步) 51.7 48.1 5.1% 11.7%
10-10 (8步) 49.7 43.4 8.8% 20.3%

在最长的 10-10 设置(8 个增量阶段)下,YOLO-IOD 仍仅有 8.8% 相对差距,远优于 RGR 的 20.3%。

消融实验

组件消融(COCO 70-10 / 40-10):

伪标签 CPR IKS CAKD 70-10 AP 40-10 AP
- - - 48.4 44.3
- - 50.3 47.3
- 51.5 49.1
- - 50.8 49.2
52.4 50.6

CPR 单独贡献 +1.9/+3.0 AP;IKS 在 CPR 基础上再 +1.2/+1.8 AP;CAKD 单独即超基线 +2.4/+4.9 AP。三者协同效果最优。

LoCo COCO 评估

方法 COCO 40+40 AP LoCo 40+40 AP CoGap
RGR 35.6 35.0 0.6%
CL-DETR 42.0 40.9 1.1%
GCD 45.7 44.7 1.0%
YOLO-IOD 53.0 52.2 0.8%

所有方法在 LoCo COCO 上都有 AP 下降,证实原始 COCO 分区存在数据泄漏。YOLO-IOD 受影响最小。

IKS 核选择比例消融\(\mathcal{K}=12\%\) 时达最优平衡——过小(5%)限制适应能力,过大(20%)导致遗忘。

CAKD 双教师消融:早期阶段"仅当前教师"更好(促进快速适应);后期"仅旧教师"更好(保持稳定性)。完整 CAKD 始终最优。

关键发现

  1. YOLO-World 的预训练语义知识为 IOD 提供了强大的初始化,联合训练 AP 达 54.5(远超 Faster R-CNN 的 40.2)
  2. 三种知识冲突的解耦处理比统一方案更有效
  3. 不使用回放的 YOLO-IOD 超越了使用回放的 RGR
  4. 数据泄漏对现有基准的影响虽小(0.6-2.0% AP)但真实存在
  5. 在 8 步增量中 RelGap 仅 8.8%,证明方法的长期稳定性

亮点与洞察

  1. 问题识别的系统性:三种知识冲突的归纳全面且准确,每种冲突对应一个解决模块
  2. CAKD 的双教师设计:通过将学生特征送入不同教师的检测头来实现非对称蒸馏,思路巧妙——利用检测头天然地过滤无关特征
  3. LoCo COCO 基准:不仅消除数据泄漏,还考虑类别共现关系,更贴近真实增量场景
  4. 实时推理:YOLO-World 基础上构建,保持实时速度的同时实现 SOTA 增量性能

局限性 / 可改进方向

  1. 依赖 YOLO-World 的预训练质量,换用更轻量化的 YOLO 版本可能性能下降
  2. IKS 中 Fisher 信息的计算需要额外前传,增加训练开销
  3. 聚类未知伪标签依赖 LLM 生成的通用词汇表,可能在专业领域(如医疗)不适用
  4. 仅在 COCO 上评估,更多领域数据集(如 LVIS 等长尾数据集)的验证仍需进一步展开
  5. CAKD 的双教师训练需要维护两个教师模型,内存开销较大

相关工作与启发

  • BPF 的双教师概念启发了 CAKD,但本文通过跨阶段特征传递解决了蒸馏错位问题
  • ERD 的弹性响应蒸馏在 YOLO 上适配不佳,本文通过 focal 权重选择性蒸馏解决
  • YOLO-World 的开放词汇能力为聚类未知伪标签提供了基础
  • LoCo COCO 的图聚类思路可推广到其他增量学习基准的构建

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 三种知识冲突的识别+三对应模块+新基准,贡献全面
  • 实验充分度: ⭐⭐⭐⭐⭐ — 单步/多步/LoCo COCO/组件消融,覆盖极为全面
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,框架图直观
  • 价值: ⭐⭐⭐⭐⭐ — 将 IOD 引入工业级 YOLO 框架,弥合学术与应用的鸿沟

相关论文