YOLO-IOD: Towards Real Time Incremental Object Detection¶

会议: AAAI 2026
arXiv: 2512.22973
代码: 无
领域: 目标检测
关键词: 增量目标检测, YOLO, 知识蒸馏, 灾难性遗忘, 伪标签

一句话总结¶

首次系统性地将增量目标检测（IOD）引入 YOLO 实时框架，识别三种知识冲突类型，提出 CPR + IKS + CAKD 三模块协同解决方案，并引入更真实的 LoCo COCO 基准评估。

研究背景与动机¶

增量目标检测（IOD） 要求模型在学习新类别的同时保留旧类别的检测能力。现有 IOD 方法主要基于 Faster R-CNN 或 DETR，但在实际工业部署中，YOLO 系列检测器因其实时推理能力被广泛采用。然而，将现有 IOD 方法应用到 YOLO 上时，性能严重下降。

本文核心贡献：首次系统识别 YOLO 基增量检测器中导致灾难性遗忘的三种知识冲突：

1. 前景-背景混淆¶

在增量设置中，前一阶段和未来阶段的未标注目标被误分类为背景。YOLO 依赖激进的数据增强（Mosaic、MixUp）且假设标注准确——在 IOD 中，伪标签的噪声被这些增强放大，严重影响性能。

2. 参数干扰¶

不同任务经常依赖模型中重叠的参数子集。新任务的更新改变共享参数，破坏先前学习的表示，导致旧任务的灾难性遗忘。

3. 知识蒸馏错位¶

教师和学生模型为不同类别分布优化，违反标准知识蒸馏中"两模型共享一致学习目标"的核心假设。YOLO 的密集预测特性使该问题更加突出。现有方法仅选择不与新标签重合的旧任务输出作为蒸馏目标，只能蒸馏部分知识。

LoCo COCO 基准的必要性：现有 IOD 基准随意划分类别，忽略类别共现关系，且允许图像在各增量阶段重复出现（平均每张图出现 1.84 个阶段）。这违反了持续学习的基本前提，且人为地提高了伪标签方法的效果（因为检测器可以在重用的训练图上生成伪标签）。

方法详解¶

整体框架¶

YOLO-IOD 基于预训练 YOLO-World，通过分阶段参数高效微调实现增量学习，包含三个模块：

CPR（冲突感知伪标签精炼）→ 解决前景-背景混淆
IKS（重要性核选择）→ 解决参数干扰
CAKD（跨阶段非对称知识蒸馏）→ 解决蒸馏错位

关键设计¶

1. 冲突感知伪标签精炼（CPR）¶

增强伪标签损失：将伪标签置信度 $s$ 作为软监督目标，结合置信度感知加权和熵正则化：

\[\mathcal{L}_{pseudo}^{cls} = -|s - p_t|^\gamma \log(p_t) + \lambda \cdot (1-s)^\delta \cdot H(\hat{y})\]

第一项：focal-style 置信度对齐监督
第二项：与置信度反向缩放的自适应熵正则化
低置信度伪标签提供软监督并被正则化保持不确定性，高置信度标签贡献稳定监督

聚类未知伪标签： 1. 构建通用词汇表 $V_{gen}$（500 个常见目标 + 50 个抽象超类别，由 LLM 总结） 2. 使用 YOLO-World + $V_{gen}$ 检测所有非标注前景 3. 对检测类别的文本特征进行频率加权 K-Means 聚类，得到未知超类别集合 $\mathcal{U}$ 4. 将知识冲突转化为发现和学习未知超类别的过程

2. 重要性核选择（IKS）¶

以卷积核为粒度（而非单个参数）量化参数重要性，避免存储成本随任务数线性增长。

Fisher 信息参数重要性：

\[\mathbf{I}_t(\mathbf{w}^k) = \sum_{j=1}^{d_k} \left( \frac{1}{N_t} \sum_{n=1}^{N_t} \left( \frac{\partial \log p(y_n|x_n;\theta)}{\partial w_j^k} \right)^2 \right)\]

差分重要性（排除对旧任务关键的参数）：

\[\Delta \mathbf{I}_t(\mathbf{w}^k) = \mathbf{I}_t(\mathbf{w}^k) - \rho \sum_{i=1}^{t-1} \mathbf{I}_i(\mathbf{w}^k)\]

仅选择 top-$\mathcal{K}$ 的核进行微调（基础阶段 20%，增量阶段 12%），其余冻结。

3. 跨阶段非对称知识蒸馏（CAKD）（核心创新）¶

采用双教师框架，目标检测器 $\mathcal{M}_t$ 为学生： - 旧教师 $\mathcal{M}_{t-1}$：专注于 $\mathcal{C}_{1:t-1}$，其检测头抑制无关特征的响应 - 当前教师 $\mathcal{M}_{s_t}$：仅在当前阶段数据 $D_t$ 上训练，聚焦于 $\mathcal{C}_t$

蒸馏过程：将学生 neck 特征 $\mathbf{F}_{student}^{neck}$ 送入教师检测头，生成跨阶段 post-head 特征进行蒸馏。

focal 权重：$w_{focal}(p) = \max_j \text{logit}_{teacher}(p, j)$，抑制背景/噪声区域。

分类蒸馏损失： $$\mathcal{L}_{cls\_kd} = \sum_p \|\mathbf{E}_{teacher}(p) - \mathbf{E}_{student\_cross}(p)\|_2^2 \cdot w_{focal}(p)$$

回归蒸馏损失： $$\mathcal{L}_{reg\_kd} = \sum_p \mathcal{L}_{IoU}(B_{tea}(p), B_{stu\_cross}(p)) \cdot w_{focal}(p)$$

总蒸馏目标：$\mathcal{L}_{CAKD} = \alpha \mathcal{L}_{cls\_kd} + \beta \mathcal{L}_{reg\_kd}$

为什么比现有方法好：现有方法仅选择不与新标签重合的旧输出蒸馏，只能传递部分知识。CAKD 通过双教师检测头全局蒸馏，分别处理新旧类别，避免了错位监督。

LoCo COCO 基准构建¶

构建类别共现矩阵 $\mathbf{A} \in \mathbb{R}^{N \times N}$
图聚类将类别分为频繁共现的组，分配到同一任务
对仍跨阶段的重叠图像随机分配到一个任务
确保每张图只出现在一个阶段，消除数据泄漏

训练策略¶

基础模型：YOLO-World (X)
批大小 16，4 × RTX 3090
学习率：backbone 2e-5, neck/head 2e-4
AdamW 优化器，20 epochs，第 10 epoch 后关闭 Mosaic 增强
IKS 核选择比例：基础阶段 20%，增量阶段 12%

实验关键数据¶

主实验¶

单步增量设置（COCO 40+40）：

方法	检测器	AP	AbsGap	RelGap
BPF	Faster R-CNN	34.4	5.8	14.4%
CL-DETR	Deformable DETR	42.0	5.0	10.6%
SDDGR	Deformable DETR	43.0	4.0	8.5%
GCD	Grounding DINO	45.7	11.5	20.1%
ERD	YOLO-World(X)	49.9	4.6	8.4%
RGR	YOLO-World(X)	51.5	3.0	5.5%
YOLO-IOD	YOLO-World(X)	53.0	1.5	2.7%

YOLO-IOD 仅有 2.7% 的相对性能差距（接近联合训练 54.5 的上界），且无需回放（RGR 需要生成式回放）。

多步增量设置（关键结果）：

设置	YOLO-IOD 最终 AP	RGR 最终 AP	YOLO-IOD RelGap	RGR RelGap
40-10 (5步)	50.6	44.8	7.1%	17.8%
40-20 (3步)	51.9	48.6	4.8%	10.8%
20-20 (4步)	51.7	48.1	5.1%	11.7%
10-10 (8步)	49.7	43.4	8.8%	20.3%

在最长的 10-10 设置（8 个增量阶段）下，YOLO-IOD 仍仅有 8.8% 相对差距，远优于 RGR 的 20.3%。

消融实验¶

组件消融（COCO 70-10 / 40-10）：

伪标签	CPR	IKS	CAKD	70-10 AP	40-10 AP
✓	-	-	-	48.4	44.3
✓	✓	-	-	50.3	47.3
✓	✓	✓	-	51.5	49.1
✓	-	-	✓	50.8	49.2
✓	✓	✓	✓	52.4	50.6

CPR 单独贡献 +1.9/+3.0 AP；IKS 在 CPR 基础上再 +1.2/+1.8 AP；CAKD 单独即超基线 +2.4/+4.9 AP。三者协同效果最优。

LoCo COCO 评估：

方法	COCO 40+40 AP	LoCo 40+40 AP	CoGap
RGR	35.6	35.0	0.6%
CL-DETR	42.0	40.9	1.1%
GCD	45.7	44.7	1.0%
YOLO-IOD	53.0	52.2	0.8%

所有方法在 LoCo COCO 上都有 AP 下降，证实原始 COCO 分区存在数据泄漏。YOLO-IOD 受影响最小。

IKS 核选择比例消融：$\mathcal{K}=12\%$ 时达最优平衡——过小（5%）限制适应能力，过大（20%）导致遗忘。

CAKD 双教师消融：早期阶段"仅当前教师"更好（促进快速适应）；后期"仅旧教师"更好（保持稳定性）。完整 CAKD 始终最优。

关键发现¶

YOLO-World 的预训练语义知识为 IOD 提供了强大的初始化，联合训练 AP 达 54.5（远超 Faster R-CNN 的 40.2）
三种知识冲突的解耦处理比统一方案更有效
不使用回放的 YOLO-IOD 超越了使用回放的 RGR
数据泄漏对现有基准的影响虽小（0.6-2.0% AP）但真实存在
在 8 步增量中 RelGap 仅 8.8%，证明方法的长期稳定性

亮点与洞察¶

问题识别的系统性：三种知识冲突的归纳全面且准确，每种冲突对应一个解决模块
CAKD 的双教师设计：通过将学生特征送入不同教师的检测头来实现非对称蒸馏，思路巧妙——利用检测头天然地过滤无关特征
LoCo COCO 基准：不仅消除数据泄漏，还考虑类别共现关系，更贴近真实增量场景
实时推理：YOLO-World 基础上构建，保持实时速度的同时实现 SOTA 增量性能

局限性 / 可改进方向¶

依赖 YOLO-World 的预训练质量，换用更轻量化的 YOLO 版本可能性能下降
IKS 中 Fisher 信息的计算需要额外前传，增加训练开销
聚类未知伪标签依赖 LLM 生成的通用词汇表，可能在专业领域（如医疗）不适用
仅在 COCO 上评估，更多领域数据集（如 LVIS 等长尾数据集）的验证仍需进一步展开
CAKD 的双教师训练需要维护两个教师模型，内存开销较大

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 三种知识冲突的识别+三对应模块+新基准，贡献全面
实验充分度: ⭐⭐⭐⭐⭐ — 单步/多步/LoCo COCO/组件消融，覆盖极为全面
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，框架图直观
价值: ⭐⭐⭐⭐⭐ — 将 IOD 引入工业级 YOLO 框架，弥合学术与应用的鸿沟