跳转至

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

会议: NEURIPS2025
arXiv: 2510.03608
代码: 待确认
领域: few-shot learning / incremental learning
关键词: Few-Shot Class-Incremental Learning, Diffusion Model, Reward-Aligned Generation, Mutual Boosting Loop, Data Augmentation

一句话总结

提出 Diffusion-Classifier Synergy (DCS) 框架,通过在扩散模型和分类器之间建立互相增强的闭环,利用多层次奖励函数(特征级+logits级)引导扩散模型生成对分类器最有益的图像,在 FSCIL 基准上取得 SOTA。

背景与动机

  • Few-Shot Class-Incremental Learning (FSCIL) 要求模型在增量学习新类时仅有少量样本,同时不能遗忘旧类知识,面临严重的 stability-plasticity 困境
  • 现有 FSCIL 方法高度依赖初始有限数据集中的知识,难以显著提升类内泛化(intra-task)和类间判别(inter-task)能力
  • 扩散模型天然具备数据增强潜力:为旧类生成图像可做 knowledge replay,为新类增强可提供更丰富训练信号
  • 但直接使用扩散模型存在两大问题:(1) 仅以类名为条件生成的图像存在语义偏差和多样性不足;(2) 生成过程缺乏分类器反馈,无法自适应地生成分类器真正需要的样本

核心问题

  1. 语义错位与多样性缺失:vanilla 扩散模型以类名条件生成图像时,语义对齐精度和类内多样性之间存在 trade-off,且两项指标均低于真实数据基线
  2. 反馈通路缺失:现有数据增强方法将扩散模型视为"盲目教师",无法根据分类器当前状态自适应调整生成内容,不能生成针对决策边界的困难样本

方法详解

整体框架:Mutual Boosting Loop

DCS 的核心思想是在扩散模型 \(D\) 和 FSCIL 分类器 \(\sigma\) 之间建立双向互增强循环: - 正向:将生成图像送入分类器,根据分类器输出计算多组奖励 \(\mathcal{R}_i\),通过 Diffusion Alignment as Sampling (DAS) 算法引导扩散模型调整采样策略 \(\phi\) - 反向:生成的高质量图像用于训练分类器,改进后的分类器提供更精准的奖励信号 - 采用 Stable Diffusion 3.5 Medium 作为基础生成模型,每类仅生成约 30 张图像(远低于传统百万级增强方案)

特征级奖励:语义一致性 + 多样性

Prototype-Anchored MMD Reward (\(\mathcal{R}_{\text{PAMMD}}\)): - 利用 Maximum Mean Discrepancy 度量生成图像集合与类原型的分布匹配度 - 包含 Diversity 项(惩罚生成图像间过度相似)和 Consistency 项(鼓励与类原型保持语义一致) - 对新旧类均适用,且随分类器原型更新而动态调整 - 支持增量计算,避免重复运算

Dimension-Wise Variance Matching Reward (\(\mathcal{R}_{\text{VM}}\)): - 受 FID 协方差项启发,但在 few-shot 场景下全协方差矩阵估计不稳定 - 改为逐维度匹配生成图像和真实图像的特征方差 - 仅在生成数量 >5 张时开始参与奖励计算,以保证统计可靠性

Logits 级奖励:分类器感知生成

Recalibrated Confidence Reward (\(\mathcal{R}_{\text{RC}}\)): - 基于交叉熵但引入自适应温度 \(T\),根据分类器对目标类的原始置信度动态调节 - 高置信度样本 → 温度升高 → 避免生成过于简单的样本 - 低置信度样本 → 温度保持低位 → 防止过度扩散 - 鼓励生成更具探索性和泛化性的类内样本

Cross-Session Confusion-Aware Reward (\(\mathcal{R}_{\text{CSCA}}\)): - 针对 FSCIL 中新旧类特征重叠的关键挑战 - 计算生成图像与各类原型的余弦距离,据此动态分配各类权重 - 有意鼓励生成位于混淆区域的困难样本(即与易混淆旧类相近的样本) - 通过加权 log-probability 引导分类器学习精细类间差异 - 可选择 Top-K 最相似原型以降低计算量

实验关键数据

主要对比结果

数据集 DCS 平均精度 前 SOTA 提升
miniImageNet 68.14% 67.05% (SAVC) +1.09
CUB-200 69.73% 69.35% (SAVC) +0.38
CIFAR-100 见消融 - +5.64 (vs baseline)

消融实验(CIFAR-100, 最后一个 session 的提升)

组件组合 \(\Delta_{\text{last}}\)
\(\mathcal{R}_{\text{PAMMD}}\) +1.24
+ \(\mathcal{R}_{\text{VM}}\) +1.86
+ \(\mathcal{R}_{\text{RC}}\) +3.50
+ \(\mathcal{R}_{\text{CSCA}}\)(完整 DCS) +5.64
  • Logits 级奖励(特别是 \(\mathcal{R}_{\text{CSCA}}\))贡献最大,证明分类器反馈对生成质量至关重要
  • 在每类仅生成 <50 张图像的条件下,DCS 超越了 vanilla 扩散模型在更大生成规模下的表现

亮点

  • 闭环设计精巧:将扩散模型与分类器的交互从单向知识提供升级为双向协同进化,形成 mutual boosting loop
  • 奖励函数多层次且互补:特征级负责语义锚定和多样性,logits 级负责决策边界优化,逐层消融验证了每个组件的贡献
  • 高效生成:每类仅需约 30 张生成图像即可达到 SOTA,远低于传统增强方法的百万级规模
  • 即插即用:不修改基线分类网络结构,仅通过生成数据增强即可提升性能
  • PAMMD 增量计算维度级方差匹配均针对 few-shot 场景的数据稀缺特性做了务实的工程适配

局限性 / 可改进方向

  • 依赖 Stable Diffusion 3.5 这样的大型预训练扩散模型,推理时生成图像的计算开销仍较大
  • DAS 的 Sequential Monte Carlo 采样引入额外开销,部署到端侧或实时系统有难度
  • 维度级方差匹配丢弃了特征维度间的相关性信息,在高维特征空间中可能有信息损失
  • 仅在标准 FSCIL 基准(miniImageNet、CUB-200、CIFAR-100)上验证,未涉及更复杂场景(如领域增量、开放世界)
  • 分类器仍采用冻结特征提取器 + 原型更新的经典范式,若与更先进的增量学习策略结合效果可能更好

与相关工作的对比

  • vs 传统 FSCIL 方法(TOPIC, CEC, FACT, SAVC 等):这些方法依赖网络优化技巧(自监督学习、分布校准),DCS 不修改分类网络,仅通过生成增强即超越
  • vs 扩散模型增强(直接用 SD 生成):vanilla 扩散模型在少量生成(<50/类)下表现显著不如 DCS,DCS 通过奖励引导实现"少而精"
  • vs 生成式增量学习(如 SDAFL [1]):传统方法缺乏分类器反馈,DCS 通过闭环奖励实现自适应生成
  • vs DAS 原始应用:原始 DAS 使用 HPSv2/TCE 等图像质量奖励,DCS 将奖励函数针对 FSCIL 任务重新设计

启发与关联

  • 生成-判别协同范式值得推广到其他 data-scarce 场景(如医学影像、长尾识别)
  • 奖励设计中的 confusion-aware 思路可借鉴到对比学习中的 hard negative mining
  • 为大型生成模型在下游小任务中的高效适配提供了一种 training-free 的范式(通过奖励引导而非微调)
  • 闭环互增强机制与 RLHF 中人类反馈引导生成的理念相通,可进一步探索更丰富的奖励信号来源

评分

  • 新颖性: 8/10 — 扩散模型与分类器的闭环互增强设计新颖,多层次奖励函数设计完整
  • 实验充分度: 7/10 — 三个标准基准 + 详细消融,但缺少更复杂场景验证和计算开销分析
  • 写作质量: 8/10 — 问题动机清晰,方法推导严谨,图表辅助理解
  • 价值: 7/10 — 为 FSCIL 中利用生成模型提供了新范式,但实际部署受限于扩散模型开销