跳转至

BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition

会议: AAAI 2026
arXiv: 2511.14097
代码: https://github.com/wakinghours-github/BCE3S
领域: 自监督 / 长尾识别
关键词: 长尾识别, 二元交叉熵, 对比学习, 分类器均匀性, 神经坍缩

一句话总结

提出 BCE3S,一种基于二元交叉熵(BCE)的三方协同学习框架,将 BCE 式联合学习、BCE 式对比学习和 BCE 式分类器均匀性学习集成在一起,通过 Sigmoid 解耦不同类别的度量来抑制长尾不平衡效应,在 CIFAR10/100-LT、ImageNet-LT 和 iNaturalist2018 上均取得 SOTA。

研究背景与动机

  1. 领域现状:长尾识别(LTR)是一个核心问题——真实数据分布通常高度不平衡,头部类别样本远多于尾部。现有方法主要基于交叉熵(CE)损失,辅以重采样、重加权、logit 调整等再平衡技术。

  2. 现有痛点:CE 损失的 Softmax 分母中耦合了所有类别的不平衡度量 \(\{\bm{w}_j^T\bm{x}+b_j\}\),导致头部类的不平衡效应被反复注入特征学习。即便加上对比学习和 ETF 固定分类器等技巧,CE 的这一固有缺陷也难以根本克服。

  3. 核心矛盾:长尾识别需要同时满足三个目标——(a)高类内紧凑性和类间可分性的特征,(b)均匀可分的分类器向量,(c)特征和分类器的良好对齐。现有方法没有统一框架来同时优化这三个目标,且 CE 的 Softmax 耦合性限制了各优化模块的协同效果。

  4. 本文要解决什么? 设计一个统一的三方协同学习(TSL)范式,同时优化特征-分类器联合学习、特征对比学习和分类器均匀性学习,并用 BCE(Sigmoid)替代 CE(Softmax)来解耦不平衡度量。

  5. 切入角度:已有研究表明 BCE 在 LTR 上比 CE 有更好的潜力(Cui et al. 2019),但这一潜力未被充分探索。作者从梯度分析角度深入解释 BCE 的优势——Sigmoid 将各类度量解耦到独立通道,避免了 Softmax 的耦合放大效应。

  6. 核心 idea 一句话:用 BCE(Sigmoid 解耦)替代 CE(Softmax 耦合),统一整合联合学习、对比学习和分类器均匀性学习,三位一体解决长尾识别。

方法详解

整体框架

输入长尾数据集中的一批样本,通过特征提取器(如 ResNet)得到特征 \(\bm{x}^{(k)}\),再通过三个并行的 BCE 损失分支联合训练: - BCE 联合学习 \(L_{bce}^{(sc)}\):优化特征与分类器向量的匹配 - BCE 对比学习 \(L_{bce}^{(ss)}\):增强特征的类内紧凑性 - BCE 均匀学习 \(L_{bce}^{(cc)}\):平衡分类器向量间的可分性

最终损失:\(L_{bce}^{(tri)} = \frac{1}{B}\sum L_{bce}^{(sc)} + \frac{\lambda_{ss}}{B}\sum L_{bce}^{(ss)} + \frac{\lambda_{cc}}{K}\sum L_{bce}^{(cc)}\)

关键设计

  1. BCE 联合学习 \(L_{bce}^{(sc)}\):
  2. 做什么:替代传统 CE 联合学习进行特征-分类器的联合优化
  3. 核心思路:对每个样本特征 \(\bm{x}^{(k)}\),与归一化分类器向量 \(\bm{w}_j\)\(\|\bm{w}_j\|=1\))计算 BCE 损失。正样本项为 \(\log(1+\exp(-\bm{w}_k^T\bm{x}^{(k)}-b_k))\),负样本项为 \(\sum_{j\neq k}\log(1+\exp(\bm{w}_j^T\bm{x}^{(k)}+b_j))\)。负样本使用重采样参数 \(r\) 随机选择,降低头部类的主导作用
  4. 设计动机:CE 的 Softmax 将所有类度量耦合到分母上,使头部类不平衡反复注入;BCE 的 Sigmoid 让每个拉/推力项只涉及单个分类器向量,解耦了不平衡效应。梯度分析表明 \(\text{Act}_{bce}(\bm{w}_j^T\bm{x}^{(k)}) = \sigma(\bm{w}_j^T\bm{x}^{(k)})\) 不依赖其他类的度量

  5. BCE 对比学习 \(L_{bce}^{(ss)}\):

  6. 做什么:在投影空间中增强类内紧凑性和类间可分性
  7. 核心思路:将特征通过非线性投影器 \(\mathcal{P}\) 映射到 \(\bm{z}^{(k)}\),正对为同类特征对的余弦相似度,负对为不同类的。使用 memory bank 保存各类代表性特征 \(\{\bm{z}_*^{(j)}\}\),损失为 \(\log(1+\exp(-\frac{1}{\tau}\cos(\bm{z}^{(k)}, \bm{z}_*^{(k)}))) + \sum_{j\neq k}\log(1+\exp(\frac{1}{\tau}\cos(\bm{z}^{(k)}, \bm{z}_*^{(j)})))\)
  8. 设计动机:不同于 Softmax 式对比学习(如 SupCon),BCE 对比学习避免了对所有负对相似度的耦合归一化,对尾部类更友好

  9. BCE 均匀性学习 \(L_{bce}^{(cc)}\):

  10. 做什么:直接优化分类器向量间的均匀可分性
  11. 核心思路:对每个分类器向量 \(\bm{w}_k\),最大化它与所有其他分类器向量的分离度:\(\sum_{j\neq k}\log(1+\exp(\bm{w}_k^T\bm{w}_j))\)。在梯度中表现为 "interactive term"——每个 \(\bm{w}_k\) 在每个 batch 都受到 \(K-1\) 个来自其他分类器向量的均匀排斥力
  12. 设计动机:联合学习由于头部样本主导,会导致尾部分类器向量坍缩(Neural Collapse 在不平衡数据上的退化形式)。均匀学习直接、均匀、持续地最大化所有分类器向量间的可分性,趋向 ETF 结构且与特征对齐(不像预设 ETF 那样与特征脱节)

损失函数 / 训练策略

  • 总损失权重:\(\lambda_{ss}\)(对比学习权重)和 \(\lambda_{cc}\)(均匀学习权重),通过参数搜索确定
  • 分类器归一化:仅归一化分类器向量(\(\|\bm{w}_j\|=1\)),不归一化特征,实验证明这是最优选择
  • 可选两阶段策略:第一阶段用完整 BCE3S 训练,第二阶段固定特征提取器,用类别均衡的 BCE 微调分类器

实验关键数据

主实验

数据集 指标 BCE3S 前 SOTA 提升
CIFAR10-LT (IF=100) Top-1 Acc 90.08% 89.58% (GLMC+MN) +0.50
CIFAR100-LT (IF=100) Top-1 Acc 59.50% 58.41% (GLMC+MN) +1.09
CIFAR100-LT (IF=50) Top-1 Acc 65.23% 64.57% (GLMC+MN) +0.66
CIFAR100-LT (IF=10) Top-1 Acc 76.13% 74.28% (GLMC+MN) +1.85

在 ImageNet-LT 上,BCE3S + ResNeXt50 达到 58.54%,也超过了 GLMC 和 ProCo 等方法。

消融实验

CIFAR100-LT (IF=100), ResNet32:

配置 Many Med. Few All
CE 联合 \(L_{ce}^{(sc)}\) 82.29 51.37 15.67 51.48
BCE 联合 \(L_{bce}^{(sc)}\) 81.11 55.06 17.40 52.88
BCE 联合+对比 82.74 56.57 20.63 54.95
BCE 联合+均匀 81.03 56.51 19.20 53.90
BCE3S (三方全开) 83.34 57.09 22.80 55.99
CE TSL (三方全开) 83.97 54.54 18.87 54.14

关键发现

  • BCE 联合学习相比 CE 在 Medium/Few 子集上显著提升(+3.69/+1.73),虽然 Many 略降,但总体更优
  • BCE 均匀学习在尾部类分类器可分性的标准差从高波动降到仅 0.106,效果远超 CE 版本
  • 完整 BCE TSL 比完整 CE TSL 高 1.85%,证明 BCE 的解耦优势在三方协同中被放大
  • t-SNE 可视化显示:CE 方法中 "cat" 和 "dog" 特征聚类严重重叠,而 BCE3S 下 10 个类别完全分离,尾部类紧凑度明显提高
  • 关键发现:BCE 对比学习和均匀学习与 CE 联合学习组合时效果有限,说明 CE 的 Softmax 耦合是根本瓶颈

亮点与洞察

  • 从梯度角度深入解释 BCE vs CE:不只是实验性地说"BCE更好",而是从 \(\text{Act}_{bce}\)\(\text{Act}_{ce}\) 的梯度公式出发,清晰展示了 Softmax 如何耦合不平衡度量、Sigmoid 如何解耦,这个理论分析有很强的说服力
  • 均匀性学习的简洁设计:仅用分类器向量间的 BCE 排斥力就能趋近 ETF 结构,不需要预设固定 ETF 或额外正交约束,优雅地解决了预设 ETF 与特征不对齐的问题
  • 三方协同的增益不可分解:实验显示只有当三个分支都基于 BCE 时才能达到最佳效果,CE 联合学习的 Softmax 瓶颈会限制其他 BCE 分支的发挥

局限性 / 可改进方向

  • 骨干网络仅验证了 ResNet 系列(ResNet32/50, ResNeXt50),未在 ViT 等 Transformer 架构上充分验证(虽然提到了 LiVT 但未做对比)
  • 负样本重采样参数 \(r\) 需要手动调节,对不同数据集可能需要不同设置
  • 均匀性学习假设所有类别分类器向量应该等距分布(ETF),但对于语义相近的类别,完全等距可能不是最优的
  • 数据增强和更先进的训练策略(如 MixUp、CutMix)与 BCE3S 的结合未探索

相关工作与启发

  • vs GLMC (CVPR 2023):GLMC 同样结合对比学习和重加权,但基于 CE 框架。BCE3S 通过全 BCE 架构在 CIFAR100-LT IF=100 上超出 GLMC+MN 1.09%,说明损失函数的根本改变比外部再平衡技巧更有效
  • vs ProCo (TPAMI 2024):ProCo 用 vMF 分布建模特征空间来缓解对比学习需要大量样本的问题。BCE3S 用更简单的 Sigmoid 解耦达到了相似甚至更好的效果(CIFAR100-LT: 59.50% vs 52.80%)
  • vs 预设 ETF 方法(NC-DRW、RBL):这些方法在训练前固定 ETF 分类器,导致与最终特征对齐不良。BCE3S 的均匀学习让分类器在训练中自然趋向 ETF 且与特征协同优化

评分

  • 新颖性: ⭐⭐⭐⭐ TSL 框架概念新颖,BCE 在 LTR 中的深度分析有启发性
  • 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集 + 详细消融 + 可视化分析 + 梯度理论分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但部分符号和公式编号在正文中引用较混乱
  • 价值: ⭐⭐⭐⭐ 为长尾识别提供了统一框架和新的设计哲学(BCE 优于 CE 的系统性论证) 提出 BCE3S 框架,用 BCE (Sigmoid) 替代 CE (Softmax) 作为三路协同学习(联合学习+对比学习+均匀学习)的统一基础,解决 Softmax 耦合不平衡分类器向量导致的长尾偏差,在 CIFAR-LT/ImageNet-LT 上达到 SOTA。

研究背景与动机

  1. 领域现状:长尾识别 (LTR) 中头部类样本远多于尾部类。主流方法包括重采样、重加权、解耦训练和对比学习等,大多基于 CE 损失框架。

  2. 现有痛点:CE 的 Softmax 将 \(K\) 个类别的内积耦合在分母中——\(\text{Softmax}(z_i) = \frac{\exp(z_i)}{\sum_j \exp(z_j)}\),当类不平衡时,头部类的分类器向量更大,分母中头部项主导梯度,系统性地抑制尾部类的特征学习。

  3. 核心矛盾:Softmax 的归一化机制使得每个类的梯度不仅依赖自身,还耦合所有其他类的分类器向量——不平衡时这种耦合扩大偏差。

  4. 本文要解决什么? 从损失函数层面根本性地消除类间耦合对长尾学习的干扰。

  5. 切入角度:用 BCE (Sigmoid) 替代 CE (Softmax)——Sigmoid 对每个类独立计算推/拉力,不耦合其他类。

  6. 核心 idea 一句话:BCE 的 Sigmoid 解耦类间交互,使拉力/推力独立于类频率,从根本上缓解长尾偏差。

方法详解

整体框架

三路协同学习:(1) BCE 联合学习——样本-分类器对齐;(2) BCE 对比学习——样本-样本紧凑性;(3) BCE 均匀学习——分类器-分类器均匀化。三者统一使用 BCE 损失。

关键设计

  1. BCE 联合学习 \(L_{\text{bce}}^{(\text{sc})}\):
  2. 做什么:优化样本特征与分类器向量的对齐
  3. 核心思路:将特征与 L2 归一化的分类器向量的相似度通过 Sigmoid 独立评估每个类的匹配度。重采样参数 \(r\) 控制负类采样比例
  4. 设计动机:L2 归一化防止头部类分类器向量过大导致的梯度主导;Sigmoid 独立计算每个类,不耦合

  5. BCE 对比学习 \(L_{\text{bce}}^{(\text{ss})}\):

  6. 做什么:增强类内紧凑性和类间分离性
  7. 核心思路:在投影空间中用 BCE 对同类特征拉近、异类推远。与 SupCon 等基于 Softmax 的对比学习不同,BCE 对每个正/负对独立计算
  8. 设计动机:避免 Softmax 对比损失中不平衡样本对正/负对权重的干扰

  9. BCE 均匀学习 \(L_{\text{bce}}^{(\text{cc})}\):

  10. 做什么:直接推动分类器向量均匀分布(类 ETF 结构)
  11. 核心思路:每个分类器向量获得 \(K-1\) 个来自其他分类器的排斥力,与样本分布完全无关。每 batch 提供恒定的排斥力
  12. 设计动机:短路样本不平衡——分类器均匀化只看分类器之间的关系,不受样本数影响

损失函数 / 训练策略

\(L = \frac{1}{B}\sum L_{\text{bce}}^{(\text{sc})} + \frac{\lambda_{ss}}{B}\sum L_{\text{bce}}^{(\text{ss})} + \frac{\lambda_{cc}}{K}\sum L_{\text{bce}}^{(\text{cc})}\)

实验关键数据

主实验

数据集 IF BCE3S 前SOTA 提升
CIFAR100-LT 100 59.50 58.41 +1.09
CIFAR100-LT 10 76.13 74.28 +1.85
CIFAR10-LT 100 90.08 89.58 +0.50
ImageNet-LT (RX50) 256 58.54 58.00 +0.54

消融实验(CIFAR100-LT, IF=100)

配置 Many Med Few All
CE baseline 82.29 51.37 15.67 51.48
BCE 联合学习 81.11 55.06 17.40 52.88
+ BCE 对比学习 82.74 56.57 20.63 54.95
BCE3S (完整) 83.34 57.09 22.80 55.99

关键发现

  • BCE 单独就比 CE 提升 2.4%(51.48→52.88),尾部类改善最大(15.67→17.40)
  • 三个 BCE 组件协同效应显著——BCE3S (55.99) 远超 CE3S (54.14,用 CE 做三路学习)
  • 特征紧凑度:BCE 的类内相似度均值 95.47 (std 1.81) vs CE ~82 (std 5.55)
  • 分类器均匀性:BCE 标准差 0.106(极度均衡)

亮点与洞察

  • 从"损失函数耦合性"角度分析长尾偏差是新鲜视角——不是设计新的重采样/重加权策略,而是指出 Softmax 本身就是偏差源
  • BCE 均匀学习直接作用于分类器,完全绕过样本分布——这个思路对任何不平衡场景都适用

局限性 / 可改进方向

  • 绝对提升幅度有限(~1-2%),可能接近该框架的天花板
  • 仅在分类任务上验证,检测/分割等任务的效果未知
  • \(\lambda_{ss}, \lambda_{cc}\) 超参需要调优

相关工作与启发

  • vs ProCo: ProCo 用概率对比学习,BCE3S 更简洁地用 Sigmoid 解耦。ImageNet-LT 上 BCE3S 略优
  • vs GLMC: GLMC 用混合增强+对比学习,BCE3S 从损失函数层面更根本

评分

  • 新颖性: ⭐⭐⭐⭐ "Softmax 耦合是长尾偏差根源"的分析新颖
  • 实验充分度: ⭐⭐⭐⭐ 4个数据集+详细消融+特征可视化
  • 写作质量: ⭐⭐⭐⭐ 理论分析清晰
  • 价值: ⭐⭐⭐⭐ 为长尾学习提供了新的损失设计范式