BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition¶
会议: AAAI 2026
arXiv: 2511.14097
代码: https://github.com/wakinghours-github/BCE3S
领域: 自监督 / 长尾识别
关键词: 长尾识别, 二元交叉熵, 对比学习, 分类器均匀性, 神经坍缩
一句话总结¶
提出 BCE3S,一种基于二元交叉熵(BCE)的三方协同学习框架,将 BCE 式联合学习、BCE 式对比学习和 BCE 式分类器均匀性学习集成在一起,通过 Sigmoid 解耦不同类别的度量来抑制长尾不平衡效应,在 CIFAR10/100-LT、ImageNet-LT 和 iNaturalist2018 上均取得 SOTA。
研究背景与动机¶
-
领域现状:长尾识别(LTR)是一个核心问题——真实数据分布通常高度不平衡,头部类别样本远多于尾部。现有方法主要基于交叉熵(CE)损失,辅以重采样、重加权、logit 调整等再平衡技术。
-
现有痛点:CE 损失的 Softmax 分母中耦合了所有类别的不平衡度量 \(\{\bm{w}_j^T\bm{x}+b_j\}\),导致头部类的不平衡效应被反复注入特征学习。即便加上对比学习和 ETF 固定分类器等技巧,CE 的这一固有缺陷也难以根本克服。
-
核心矛盾:长尾识别需要同时满足三个目标——(a)高类内紧凑性和类间可分性的特征,(b)均匀可分的分类器向量,(c)特征和分类器的良好对齐。现有方法没有统一框架来同时优化这三个目标,且 CE 的 Softmax 耦合性限制了各优化模块的协同效果。
-
本文要解决什么? 设计一个统一的三方协同学习(TSL)范式,同时优化特征-分类器联合学习、特征对比学习和分类器均匀性学习,并用 BCE(Sigmoid)替代 CE(Softmax)来解耦不平衡度量。
-
切入角度:已有研究表明 BCE 在 LTR 上比 CE 有更好的潜力(Cui et al. 2019),但这一潜力未被充分探索。作者从梯度分析角度深入解释 BCE 的优势——Sigmoid 将各类度量解耦到独立通道,避免了 Softmax 的耦合放大效应。
-
核心 idea 一句话:用 BCE(Sigmoid 解耦)替代 CE(Softmax 耦合),统一整合联合学习、对比学习和分类器均匀性学习,三位一体解决长尾识别。
方法详解¶
整体框架¶
输入长尾数据集中的一批样本,通过特征提取器(如 ResNet)得到特征 \(\bm{x}^{(k)}\),再通过三个并行的 BCE 损失分支联合训练: - BCE 联合学习 \(L_{bce}^{(sc)}\):优化特征与分类器向量的匹配 - BCE 对比学习 \(L_{bce}^{(ss)}\):增强特征的类内紧凑性 - BCE 均匀学习 \(L_{bce}^{(cc)}\):平衡分类器向量间的可分性
最终损失:\(L_{bce}^{(tri)} = \frac{1}{B}\sum L_{bce}^{(sc)} + \frac{\lambda_{ss}}{B}\sum L_{bce}^{(ss)} + \frac{\lambda_{cc}}{K}\sum L_{bce}^{(cc)}\)
关键设计¶
- BCE 联合学习 \(L_{bce}^{(sc)}\):
- 做什么:替代传统 CE 联合学习进行特征-分类器的联合优化
- 核心思路:对每个样本特征 \(\bm{x}^{(k)}\),与归一化分类器向量 \(\bm{w}_j\)(\(\|\bm{w}_j\|=1\))计算 BCE 损失。正样本项为 \(\log(1+\exp(-\bm{w}_k^T\bm{x}^{(k)}-b_k))\),负样本项为 \(\sum_{j\neq k}\log(1+\exp(\bm{w}_j^T\bm{x}^{(k)}+b_j))\)。负样本使用重采样参数 \(r\) 随机选择,降低头部类的主导作用
-
设计动机:CE 的 Softmax 将所有类度量耦合到分母上,使头部类不平衡反复注入;BCE 的 Sigmoid 让每个拉/推力项只涉及单个分类器向量,解耦了不平衡效应。梯度分析表明 \(\text{Act}_{bce}(\bm{w}_j^T\bm{x}^{(k)}) = \sigma(\bm{w}_j^T\bm{x}^{(k)})\) 不依赖其他类的度量
-
BCE 对比学习 \(L_{bce}^{(ss)}\):
- 做什么:在投影空间中增强类内紧凑性和类间可分性
- 核心思路:将特征通过非线性投影器 \(\mathcal{P}\) 映射到 \(\bm{z}^{(k)}\),正对为同类特征对的余弦相似度,负对为不同类的。使用 memory bank 保存各类代表性特征 \(\{\bm{z}_*^{(j)}\}\),损失为 \(\log(1+\exp(-\frac{1}{\tau}\cos(\bm{z}^{(k)}, \bm{z}_*^{(k)}))) + \sum_{j\neq k}\log(1+\exp(\frac{1}{\tau}\cos(\bm{z}^{(k)}, \bm{z}_*^{(j)})))\)
-
设计动机:不同于 Softmax 式对比学习(如 SupCon),BCE 对比学习避免了对所有负对相似度的耦合归一化,对尾部类更友好
-
BCE 均匀性学习 \(L_{bce}^{(cc)}\):
- 做什么:直接优化分类器向量间的均匀可分性
- 核心思路:对每个分类器向量 \(\bm{w}_k\),最大化它与所有其他分类器向量的分离度:\(\sum_{j\neq k}\log(1+\exp(\bm{w}_k^T\bm{w}_j))\)。在梯度中表现为 "interactive term"——每个 \(\bm{w}_k\) 在每个 batch 都受到 \(K-1\) 个来自其他分类器向量的均匀排斥力
- 设计动机:联合学习由于头部样本主导,会导致尾部分类器向量坍缩(Neural Collapse 在不平衡数据上的退化形式)。均匀学习直接、均匀、持续地最大化所有分类器向量间的可分性,趋向 ETF 结构且与特征对齐(不像预设 ETF 那样与特征脱节)
损失函数 / 训练策略¶
- 总损失权重:\(\lambda_{ss}\)(对比学习权重)和 \(\lambda_{cc}\)(均匀学习权重),通过参数搜索确定
- 分类器归一化:仅归一化分类器向量(\(\|\bm{w}_j\|=1\)),不归一化特征,实验证明这是最优选择
- 可选两阶段策略:第一阶段用完整 BCE3S 训练,第二阶段固定特征提取器,用类别均衡的 BCE 微调分类器
实验关键数据¶
主实验¶
| 数据集 | 指标 | BCE3S | 前 SOTA | 提升 |
|---|---|---|---|---|
| CIFAR10-LT (IF=100) | Top-1 Acc | 90.08% | 89.58% (GLMC+MN) | +0.50 |
| CIFAR100-LT (IF=100) | Top-1 Acc | 59.50% | 58.41% (GLMC+MN) | +1.09 |
| CIFAR100-LT (IF=50) | Top-1 Acc | 65.23% | 64.57% (GLMC+MN) | +0.66 |
| CIFAR100-LT (IF=10) | Top-1 Acc | 76.13% | 74.28% (GLMC+MN) | +1.85 |
在 ImageNet-LT 上,BCE3S + ResNeXt50 达到 58.54%,也超过了 GLMC 和 ProCo 等方法。
消融实验¶
CIFAR100-LT (IF=100), ResNet32:
| 配置 | Many | Med. | Few | All |
|---|---|---|---|---|
| CE 联合 \(L_{ce}^{(sc)}\) | 82.29 | 51.37 | 15.67 | 51.48 |
| BCE 联合 \(L_{bce}^{(sc)}\) | 81.11 | 55.06 | 17.40 | 52.88 |
| BCE 联合+对比 | 82.74 | 56.57 | 20.63 | 54.95 |
| BCE 联合+均匀 | 81.03 | 56.51 | 19.20 | 53.90 |
| BCE3S (三方全开) | 83.34 | 57.09 | 22.80 | 55.99 |
| CE TSL (三方全开) | 83.97 | 54.54 | 18.87 | 54.14 |
关键发现¶
- BCE 联合学习相比 CE 在 Medium/Few 子集上显著提升(+3.69/+1.73),虽然 Many 略降,但总体更优
- BCE 均匀学习在尾部类分类器可分性的标准差从高波动降到仅 0.106,效果远超 CE 版本
- 完整 BCE TSL 比完整 CE TSL 高 1.85%,证明 BCE 的解耦优势在三方协同中被放大
- t-SNE 可视化显示:CE 方法中 "cat" 和 "dog" 特征聚类严重重叠,而 BCE3S 下 10 个类别完全分离,尾部类紧凑度明显提高
- 关键发现:BCE 对比学习和均匀学习与 CE 联合学习组合时效果有限,说明 CE 的 Softmax 耦合是根本瓶颈
亮点与洞察¶
- 从梯度角度深入解释 BCE vs CE:不只是实验性地说"BCE更好",而是从 \(\text{Act}_{bce}\) 和 \(\text{Act}_{ce}\) 的梯度公式出发,清晰展示了 Softmax 如何耦合不平衡度量、Sigmoid 如何解耦,这个理论分析有很强的说服力
- 均匀性学习的简洁设计:仅用分类器向量间的 BCE 排斥力就能趋近 ETF 结构,不需要预设固定 ETF 或额外正交约束,优雅地解决了预设 ETF 与特征不对齐的问题
- 三方协同的增益不可分解:实验显示只有当三个分支都基于 BCE 时才能达到最佳效果,CE 联合学习的 Softmax 瓶颈会限制其他 BCE 分支的发挥
局限性 / 可改进方向¶
- 骨干网络仅验证了 ResNet 系列(ResNet32/50, ResNeXt50),未在 ViT 等 Transformer 架构上充分验证(虽然提到了 LiVT 但未做对比)
- 负样本重采样参数 \(r\) 需要手动调节,对不同数据集可能需要不同设置
- 均匀性学习假设所有类别分类器向量应该等距分布(ETF),但对于语义相近的类别,完全等距可能不是最优的
- 数据增强和更先进的训练策略(如 MixUp、CutMix)与 BCE3S 的结合未探索
相关工作与启发¶
- vs GLMC (CVPR 2023):GLMC 同样结合对比学习和重加权,但基于 CE 框架。BCE3S 通过全 BCE 架构在 CIFAR100-LT IF=100 上超出 GLMC+MN 1.09%,说明损失函数的根本改变比外部再平衡技巧更有效
- vs ProCo (TPAMI 2024):ProCo 用 vMF 分布建模特征空间来缓解对比学习需要大量样本的问题。BCE3S 用更简单的 Sigmoid 解耦达到了相似甚至更好的效果(CIFAR100-LT: 59.50% vs 52.80%)
- vs 预设 ETF 方法(NC-DRW、RBL):这些方法在训练前固定 ETF 分类器,导致与最终特征对齐不良。BCE3S 的均匀学习让分类器在训练中自然趋向 ETF 且与特征协同优化
评分¶
- 新颖性: ⭐⭐⭐⭐ TSL 框架概念新颖,BCE 在 LTR 中的深度分析有启发性
- 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集 + 详细消融 + 可视化分析 + 梯度理论分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但部分符号和公式编号在正文中引用较混乱
- 价值: ⭐⭐⭐⭐ 为长尾识别提供了统一框架和新的设计哲学(BCE 优于 CE 的系统性论证) 提出 BCE3S 框架,用 BCE (Sigmoid) 替代 CE (Softmax) 作为三路协同学习(联合学习+对比学习+均匀学习)的统一基础,解决 Softmax 耦合不平衡分类器向量导致的长尾偏差,在 CIFAR-LT/ImageNet-LT 上达到 SOTA。
研究背景与动机¶
-
领域现状:长尾识别 (LTR) 中头部类样本远多于尾部类。主流方法包括重采样、重加权、解耦训练和对比学习等,大多基于 CE 损失框架。
-
现有痛点:CE 的 Softmax 将 \(K\) 个类别的内积耦合在分母中——\(\text{Softmax}(z_i) = \frac{\exp(z_i)}{\sum_j \exp(z_j)}\),当类不平衡时,头部类的分类器向量更大,分母中头部项主导梯度,系统性地抑制尾部类的特征学习。
-
核心矛盾:Softmax 的归一化机制使得每个类的梯度不仅依赖自身,还耦合所有其他类的分类器向量——不平衡时这种耦合扩大偏差。
-
本文要解决什么? 从损失函数层面根本性地消除类间耦合对长尾学习的干扰。
-
切入角度:用 BCE (Sigmoid) 替代 CE (Softmax)——Sigmoid 对每个类独立计算推/拉力,不耦合其他类。
-
核心 idea 一句话:BCE 的 Sigmoid 解耦类间交互,使拉力/推力独立于类频率,从根本上缓解长尾偏差。
方法详解¶
整体框架¶
三路协同学习:(1) BCE 联合学习——样本-分类器对齐;(2) BCE 对比学习——样本-样本紧凑性;(3) BCE 均匀学习——分类器-分类器均匀化。三者统一使用 BCE 损失。
关键设计¶
- BCE 联合学习 \(L_{\text{bce}}^{(\text{sc})}\):
- 做什么:优化样本特征与分类器向量的对齐
- 核心思路:将特征与 L2 归一化的分类器向量的相似度通过 Sigmoid 独立评估每个类的匹配度。重采样参数 \(r\) 控制负类采样比例
-
设计动机:L2 归一化防止头部类分类器向量过大导致的梯度主导;Sigmoid 独立计算每个类,不耦合
-
BCE 对比学习 \(L_{\text{bce}}^{(\text{ss})}\):
- 做什么:增强类内紧凑性和类间分离性
- 核心思路:在投影空间中用 BCE 对同类特征拉近、异类推远。与 SupCon 等基于 Softmax 的对比学习不同,BCE 对每个正/负对独立计算
-
设计动机:避免 Softmax 对比损失中不平衡样本对正/负对权重的干扰
-
BCE 均匀学习 \(L_{\text{bce}}^{(\text{cc})}\):
- 做什么:直接推动分类器向量均匀分布(类 ETF 结构)
- 核心思路:每个分类器向量获得 \(K-1\) 个来自其他分类器的排斥力,与样本分布完全无关。每 batch 提供恒定的排斥力
- 设计动机:短路样本不平衡——分类器均匀化只看分类器之间的关系,不受样本数影响
损失函数 / 训练策略¶
\(L = \frac{1}{B}\sum L_{\text{bce}}^{(\text{sc})} + \frac{\lambda_{ss}}{B}\sum L_{\text{bce}}^{(\text{ss})} + \frac{\lambda_{cc}}{K}\sum L_{\text{bce}}^{(\text{cc})}\)
实验关键数据¶
主实验¶
| 数据集 | IF | BCE3S | 前SOTA | 提升 |
|---|---|---|---|---|
| CIFAR100-LT | 100 | 59.50 | 58.41 | +1.09 |
| CIFAR100-LT | 10 | 76.13 | 74.28 | +1.85 |
| CIFAR10-LT | 100 | 90.08 | 89.58 | +0.50 |
| ImageNet-LT (RX50) | 256 | 58.54 | 58.00 | +0.54 |
消融实验(CIFAR100-LT, IF=100)¶
| 配置 | Many | Med | Few | All |
|---|---|---|---|---|
| CE baseline | 82.29 | 51.37 | 15.67 | 51.48 |
| BCE 联合学习 | 81.11 | 55.06 | 17.40 | 52.88 |
| + BCE 对比学习 | 82.74 | 56.57 | 20.63 | 54.95 |
| BCE3S (完整) | 83.34 | 57.09 | 22.80 | 55.99 |
关键发现¶
- BCE 单独就比 CE 提升 2.4%(51.48→52.88),尾部类改善最大(15.67→17.40)
- 三个 BCE 组件协同效应显著——BCE3S (55.99) 远超 CE3S (54.14,用 CE 做三路学习)
- 特征紧凑度:BCE 的类内相似度均值 95.47 (std 1.81) vs CE ~82 (std 5.55)
- 分类器均匀性:BCE 标准差 0.106(极度均衡)
亮点与洞察¶
- 从"损失函数耦合性"角度分析长尾偏差是新鲜视角——不是设计新的重采样/重加权策略,而是指出 Softmax 本身就是偏差源
- BCE 均匀学习直接作用于分类器,完全绕过样本分布——这个思路对任何不平衡场景都适用
局限性 / 可改进方向¶
- 绝对提升幅度有限(~1-2%),可能接近该框架的天花板
- 仅在分类任务上验证,检测/分割等任务的效果未知
- \(\lambda_{ss}, \lambda_{cc}\) 超参需要调优
相关工作与启发¶
- vs ProCo: ProCo 用概率对比学习,BCE3S 更简洁地用 Sigmoid 解耦。ImageNet-LT 上 BCE3S 略优
- vs GLMC: GLMC 用混合增强+对比学习,BCE3S 从损失函数层面更根本
评分¶
- 新颖性: ⭐⭐⭐⭐ "Softmax 耦合是长尾偏差根源"的分析新颖
- 实验充分度: ⭐⭐⭐⭐ 4个数据集+详细消融+特征可视化
- 写作质量: ⭐⭐⭐⭐ 理论分析清晰
- 价值: ⭐⭐⭐⭐ 为长尾学习提供了新的损失设计范式