BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition¶

会议: AAAI 2026
arXiv: 2511.14097
代码: https://github.com/wakinghours-github/BCE3S
领域: 自监督 / 长尾识别
关键词: 长尾识别, 二元交叉熵, 对比学习, 分类器均匀性, 神经坍缩

一句话总结¶

提出 BCE3S，一种基于二元交叉熵（BCE）的三方协同学习框架，将 BCE 式联合学习、BCE 式对比学习和 BCE 式分类器均匀性学习集成在一起，通过 Sigmoid 解耦不同类别的度量来抑制长尾不平衡效应，在 CIFAR10/100-LT、ImageNet-LT 和 iNaturalist2018 上均取得 SOTA。

研究背景与动机¶

领域现状：长尾识别（LTR）是一个核心问题——真实数据分布通常高度不平衡，头部类别样本远多于尾部。现有方法主要基于交叉熵（CE）损失，辅以重采样、重加权、logit 调整等再平衡技术。
现有痛点：CE 损失的 Softmax 分母中耦合了所有类别的不平衡度量 \(\{\bm{w}_j^T\bm{x}+b_j\}\)，导致头部类的不平衡效应被反复注入特征学习。即便加上对比学习和 ETF 固定分类器等技巧，CE 的这一固有缺陷也难以根本克服。
核心矛盾：长尾识别需要同时满足三个目标——（a）高类内紧凑性和类间可分性的特征，（b）均匀可分的分类器向量，（c）特征和分类器的良好对齐。现有方法没有统一框架来同时优化这三个目标，且 CE 的 Softmax 耦合性限制了各优化模块的协同效果。
本文要解决什么？ 设计一个统一的三方协同学习（TSL）范式，同时优化特征-分类器联合学习、特征对比学习和分类器均匀性学习，并用 BCE（Sigmoid）替代 CE（Softmax）来解耦不平衡度量。
切入角度：已有研究表明 BCE 在 LTR 上比 CE 有更好的潜力（Cui et al. 2019），但这一潜力未被充分探索。作者从梯度分析角度深入解释 BCE 的优势——Sigmoid 将各类度量解耦到独立通道，避免了 Softmax 的耦合放大效应。
核心 idea 一句话：用 BCE（Sigmoid 解耦）替代 CE（Softmax 耦合），统一整合联合学习、对比学习和分类器均匀性学习，三位一体解决长尾识别。

方法详解¶

整体框架¶

输入长尾数据集中的一批样本，通过特征提取器（如 ResNet）得到特征 \(\bm{x}^{(k)}\)，再通过三个并行的 BCE 损失分支联合训练： - BCE 联合学习 \(L_{bce}^{(sc)}\)：优化特征与分类器向量的匹配 - BCE 对比学习 \(L_{bce}^{(ss)}\)：增强特征的类内紧凑性 - BCE 均匀学习 \(L_{bce}^{(cc)}\)：平衡分类器向量间的可分性

最终损失：\(L_{bce}^{(tri)} = \frac{1}{B}\sum L_{bce}^{(sc)} + \frac{\lambda_{ss}}{B}\sum L_{bce}^{(ss)} + \frac{\lambda_{cc}}{K}\sum L_{bce}^{(cc)}\)

关键设计¶

BCE 联合学习 \(L_{bce}^{(sc)}\):
做什么：替代传统 CE 联合学习进行特征-分类器的联合优化
核心思路：对每个样本特征 \(\bm{x}^{(k)}\)，与归一化分类器向量 \(\bm{w}_j\)（\(\|\bm{w}_j\|=1\)）计算 BCE 损失。正样本项为 \(\log(1+\exp(-\bm{w}_k^T\bm{x}^{(k)}-b_k))\)，负样本项为 \(\sum_{j\neq k}\log(1+\exp(\bm{w}_j^T\bm{x}^{(k)}+b_j))\)。负样本使用重采样参数 \(r\) 随机选择，降低头部类的主导作用
设计动机：CE 的 Softmax 将所有类度量耦合到分母上，使头部类不平衡反复注入；BCE 的 Sigmoid 让每个拉/推力项只涉及单个分类器向量，解耦了不平衡效应。梯度分析表明 \(\text{Act}_{bce}(\bm{w}_j^T\bm{x}^{(k)}) = \sigma(\bm{w}_j^T\bm{x}^{(k)})\) 不依赖其他类的度量
BCE 对比学习 \(L_{bce}^{(ss)}\):
做什么：在投影空间中增强类内紧凑性和类间可分性
核心思路：将特征通过非线性投影器 \(\mathcal{P}\) 映射到 \(\bm{z}^{(k)}\)，正对为同类特征对的余弦相似度，负对为不同类的。使用 memory bank 保存各类代表性特征 \(\{\bm{z}_*^{(j)}\}\)，损失为 \(\log(1+\exp(-\frac{1}{\tau}\cos(\bm{z}^{(k)}, \bm{z}_*^{(k)}))) + \sum_{j\neq k}\log(1+\exp(\frac{1}{\tau}\cos(\bm{z}^{(k)}, \bm{z}_*^{(j)})))\)
设计动机：不同于 Softmax 式对比学习（如 SupCon），BCE 对比学习避免了对所有负对相似度的耦合归一化，对尾部类更友好
BCE 均匀性学习 \(L_{bce}^{(cc)}\):
做什么：直接优化分类器向量间的均匀可分性
核心思路：对每个分类器向量 \(\bm{w}_k\)，最大化它与所有其他分类器向量的分离度：\(\sum_{j\neq k}\log(1+\exp(\bm{w}_k^T\bm{w}_j))\)。在梯度中表现为 "interactive term"——每个 \(\bm{w}_k\) 在每个 batch 都受到 \(K-1\) 个来自其他分类器向量的均匀排斥力
设计动机：联合学习由于头部样本主导，会导致尾部分类器向量坍缩（Neural Collapse 在不平衡数据上的退化形式）。均匀学习直接、均匀、持续地最大化所有分类器向量间的可分性，趋向 ETF 结构且与特征对齐（不像预设 ETF 那样与特征脱节）

损失函数 / 训练策略¶

总损失权重：\(\lambda_{ss}\)（对比学习权重）和 \(\lambda_{cc}\)（均匀学习权重），通过参数搜索确定
分类器归一化：仅归一化分类器向量（\(\|\bm{w}_j\|=1\)），不归一化特征，实验证明这是最优选择
可选两阶段策略：第一阶段用完整 BCE3S 训练，第二阶段固定特征提取器，用类别均衡的 BCE 微调分类器

实验关键数据¶

主实验¶

数据集	指标	BCE3S	前 SOTA	提升
CIFAR10-LT (IF=100)	Top-1 Acc	90.08%	89.58% (GLMC+MN)	+0.50
CIFAR100-LT (IF=100)	Top-1 Acc	59.50%	58.41% (GLMC+MN)	+1.09
CIFAR100-LT (IF=50)	Top-1 Acc	65.23%	64.57% (GLMC+MN)	+0.66
CIFAR100-LT (IF=10)	Top-1 Acc	76.13%	74.28% (GLMC+MN)	+1.85

在 ImageNet-LT 上，BCE3S + ResNeXt50 达到 58.54%，也超过了 GLMC 和 ProCo 等方法。

消融实验¶

CIFAR100-LT (IF=100), ResNet32:

配置	Many	Med.	Few	All
CE 联合 \(L_{ce}^{(sc)}\)	82.29	51.37	15.67	51.48
BCE 联合 \(L_{bce}^{(sc)}\)	81.11	55.06	17.40	52.88
BCE 联合+对比	82.74	56.57	20.63	54.95
BCE 联合+均匀	81.03	56.51	19.20	53.90
BCE3S (三方全开)	83.34	57.09	22.80	55.99
CE TSL (三方全开)	83.97	54.54	18.87	54.14

关键发现¶

BCE 联合学习相比 CE 在 Medium/Few 子集上显著提升（+3.69/+1.73），虽然 Many 略降，但总体更优
BCE 均匀学习在尾部类分类器可分性的标准差从高波动降到仅 0.106，效果远超 CE 版本
完整 BCE TSL 比完整 CE TSL 高 1.85%，证明 BCE 的解耦优势在三方协同中被放大
t-SNE 可视化显示：CE 方法中 "cat" 和 "dog" 特征聚类严重重叠，而 BCE3S 下 10 个类别完全分离，尾部类紧凑度明显提高
关键发现：BCE 对比学习和均匀学习与 CE 联合学习组合时效果有限，说明 CE 的 Softmax 耦合是根本瓶颈

亮点与洞察¶

从梯度角度深入解释 BCE vs CE：不只是实验性地说"BCE更好"，而是从 \(\text{Act}_{bce}\) 和 \(\text{Act}_{ce}\) 的梯度公式出发，清晰展示了 Softmax 如何耦合不平衡度量、Sigmoid 如何解耦，这个理论分析有很强的说服力
均匀性学习的简洁设计：仅用分类器向量间的 BCE 排斥力就能趋近 ETF 结构，不需要预设固定 ETF 或额外正交约束，优雅地解决了预设 ETF 与特征不对齐的问题
三方协同的增益不可分解：实验显示只有当三个分支都基于 BCE 时才能达到最佳效果，CE 联合学习的 Softmax 瓶颈会限制其他 BCE 分支的发挥

局限性 / 可改进方向¶

骨干网络仅验证了 ResNet 系列（ResNet32/50, ResNeXt50），未在 ViT 等 Transformer 架构上充分验证（虽然提到了 LiVT 但未做对比）
负样本重采样参数 \(r\) 需要手动调节，对不同数据集可能需要不同设置
均匀性学习假设所有类别分类器向量应该等距分布（ETF），但对于语义相近的类别，完全等距可能不是最优的
数据增强和更先进的训练策略（如 MixUp、CutMix）与 BCE3S 的结合未探索

评分¶

新颖性: ⭐⭐⭐⭐ TSL 框架概念新颖，BCE 在 LTR 中的深度分析有启发性
实验充分度: ⭐⭐⭐⭐⭐ 四个数据集 + 详细消融 + 可视化分析 + 梯度理论分析，非常全面
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但部分符号和公式编号在正文中引用较混乱
价值: ⭐⭐⭐⭐ 为长尾识别提供了统一框架和新的设计哲学（BCE 优于 CE 的系统性论证）提出 BCE3S 框架，用 BCE (Sigmoid) 替代 CE (Softmax) 作为三路协同学习（联合学习+对比学习+均匀学习）的统一基础，解决 Softmax 耦合不平衡分类器向量导致的长尾偏差，在 CIFAR-LT/ImageNet-LT 上达到 SOTA。

研究背景与动机¶

领域现状：长尾识别 (LTR) 中头部类样本远多于尾部类。主流方法包括重采样、重加权、解耦训练和对比学习等，大多基于 CE 损失框架。
现有痛点：CE 的 Softmax 将 \(K\) 个类别的内积耦合在分母中——\(\text{Softmax}(z_i) = \frac{\exp(z_i)}{\sum_j \exp(z_j)}\)，当类不平衡时，头部类的分类器向量更大，分母中头部项主导梯度，系统性地抑制尾部类的特征学习。
核心矛盾：Softmax 的归一化机制使得每个类的梯度不仅依赖自身，还耦合所有其他类的分类器向量——不平衡时这种耦合扩大偏差。
本文要解决什么？ 从损失函数层面根本性地消除类间耦合对长尾学习的干扰。
切入角度：用 BCE (Sigmoid) 替代 CE (Softmax)——Sigmoid 对每个类独立计算推/拉力，不耦合其他类。
核心 idea 一句话：BCE 的 Sigmoid 解耦类间交互，使拉力/推力独立于类频率，从根本上缓解长尾偏差。

方法详解¶

整体框架¶

三路协同学习：(1) BCE 联合学习——样本-分类器对齐；(2) BCE 对比学习——样本-样本紧凑性；(3) BCE 均匀学习——分类器-分类器均匀化。三者统一使用 BCE 损失。

关键设计¶

BCE 联合学习 \(L_{\text{bce}}^{(\text{sc})}\):
做什么：优化样本特征与分类器向量的对齐
核心思路：将特征与 L2 归一化的分类器向量的相似度通过 Sigmoid 独立评估每个类的匹配度。重采样参数 \(r\) 控制负类采样比例
设计动机：L2 归一化防止头部类分类器向量过大导致的梯度主导；Sigmoid 独立计算每个类，不耦合
BCE 对比学习 \(L_{\text{bce}}^{(\text{ss})}\):
做什么：增强类内紧凑性和类间分离性
核心思路：在投影空间中用 BCE 对同类特征拉近、异类推远。与 SupCon 等基于 Softmax 的对比学习不同，BCE 对每个正/负对独立计算
设计动机：避免 Softmax 对比损失中不平衡样本对正/负对权重的干扰
BCE 均匀学习 \(L_{\text{bce}}^{(\text{cc})}\):
做什么：直接推动分类器向量均匀分布（类 ETF 结构）
核心思路：每个分类器向量获得 \(K-1\) 个来自其他分类器的排斥力，与样本分布完全无关。每 batch 提供恒定的排斥力
设计动机：短路样本不平衡——分类器均匀化只看分类器之间的关系，不受样本数影响

损失函数 / 训练策略¶

\(L = \frac{1}{B}\sum L_{\text{bce}}^{(\text{sc})} + \frac{\lambda_{ss}}{B}\sum L_{\text{bce}}^{(\text{ss})} + \frac{\lambda_{cc}}{K}\sum L_{\text{bce}}^{(\text{cc})}\)

实验关键数据¶

主实验¶

数据集	IF	BCE3S	前SOTA	提升
CIFAR100-LT	100	59.50	58.41	+1.09
CIFAR100-LT	10	76.13	74.28	+1.85
CIFAR10-LT	100	90.08	89.58	+0.50
ImageNet-LT (RX50)	256	58.54	58.00	+0.54

消融实验（CIFAR100-LT, IF=100）¶

配置	Many	Med	Few	All
CE baseline	82.29	51.37	15.67	51.48
BCE 联合学习	81.11	55.06	17.40	52.88
+ BCE 对比学习	82.74	56.57	20.63	54.95
BCE3S (完整)	83.34	57.09	22.80	55.99

关键发现¶

BCE 单独就比 CE 提升 2.4%（51.48→52.88），尾部类改善最大（15.67→17.40）
三个 BCE 组件协同效应显著——BCE3S (55.99) 远超 CE3S (54.14，用 CE 做三路学习)
特征紧凑度：BCE 的类内相似度均值 95.47 (std 1.81) vs CE ~82 (std 5.55)
分类器均匀性：BCE 标准差 0.106（极度均衡）

亮点与洞察¶

从"损失函数耦合性"角度分析长尾偏差是新鲜视角——不是设计新的重采样/重加权策略，而是指出 Softmax 本身就是偏差源
BCE 均匀学习直接作用于分类器，完全绕过样本分布——这个思路对任何不平衡场景都适用

局限性 / 可改进方向¶

绝对提升幅度有限（~1-2%），可能接近该框架的天花板
仅在分类任务上验证，检测/分割等任务的效果未知
\(\lambda_{ss}, \lambda_{cc}\) 超参需要调优

评分¶

新颖性: ⭐⭐⭐⭐ "Softmax 耦合是长尾偏差根源"的分析新颖
实验充分度: ⭐⭐⭐⭐ 4个数据集+详细消融+特征可视化
写作质量: ⭐⭐⭐⭐ 理论分析清晰
价值: ⭐⭐⭐⭐ 为长尾学习提供了新的损失设计范式

BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验（CIFAR100-LT, IF=100）¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶