Improved Balanced Classification with Theoretically Grounded Loss Functions¶

会议: NeurIPS 2025
arXiv: 2512.23947
作者: Corinna Cortes, Mehryar Mohri, Yutao Zhong 代码: 无
领域: 机器学习理论 / 类别不平衡分类
关键词: 平衡分类损失, 代理损失, H-一致性, Logit调整, 类感知加权

一句话总结¶

提出两个理论驱动的代理损失函数族——广义Logit调整(GLA)损失和广义类感知加权(GCA)损失，为类别不平衡下的多类分类提供更强的理论保证和实证性能。

研究背景与动机¶

在多类分类中，类别不平衡是一个普遍存在的问题。平衡分类损失通过对所有类别赋予相同重要性来促进公平性，确保少数类不被忽视。然而，直接最小化平衡分类损失通常是不可解的，因此设计有效的代理损失成为核心问题。

现有代理损失方法存在以下局限：

标准类加权损失：简单地按类频率的倒数缩放损失，理论保证有限

Logit调整(LA)损失：根据类先验概率移动logit，在标准交叉熵家族中有效，但仅对完备（无界）假设集具有H-一致性

理论保证不足：现有方法的H-一致性界依赖类概率最小值 \(p_{\min}\) 的倒数，在高度不平衡设置下退化严重

本文的核心动机是：能否设计出在更广泛条件下具有更强理论保证的代理损失，同时保持良好的实证性能？

方法详解¶

整体框架¶

本文提出两个代理损失函数族，均扩展到广义交叉熵损失家族：

GLA (Generalized Logit-Adjusted): 将Logit调整推广到广义交叉熵家族
GCA (Generalized Class-Aware weighted): 引入类别相关的置信度边距，扩展标准类加权损失

关键设计¶

1. 广义Logit调整损失 (GLA)¶

标准LA损失通过对每个类别 \(c\) 添加偏移量 \(\log p_c\) 来调整logit：

\[\ell_{\text{LA}}(h, x, y) = -\log \frac{e^{h_y(x) + \log p_y}}{\sum_c e^{h_c(x) + \log p_c}}\]

GLA将此推广到广义交叉熵损失家族 \(\Phi\)，允许使用更一般的凸函数 \(\Phi\) 替代 \(\log\)：

\[\ell_{\text{GLA}}(h, x, y) = \Phi\left(\frac{e^{h_y(x) + \tau_y}}{\sum_c e^{h_c(x) + \tau_c}}\right)\]

其中偏移量 \(\tau_c\) 可以取不同于 \(\log p_c\) 的值，并可在广义交叉熵框架下统一分析。

理论性质： - Bayes一致性：GLA损失是Bayes一致的 - H-一致性：仅对完备（无界）假设集成立 - H-一致性界：依赖 \(1/p_{\min}\)，在不平衡设置下不够紧

2. 广义类感知加权损失 (GCA)¶

GCA损失在标准类加权损失基础上引入两个关键创新：

a. 类别相关的置信度边距：为每个类别设定不同的置信度边距 \(m_c\)，而非统一阈值：

\[\ell_{\text{GCA}}(h, x, y) = \frac{1}{p_y} \Phi\left(\frac{e^{h_y(x) - m_y}}{\sum_c e^{h_c(x) - m_c}}\right)\]

这些边距可以通过理论分析校准，为少数类设置更宽松的边距，为多数类设置更严格的边距。

b. 广义交叉熵扩展：与GLA类似，扩展到更广泛的凸函数族。

理论性质： - H-一致性：对任何有界或完备的假设集成立（比GLA更广泛） - H-一致性界：依赖 \(1/\sqrt{p_{\min}}\)，比GLA的 \(1/p_{\min}\) 更优 - 在高度不平衡设置下提供显著更强的理论保证

3. 理论分析框架¶

核心理论工具是H-一致性界(H-consistency bounds)，用于度量代理损失最小化器与平衡分类误差之间的差距：

损失类型	Bayes一致性	H-一致性条件	界的依赖关系
标准类加权	是	有界/完备	基线
LA (原始)	是	仅完备	\(1/p_{\min}\)
GLA (本文)	是	仅完备	\(\geq 1/p_{\min}\)
GCA (本文)	是	有界/完备	\(1/\sqrt{p_{\min}}\)

损失函数 / 训练策略¶

GCA损失的边距校准策略： - 根据类别频率 \(p_c\) 设置边距 \(m_c\) - 少数类获得更大边距（降低置信度要求） - 边距选择需保证H-一致性界最优 - 可通过交叉验证在验证集上微调

实验关键数据¶

主实验¶

标准不平衡分类基准¶

方法	CIFAR-10-LT (IF=100)	CIFAR-100-LT (IF=100)	ImageNet-LT	理论保证
标准类加权	基线	基线	基线	有界/完备
LA (原始)	高于基线	高于基线	高于基线	仅完备
GLA (本文)	通常最优	通常最优	通常最优	仅完备
GCA (本文)	接近最优	接近最优	接近最优	有界/完备

其中 IF = Imbalance Factor，表示最大类与最小类的样本数之比。

高度不平衡设置下的表现¶

方法	IF=10	IF=50	IF=100	IF=200
标准类加权	基线	基线	基线	基线
LA 损失	+较小	+中等	+中等	+中等
GLA	+较大	+较大	最优	接近最优
GCA	+中等	+较大	接近最优	最优

关键观察：GLA在常见基准上通常略优，而GCA在高度不平衡设置(IF≥100)下展现出边际优势，这与理论分析一致——GCA的 \(1/\sqrt{p_{\min}}\) 界在极端不平衡时更有利。

消融实验¶

边距校准的影响¶

GCA变体	无边距	统一边距	校准边距(理论)	校准边距(验证集)
平衡准确率	基线	+小	+中等	+最大

广义交叉熵函数 \(\Phi\) 的选择¶

\(\Phi\) 选择	GLA性能	GCA性能	特点
标准log	基线	基线	经典交叉熵
多项式	略高	略高	平滑梯度
指数	类似	类似	强调困难样本

关键发现¶

GLA vs GCA的互补性：GLA在常见基准上略优，GCA在极端不平衡下更好
理论与实证的一致性：H-一致性界的紧致程度与实际性能差异相对应
类加权损失的基线强度：简单类加权已是强基线，但GLA/GCA能进一步提升
边距校准的重要性：GCA的性能很大程度上依赖于正确的边距设置

亮点与洞察¶

理论严谨性：来自Google Research的团队(Cortes是SVM的共同发明人)，理论分析完备
H-一致性界的改进：GCA的 \(1/\sqrt{p_{\min}}\) 界相比LA的 \(1/p_{\min}\) 是根本性的改进
实用贡献：GLA和GCA可作为现有方法的直接替换(drop-in replacement)
假设集的重要性：论文揭示了Loss一致性分析中假设集(有界vs完备)的关键区别
不平衡程度的自适应：GCA通过边距校准自适应不同的不平衡程度

局限与展望¶

长尾识别场景：未测试在极端长尾场景(>1000类)下的表现
与其他长尾方法的结合：GLA/GCA能否与解耦训练、数据增强等方法互补
大模型微调：在预训练+微调范式下的表现尚未验证
计算开销：边距校准增加了超参数调优的成本
理论到实践的差距：理论最优的 \(\Phi\) 选择与实际最优不完全一致

评分¶

新颖性: ★★★★☆ — GCA的边距设计和更强理论保证
理论深度: ★★★★★ — H-一致性分析严谨完备
实验充分度: ★★★★☆ — 多尺度不平衡、多数据集验证
实用价值: ★★★★☆ — 可直接替换现有损失函数
写作质量: ★★★★★ — 来自理论社区顶级团队，行文规范