Improved Balanced Classification with Theoretically Grounded Loss Functions¶
会议: NeurIPS 2025
arXiv: 2512.23947
作者: Corinna Cortes, Mehryar Mohri, Yutao Zhong
代码: 无
领域: 机器学习理论 / 类别不平衡分类
关键词: 平衡分类损失, 代理损失, H-一致性, Logit调整, 类感知加权
一句话总结¶
提出两个理论驱动的代理损失函数族——广义Logit调整(GLA)损失和广义类感知加权(GCA)损失,为类别不平衡下的多类分类提供更强的理论保证和实证性能。
研究背景与动机¶
在多类分类中,类别不平衡是一个普遍存在的问题。平衡分类损失通过对所有类别赋予相同重要性来促进公平性,确保少数类不被忽视。然而,直接最小化平衡分类损失通常是不可解的,因此设计有效的代理损失成为核心问题。
现有代理损失方法存在以下局限:
标准类加权损失:简单地按类频率的倒数缩放损失,理论保证有限
Logit调整(LA)损失:根据类先验概率移动logit,在标准交叉熵家族中有效,但仅对完备(无界)假设集具有H-一致性
理论保证不足:现有方法的H-一致性界依赖类概率最小值 \(p_{\min}\) 的倒数,在高度不平衡设置下退化严重
本文的核心动机是:能否设计出在更广泛条件下具有更强理论保证的代理损失,同时保持良好的实证性能?
方法详解¶
整体框架¶
本文提出两个代理损失函数族,均扩展到广义交叉熵损失家族:
- GLA (Generalized Logit-Adjusted): 将Logit调整推广到广义交叉熵家族
- GCA (Generalized Class-Aware weighted): 引入类别相关的置信度边距,扩展标准类加权损失
关键设计¶
1. 广义Logit调整损失 (GLA)¶
标准LA损失通过对每个类别 \(c\) 添加偏移量 \(\log p_c\) 来调整logit:
GLA将此推广到广义交叉熵损失家族 \(\Phi\),允许使用更一般的凸函数 \(\Phi\) 替代 \(\log\):
其中偏移量 \(\tau_c\) 可以取不同于 \(\log p_c\) 的值,并可在广义交叉熵框架下统一分析。
理论性质: - Bayes一致性:GLA损失是Bayes一致的 - H-一致性:仅对完备(无界)假设集成立 - H-一致性界:依赖 \(1/p_{\min}\),在不平衡设置下不够紧
2. 广义类感知加权损失 (GCA)¶
GCA损失在标准类加权损失基础上引入两个关键创新:
a. 类别相关的置信度边距:为每个类别设定不同的置信度边距 \(m_c\),而非统一阈值:
这些边距可以通过理论分析校准,为少数类设置更宽松的边距,为多数类设置更严格的边距。
b. 广义交叉熵扩展:与GLA类似,扩展到更广泛的凸函数族。
理论性质: - H-一致性:对任何有界或完备的假设集成立(比GLA更广泛) - H-一致性界:依赖 \(1/\sqrt{p_{\min}}\),比GLA的 \(1/p_{\min}\) 更优 - 在高度不平衡设置下提供显著更强的理论保证
3. 理论分析框架¶
核心理论工具是H-一致性界(H-consistency bounds),用于度量代理损失最小化器与平衡分类误差之间的差距:
| 损失类型 | Bayes一致性 | H-一致性条件 | 界的依赖关系 |
|---|---|---|---|
| 标准类加权 | 是 | 有界/完备 | 基线 |
| LA (原始) | 是 | 仅完备 | \(1/p_{\min}\) |
| GLA (本文) | 是 | 仅完备 | \(\geq 1/p_{\min}\) |
| GCA (本文) | 是 | 有界/完备 | \(1/\sqrt{p_{\min}}\) |
损失函数 / 训练策略¶
GCA损失的边距校准策略: - 根据类别频率 \(p_c\) 设置边距 \(m_c\) - 少数类获得更大边距(降低置信度要求) - 边距选择需保证H-一致性界最优 - 可通过交叉验证在验证集上微调
实验关键数据¶
主实验¶
标准不平衡分类基准¶
| 方法 | CIFAR-10-LT (IF=100) | CIFAR-100-LT (IF=100) | ImageNet-LT | 理论保证 |
|---|---|---|---|---|
| 标准类加权 | 基线 | 基线 | 基线 | 有界/完备 |
| LA (原始) | 高于基线 | 高于基线 | 高于基线 | 仅完备 |
| GLA (本文) | 通常最优 | 通常最优 | 通常最优 | 仅完备 |
| GCA (本文) | 接近最优 | 接近最优 | 接近最优 | 有界/完备 |
其中 IF = Imbalance Factor,表示最大类与最小类的样本数之比。
高度不平衡设置下的表现¶
| 方法 | IF=10 | IF=50 | IF=100 | IF=200 |
|---|---|---|---|---|
| 标准类加权 | 基线 | 基线 | 基线 | 基线 |
| LA 损失 | +较小 | +中等 | +中等 | +中等 |
| GLA | +较大 | +较大 | 最优 | 接近最优 |
| GCA | +中等 | +较大 | 接近最优 | 最优 |
关键观察:GLA在常见基准上通常略优,而GCA在高度不平衡设置(IF≥100)下展现出边际优势,这与理论分析一致——GCA的 \(1/\sqrt{p_{\min}}\) 界在极端不平衡时更有利。
消融实验¶
边距校准的影响¶
| GCA变体 | 无边距 | 统一边距 | 校准边距(理论) | 校准边距(验证集) |
|---|---|---|---|---|
| 平衡准确率 | 基线 | +小 | +中等 | +最大 |
广义交叉熵函数 \(\Phi\) 的选择¶
| \(\Phi\) 选择 | GLA性能 | GCA性能 | 特点 |
|---|---|---|---|
| 标准log | 基线 | 基线 | 经典交叉熵 |
| 多项式 | 略高 | 略高 | 平滑梯度 |
| 指数 | 类似 | 类似 | 强调困难样本 |
关键发现¶
- GLA vs GCA的互补性:GLA在常见基准上略优,GCA在极端不平衡下更好
- 理论与实证的一致性:H-一致性界的紧致程度与实际性能差异相对应
- 类加权损失的基线强度:简单类加权已是强基线,但GLA/GCA能进一步提升
- 边距校准的重要性:GCA的性能很大程度上依赖于正确的边距设置
亮点与洞察¶
- 理论严谨性:来自Google Research的团队(Cortes是SVM的共同发明人),理论分析完备
- H-一致性界的改进:GCA的 \(1/\sqrt{p_{\min}}\) 界相比LA的 \(1/p_{\min}\) 是根本性的改进
- 实用贡献:GLA和GCA可作为现有方法的直接替换(drop-in replacement)
- 假设集的重要性:论文揭示了Loss一致性分析中假设集(有界vs完备)的关键区别
- 不平衡程度的自适应:GCA通过边距校准自适应不同的不平衡程度
局限与展望¶
- 长尾识别场景:未测试在极端长尾场景(>1000类)下的表现
- 与其他长尾方法的结合:GLA/GCA能否与解耦训练、数据增强等方法互补
- 大模型微调:在预训练+微调范式下的表现尚未验证
- 计算开销:边距校准增加了超参数调优的成本
- 理论到实践的差距:理论最优的 \(\Phi\) 选择与实际最优不完全一致
相关工作与启发¶
- Logit Adjustment (Menon et al., 2021):LA损失的原始提出,本文将其推广
- Class-Balanced Loss (Cui et al., 2019):经典类加权损失,本文的GCA是其理论增强版
- H-consistency bounds (Awasthi et al., 2022):核心理论工具,本文在不平衡分类场景下做了深入应用
- Focal Loss (Lin et al., 2017):另一种处理不平衡的方法,与本文方法正交
- 前序工作 (Mao, Mohri, Zhong, 2023-2024):同一团队在多类抽象等问题上的理论工作
评分¶
- 新颖性: ★★★★☆ — GCA的边距设计和更强理论保证
- 理论深度: ★★★★★ — H-一致性分析严谨完备
- 实验充分度: ★★★★☆ — 多尺度不平衡、多数据集验证
- 实用价值: ★★★★☆ — 可直接替换现有损失函数
- 写作质量: ★★★★★ — 来自理论社区顶级团队,行文规范
相关论文¶
- [NeurIPS 2025] Enhancing Graph Classification Robustness with Singular Pooling
- [NeurIPS 2025] Robust Graph Condensation via Classification Complexity Mitigation
- [NeurIPS 2025] Rewind-to-Delete: Certified Machine Unlearning for Nonconvex Functions
- [NeurIPS 2025] Influence Functions for Edge Edits in Non-Convex Graph Neural Networks
- [NeurIPS 2025] CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing