CLIMB: Class-Imbalanced Learning Benchmark on Tabular Data¶

会议: NeurIPS 2025
arXiv: 2505.17451
代码: ZhiningLiu1998/imbalanced-ensemble
领域: others
关键词: class imbalance, tabular data, benchmark, ensemble learning, resampling

一句话总结¶

提出 Climb——迄今最全面的表格数据类别不平衡学习基准，涵盖 73 个真实数据集和 29 种 CIL 算法，通过大规模实验揭示了朴素重平衡往往无效、集成方法至关重要、数据质量比不平衡本身更影响性能等实用洞察。

研究背景与动机¶

类别不平衡是表格数据的核心挑战：金融欺诈检测、网络入侵识别、医疗诊断等关键场景中，少数类代表罕见但重要的结果，标准分类器在此场景下表现退化严重
现有基准碎片化严重：已有研究大多局限于特定领域（商业/金融/医疗/教育），数据集不平衡程度相似，算法覆盖面窄，缺乏跨范式（欠采样/过采样/代价敏感/集成）的系统比较
表格数据有独特难点：与图像/文本不同，表格数据特征异质、样本量小、缺乏局部相关性，树模型仍是主流选择；不平衡进一步加剧少数类泛化困难
方法选择缺乏指导：实践者面对数十种 CIL 方法时缺少可靠的选择依据，不同评价指标可能导致矛盾结论
效率与鲁棒性未被系统研究：已有工作聚焦准确率，较少分析运行时间和噪声/缺失值等数据质量因素的影响
缺乏高质量开源工具：此前没有统一 API、完善文档、严格测试覆盖的 CIL benchmark 开源库

方法详解¶

整体框架：Climb Benchmark¶

构建一个包含数据集、算法、评估协议三位一体的综合基准平台，配套高质量 Python 开源库（统一 scikit-learn 风格 API、95% 测试覆盖率、详细文档），支持公平、可复现、可扩展的 CIL 方法评估。

关键设计一：73 个真实不平衡表格数据集¶

做什么：从 OpenML 精心筛选 73 个自然类别不平衡数据集，覆盖多领域、不平衡比率从 2.1 到 577.9
核心思路：设定七项严格筛选标准——真实数据且自然不平衡、有学习难度（排除 AUPRC > 0.95 的简单集）、IR > 2、无缺失值、满足 i.i.d. 假设、非确定性函数、有文档记录
设计动机：排除人工构造和简单数据集，确保评测能真实反映实际应用中的挑战；按 IR 分为 low/medium/high/extreme 四档便于分层分析

关键设计二：29 种 CIL 算法的统一实现¶

做什么：实现涵盖六大范式的 29 种代表性算法——欠采样（RUS/CC/IHT/NearMiss）、清洗（Tomek Links/ENN/RENN/AllKNN/OSS/NCR）、过采样（ROS/SMOTE/BorderlineSMOTE/SVMSMOTE/ADASYN）、欠采样集成（SPE/BC/BRF/EE/RUSBoost/UnderBagging）、过采样集成（OverBoost/SMOTEBoost/OverBagging/SMOTEBagging）、代价敏感集成（CS/AdaCost/AdaUBoost/AsymBoost）
核心思路：统一 API 设计 + 层次化模块抽象，通过继承和多态支持便捷扩展
设计动机：消除不同实现之间的不公平比较，提供首个跨越全部主流 CIL 范式的统一对比

关键设计三：严格的评估协议¶

做什么：标准化预处理（数值特征标准化、类别特征编码）、5 折分层划分、Optuna 超参搜索（每个算法-数据集对 100 次试验）、三种评价指标（AUPRC/macro-F1/BAC）
核心思路：决策树作为统一基分类器、集成大小统一为 100，确保不同方法间的公平对比
设计动机：避免单次随机划分带来的偶然性；多指标评价揭示不同侧面（AUPRC 重视精确率、BAC 重视召回率平衡），防止单一指标带来的误导性结论

关键设计四：鲁棒性控制实验¶

做什么：分别引入标签噪声（minority 类翻转 10%/20%/30%）、缺失值（均值填补 10%/20%/30%）、额外不平衡（进一步移除 minority 样本使 IR 翻倍/3倍/5倍）
核心思路：逐一引入单一干扰因素，分离各因素对 CIL 性能的影响
设计动机：实际数据往往同时伴随噪声和缺失值，需要了解这些因素相对于不平衡本身的影响程度

损失函数与训练¶

以决策树为基分类器；集成方法统一 100 棵基学习器；代价敏感方法按类频率反比设置误分类代价。使用 Optuna 进行贝叶斯超参搜索，每个配置 100 次试验。整个基准涉及约 80 万次超参搜索试验、超 1000 万个基模型的训练。

实验关键数据¶

Table 2：主基准结果（按不平衡程度分组的 AUPRC/F1/BAC）¶

不平衡分组	Base AUPRC	最优方法	最优 AUPRC	提升
Low (IR<5, 28集)	51.0	SPE	59.3	+8.3
Medium (IR∈[5,10), 24集)	50.9	SPE	64.6	+13.7
High (IR∈[10,50), 15集)	34.9	SPE	47.1	+12.2
Extreme (IR>50, 6集)	42.6	SPE	57.5	+14.9

核心发现：Self-paced Ensemble (SPE) 在所有不平衡等级的 AUPRC 上均排名第一或前二；朴素欠采样（RUS/CC/NearMiss）在多数场景下反而降低性能；集成方法整体显著优于非集成方法。

鲁棒性分析关键发现¶

干扰因素	等效影响
10% 标签噪声	≈ 500% IR 增加带来的性能下降
30% 缺失特征	≈ 500% IR 增加带来的性能下降

这一发现表明数据质量可能比类别不平衡本身更重要。

亮点¶

覆盖面最全：73 个数据集 × 29 种算法 × 6 大范式，是该领域迄今最大规模的系统评测
五条实用洞察高度凝练：(1) 朴素重平衡经常有害 (2) 集成是 CIL 的关键 (3) 评价指标选择影响结论 (4) 欠采样集成在性能-效率上最佳平衡 (5) 数据质量可能比不平衡更重要
开源库质量高：统一 API、95% 测试覆盖、详细文档，具有真实工程价值
数据质量 vs 不平衡的量化对比是新颖且实用的发现

局限性¶

基分类器仅使用决策树，未验证深度学习模型（如 TabNet、FT-Transformer）在 CIL 场景下的表现
排除了含缺失值的数据集，限制了对真实"脏数据"场景的覆盖
鲁棒性实验中各干扰因素独立引入，未研究噪声+缺失+不平衡同时存在的复合效应
仅考虑二分类和传统多分类，未涵盖多标签不平衡和开放集等更复杂场景
数据集均来自 OpenML，可能存在选择偏差

与相关工作的对比¶

与 Zhu et al. (2018)、Xiao et al. (2021)、Khushi et al. (2021)、Kim & Hwang (2022) 等已有经验研究相比，Climb 在三个维度上全面超越：(1) 算法数量从 4-21 扩展到 29 且覆盖全部主流范式（首次纳入代价敏感）；(2) 数据集从 2-31 扩展到 73 且跨多领域多 IR；(3) 首次提供配套高质量开源工具。与 TableShift 等表格数据基准相比，Climb 专注于类别不平衡这一正交挑战。

评分¶

新颖性: ⭐⭐⭐ — 方法层面无新算法，但基准构建全面、洞察有价值
实验充分度: ⭐⭐⭐⭐⭐ — 80 万次超参搜索、1000 万基模型、多维度分析，极其充分
写作质量: ⭐⭐⭐⭐ — 结构清晰、RQ 驱动的分析框架好，表格信息密度高
价值: ⭐⭐⭐⭐ — 对 CIL 研究者和实践者都有直接参考意义，开源库有持续影响力