Principled Algorithms for Optimizing Generalized Metrics in Binary Classification¶

会议: ICML 2025
arXiv: 2512.23133
代码: 无
领域: 学习理论 / 分类优化
关键词: generalized metrics, F-measure, H-consistency, surrogate loss, cost-sensitive learning

一句话总结¶

本文提出了优化广义分类指标（如 \(F_\beta\)、Jaccard、加权准确率等）的有原则算法 METRO，基于 \(H\)-一致性界和代理损失理论，将指标优化重新表述为广义代价敏感学习问题，具有有限样本泛化保证。

研究背景与动机¶

领域现状：在类别不平衡或非对称代价场景中，\(F_\beta\)-score、AM measure、Jaccard 系数等广义指标比标准 0-1 损失更合适。然而，这些指标通常是不可分解的（non-decomposable），无法写成单样本损失之和。

现有痛点：现有方法通常依赖 Bayes 最优分类器的刻画，先估计类概率再寻找最优阈值。这导致：(1) 算法未针对受限假设集裁剪；(2) 缺乏有限样本性能保证。

核心矛盾：理论上需要直接优化目标指标，但这些指标非凸非可分解，难以直接优化。

本文目标：为广义指标的优化提供有原则的算法，同时具有 \(H\)-一致性和有限样本泛化界。

切入角度：将指标优化重新表述为广义代价敏感学习，设计具有可证明 \(H\)-一致性的代理损失。

核心idea：对每种广义指标，存在一个等价的代价敏感学习问题，可以用设计好的代理损失来高效优化。

方法详解¶

整体框架¶

输入：训练数据 \(\{(x_i, y_i)\}_{i=1}^n\)，目标广义指标 \(\Psi\)（如 \(F_\beta\)）输出：优化该指标的分类器 \(h \in H\)

Pipeline： 1. 将广义指标 \(\Psi\) 分解为关于混淆矩阵元素（TP, FP, FN, TN）的函数 2. 构造等价的代价敏感学习问题，其中代价参数依赖于未知的先验分布 3. 设计具有 \(H\)-一致性的代理损失函数 4. 使用 METRO 算法交替优化代价参数和分类器

关键设计¶

广义指标到代价敏感学习的归约:
- 功能：证明优化 \(\Psi\) 等价于求解一个特定的代价敏感分类问题
- 核心思路：对于 \(F_\beta = \frac{(1+\beta^2) \text{TP}}{(1+\beta^2)\text{TP} + \beta^2 \text{FN} + \text{FP}}\) 等指标，Bayes 最优解可以表示为阈值分类器 \(h(x) = \mathbb{1}[\eta(x) > c^*]\)，其中阈值 \(c^*\) 是代价参数的函数。将此推广为代价敏感学习：\(\min_h \mathbb{E}[c \cdot \mathbb{1}[h(x) \neq y]]\)，代价 \(c\) 依赖于指标和类先验
- 设计动机：代价敏感学习有成熟的理论基础，归约后可以利用已有的代理损失理论
\(H\)-一致性代理损失:
- 功能：设计新的代理损失函数，满足对受限假设集 \(H\) 的一致性
- 核心思路：\(H\)-一致性要求：以代理损失最小化得到的分类器，其目标指标也收敛到最优。本文证明了一类以代价为参数的凸代理损失具有此性质： \(\ell_c(h(x), y) = c \cdot \phi(y \cdot h(x))\) 其中 \(\phi\) 是适当设计的凸递减函数
- 设计动机：标准交叉熵损失不一定对广义指标具有 \(H\)-一致性；需要专门设计的损失
METRO 算法:
- 功能：交替优化代价参数 \(c\) 和分类器 \(h\)
- 核心思路：
  - Step 1：固定分类器 \(h\)，更新代价参数 \(c\) 以匹配当前分类器下的最优代价
  - Step 2：固定代价 \(c\)，用代理损失训练分类器 \(h\)
  - 重复直到收敛
- 设计动机：代价参数依赖于分布信息（如 \(P(Y=1)\)），需要从数据中估计。交替优化自然地处理了这种互相依赖关系

损失函数 / 训练策略¶

代理损失：\(\hat{R}_\ell(h) = \frac{1}{n} \sum_{i=1}^n c_i \cdot \phi(y_i h(x_i))\)
有限样本泛化界：\(\Psi(h) \leq \Psi(h^*) + O(\sqrt{\text{complexity}(H)/n})\)

实验关键数据¶

主实验¶

数据集	指标	METRO	阈值搜索法	直接优化基线	标准CE
信用违约	\(F_1\)	0.523	0.498	0.486	0.451
医疗诊断	\(F_2\)	0.714	0.688	0.670	0.632
欺诈检测	Jaccard	0.381	0.355	0.342	0.310
合成不平衡	AM	0.862	0.841	0.830	0.795

消融实验¶

配置	\(F_1\)	说明
METRO（完整）	0.523	代价敏感 + 一致性损失
无代价更新（固定 \(c\)）	0.495	代价需自适应
标准交叉熵 + 阈值搜索	0.498	传统方法
METRO + 非一致性代理损失	0.507	一致性保证有帮助

关键发现¶

METRO 在所有指标和数据集上均优于基线，尤其在高度不平衡场景中优势更大
\(H\)-一致性代理损失相比普通代理损失有明显提升，验证了理论分析
代价参数的自适应更新很重要（消融显示固定代价显著劣于自适应）
有限样本泛化界紧密，实际性能与理论界吻合

亮点与洞察¶

理论完备性：\(H\)-一致性 + 有限样本界，现有方法首次同时具备
实用性：METRO 算法简洁高效，只需在标准训练循环中加入代价更新步骤
适用范围广：统一处理 \(F_\beta\)、Jaccard、AM measure、加权准确率等多种指标

局限与展望¶

目前限于二分类，多分类推广是重要的未来方向
代价参数估计在极端不平衡下可能不稳定
与深度学习的结合（如与预训练模型联合微调）需要进一步探索

评分¶

新颖性: ⭐⭐⭐⭐ 归约框架和一致性分析有新意
实验充分度: ⭐⭐⭐⭐ 多指标多数据集验证
写作质量: ⭐⭐⭐⭐⭐ 理论表述清晰，算法描述简洁
价值: ⭐⭐⭐⭐ 解决了实际中的重要问题