跳转至

Robust Fair Disease Diagnosis in CT Images

会议: CVPR 2026
arXiv: 2604.09710
代码: https://github.com/Purdue-M2/Fair-Disease-Diagnosis
领域: 医学图像
关键词: CT诊断, 公平性, 类别不平衡, CVaR, Logit调整

一句话总结

本文提出结合Logit调整交叉熵(处理类别不平衡)和CVaR聚合(处理人口统计公平性)的双层目标函数,在CT诊断中实现了性别平均macro F1达0.8403且公平性差距仅0.0239。

研究背景与动机

领域现状:深度学习在CT诊断上取得了很好的聚合性能,但聚合指标掩盖了模型在不同患者群体上的不均匀表现。

现有痛点:临床数据中类别不平衡和群体代表性不足常常同时存在。例如鳞状细胞癌仅有84个训练样本,其中女性仅5个。标准训练会使模型几乎完全从男性样本学习该疾病特征。

核心矛盾:Logit调整能校正类别频率偏差但不看群体标签,CVaR能均衡群体损失但不看类别结构。两者单独使用都无法到达真正的风险交叉点(女性+鳞状细胞癌)。

本文目标:设计同时处理类别不平衡和人口统计不公平的统一训练目标。

切入角度:两种机制作用在正交轴上——Logit调整控制样本级梯度方向(类别轴),CVaR控制群体级梯度幅度(人口统计轴)。

核心idea:Logit调整+CVaR的组合是对类别轴和人口统计轴同时敏感的最小目标函数。

方法详解

整体框架

3D ResNet-18(Kinetics-400预训练)→ 512→256→4分类头。训练时:(1) 对每个样本计算Logit调整交叉熵损失;(2) 按性别分组计算均值损失;(3) CVaR聚合选择当前较差的群体加权。

关键设计

  1. Logit调整交叉熵:

    • 功能:在样本级校正类别频率偏差
    • 核心思路:\(\ell^{LA}(x,y) = -\log\frac{\exp(f_y(x)+\tau\log\pi_y)}{\sum_{y'}\exp(f_{y'}(x)+\tau\log\pi_{y'})}\),等价于类间margin损失,稀有类margin更大。τ=1时Fisher一致于平衡错误率
    • 设计动机:与逆频率加权不同,Logit调整直接改变类间决策边界margin,在可分离区域更有效
  2. CVaR公平性聚合:

    • 功能:在群体级将优化压力导向当前表现最差的人口统计群体
    • 核心思路:\(\mathcal{L} = \min_\lambda \lambda + \frac{1}{\alpha|\mathcal{G}|}\sum_{g\in\mathcal{G}}[\mathcal{L}_g - \lambda]_+\),α控制公平性强度。最优λ通过二分搜索求解(凸优化,几乎无额外开销)
    • 设计动机:CVaR提供了最坏情况群体风险的可处理上界,无需对群体分布做特定假设
  3. 正交性分析:

    • 功能:理论论证两种机制的互补性
    • 核心思路:Logit调整对群体成员身份不变,CVaR对类别结构不变。组合是对两个轴同时敏感的最小目标。在女性鳞状细胞癌(5个样本)上:LA单独让94%梯度来自男性样本,CVaR单独均衡群体损失但稀有类仍被忽略
    • 设计动机:证明这不仅仅是"堆叠两个已知技术",交互产生了两者单独无法达到的效果

损失函数 / 训练策略

Adam优化器,lr=1e-4,余弦退火,70轮训练。batch=2(3D volume内存限制)。τ=1.0固定,α在{0.4-0.9}网格搜索。

实验关键数据

主实验

方法 α F1_male F1_female Score↑ Gap↓
Baseline (CE) - 0.7957 0.6868 0.7413 0.1089
LA Only - 0.8596 0.7375 0.7986 0.1221
CVaR Only 0.7 0.8738 0.7591 0.8165 0.1148
LA+CVaR 0.8 0.8283 0.8522 0.8403 0.0239

消融实验

配置 Score Gap 说明
CE基线 0.7413 0.1089 女性鳞癌recall仅0.08
LA Only 0.7986 0.1221 分数提升但差距反而扩大
CVaR Only 0.8165 0.1148 均衡但稀有类仍被忽略
LA+CVaR α=0.8 0.8403 0.0239 唯一女性F1超过男性的配置

关键发现

  • α=0.8是最优配置——唯一一个女性macro F1(0.8522)超过男性(0.8283)的设置
  • 女性鳞状细胞癌的F1从基线0.14提升到0.63,recall从0.08到0.46
  • α扫描呈三阶段非单调模式:0.4-0.6宽尾稀释公平信号,0.7-0.8精准聚焦困难子群,0.9过窄反弹

亮点与洞察

  • 正交性分析的洞察力:清晰论证了为什么两个看似简单的组件产生了超越各自单独效果的协同
  • 5个女性鳞癌样本的极端场景:这个极端不平衡的交叉点完美展示了为什么需要双层目标
  • α的三阶段行为:揭示了CVaR浓度参数的细微影响,为实践者提供调参指导

局限与展望

  • 仅验证了性别二分类的公平性,未扩展到更多人口统计属性
  • 训练集仅734个样本,规模极小
  • CVPR Workshop论文,实验规模有限

相关工作与启发

  • vs DAW-FDD: DAW-FDD用分层CVaR但依赖显式群体标注且仅验证在二分类检测上
  • vs LDAM: LDAM缺乏Fisher一致性保证,Logit调整在τ=1时有理论保证

评分

  • 新颖性: ⭐⭐⭐ 方法是已有组件的组合,但理论分析有价值
  • 实验充分度: ⭐⭐⭐ 数据集小但消融完整
  • 写作质量: ⭐⭐⭐⭐ 正交性分析写得清晰
  • 价值: ⭐⭐⭐⭐ 对医学AI公平性有实际指导意义

相关论文