Robust Fair Disease Diagnosis in CT Images¶

会议: CVPR 2026
arXiv: 2604.09710
代码: https://github.com/Purdue-M2/Fair-Disease-Diagnosis
领域: 医学图像
关键词: CT诊断, 公平性, 类别不平衡, CVaR, Logit调整

一句话总结¶

本文提出结合Logit调整交叉熵（处理类别不平衡）和CVaR聚合（处理人口统计公平性）的双层目标函数，在CT诊断中实现了性别平均macro F1达0.8403且公平性差距仅0.0239。

领域现状：深度学习在CT诊断上取得了很好的聚合性能，但聚合指标掩盖了模型在不同患者群体上的不均匀表现。

现有痛点：临床数据中类别不平衡和群体代表性不足常常同时存在。例如鳞状细胞癌仅有84个训练样本，其中女性仅5个。标准训练会使模型几乎完全从男性样本学习该疾病特征。

核心矛盾：Logit调整能校正类别频率偏差但不看群体标签，CVaR能均衡群体损失但不看类别结构。两者单独使用都无法到达真正的风险交叉点（女性+鳞状细胞癌）。

本文目标：设计同时处理类别不平衡和人口统计不公平的统一训练目标。

切入角度：两种机制作用在正交轴上——Logit调整控制样本级梯度方向（类别轴），CVaR控制群体级梯度幅度（人口统计轴）。

核心idea：Logit调整+CVaR的组合是对类别轴和人口统计轴同时敏感的最小目标函数。

3D ResNet-18（Kinetics-400预训练）→ 512→256→4分类头。训练时：(1) 对每个样本计算Logit调整交叉熵损失；(2) 按性别分组计算均值损失；(3) CVaR聚合选择当前较差的群体加权。

Logit调整交叉熵:
- 功能：在样本级校正类别频率偏差
- 核心思路：\(\ell^{LA}(x,y) = -\log\frac{\exp(f_y(x)+\tau\log\pi_y)}{\sum_{y'}\exp(f_{y'}(x)+\tau\log\pi_{y'})}\)，等价于类间margin损失，稀有类margin更大。τ=1时Fisher一致于平衡错误率
- 设计动机：与逆频率加权不同，Logit调整直接改变类间决策边界margin，在可分离区域更有效
CVaR公平性聚合:
- 功能：在群体级将优化压力导向当前表现最差的人口统计群体
- 核心思路：\(\mathcal{L} = \min_\lambda \lambda + \frac{1}{\alpha|\mathcal{G}|}\sum_{g\in\mathcal{G}}[\mathcal{L}_g - \lambda]_+\)，α控制公平性强度。最优λ通过二分搜索求解（凸优化，几乎无额外开销）
- 设计动机：CVaR提供了最坏情况群体风险的可处理上界，无需对群体分布做特定假设
正交性分析:
- 功能：理论论证两种机制的互补性
- 核心思路：Logit调整对群体成员身份不变，CVaR对类别结构不变。组合是对两个轴同时敏感的最小目标。在女性鳞状细胞癌（5个样本）上：LA单独让94%梯度来自男性样本，CVaR单独均衡群体损失但稀有类仍被忽略
- 设计动机：证明这不仅仅是"堆叠两个已知技术"，交互产生了两者单独无法达到的效果

Adam优化器，lr=1e-4，余弦退火，70轮训练。batch=2（3D volume内存限制）。τ=1.0固定，α在{0.4-0.9}网格搜索。

方法	α	F1_male	F1_female	Score↑	Gap↓
Baseline (CE)	-	0.7957	0.6868	0.7413	0.1089
LA Only	-	0.8596	0.7375	0.7986	0.1221
CVaR Only	0.7	0.8738	0.7591	0.8165	0.1148
LA+CVaR	0.8	0.8283	0.8522	0.8403	0.0239

配置	Score	Gap	说明
CE基线	0.7413	0.1089	女性鳞癌recall仅0.08
LA Only	0.7986	0.1221	分数提升但差距反而扩大
CVaR Only	0.8165	0.1148	均衡但稀有类仍被忽略
LA+CVaR α=0.8	0.8403	0.0239	唯一女性F1超过男性的配置