Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning¶
会议: CVPR 2026
arXiv: 2603.12988
代码: GitHub
领域: 医学图像分析 / 公平性 / 对抗学习
关键词: 公平性诊断, 胸部CT, 多示例学习, 性别对抗正则化, 肺疾病分类, 梯度反转层
一句话总结¶
在 ConvNeXt 骨干上构建注意力 MIL 模型,并通过梯度反转层(GRL)对抗性地消除扫描表征中的性别信息,再配合 focal loss、子群过采样和 5-fold 集成,实现胸部 CT 四类肺疾病的公平诊断。
背景与动机¶
深度学习在胸部 CT 自动分析中取得巨大进展,但模型容易编码和放大训练数据中的人口统计学偏差,对弱势群体产生系统性更差的诊断结果。CVPR 2026 PHAROS-AIF-MIH 挑战赛要求将 CT 扫描分为健康、COVID-19、腺癌、鳞状细胞癌四类,评价指标为男女 macro-F1 的均值,直接惩罚性别不公平的预测。数据集(889 例:734 train/155 val)表现出严重的交叉不平衡——女性鳞癌仅 18 例 vs. 男性 91 例,且扫描深度从 20 至 800+ 切片不等。
核心问题¶
三个相互关联的挑战:(1) 体积信号稀疏——一次 CT 扫描 100-200 张切片中仅数张含病变,均值池化会淹没信号;(2) 人口统计学不平衡——女性鳞癌子群极度稀缺,标准训练对该子群性能严重不足;(3) 性别作为隐式捷径——即使不输入性别,模型可从体型、采集参数等编码性别特征并将其与疾病共现统计量耦合,造成对性别敏感的虚假预测。
方法详解¶
整体框架¶
以 ConvNeXt-Base 为骨干的注意力 MIL 模型,将 CT 体积视为切片嵌入的 bag,通过学习的注意力权重聚合为扫描级表示,随后分别送入疾病分类头和经 GRL 连接的性别对抗头,实现端到端联合训练。
关键设计¶
- 注意力 MIL 聚合:ConvNeXt-Base 提取每张切片的 D 维嵌入,两层 MLP 注意力网络为每张切片产生重要性分数,通过 softmax 归一化后加权求和得到扫描级表示 H。对零填充位置施加 attention mask,避免 padding 干扰。每个体积限制最多 M=32 张切片(训练随机采样,推理均匀采样)。
- GRL 对抗性别头:在扫描表示 H 上挂接梯度反转层 + 两层 MLP 二分类器,前向为恒等变换,反向将梯度取反并缩放 λ_adv,训练该头预测性别,反转梯度迫使骨干丢弃性别预测信息。
- 公平性训练协议:(a) 按 (class, gender) 8 个子群分层的 5-fold 交叉验证;(b) WeightedRandomSampler 对女性鳞癌大幅提升采样权重,使其几乎出现在每个 batch;(c) 两阶段微调——前 5 epoch 冻结骨干只训练注意力和两个头(LR=1e-3),之后解冻骨干(骨干 LR=1e-5,头 LR=1e-4,cosine 退火)。
损失函数 / 训练策略¶
总损失 L = L_disease + λ_adv · L_gender。疾病损失采用 focal loss(γ=2, α=0.25)+ 标签平滑(ε=0.1),focal loss 聚焦难例,标签平滑防止对稀缺子群过度自信。性别损失为二元交叉熵。优化器 AdamW(β1=0.9, β2=0.999, WD=0.05),梯度累积 K=4 步(等效 batch=16 volumes),训练 50 epoch,RTX A4000。
实验关键数据¶
| 指标 | Fold 0 | Fold 1 | Fold 2 | Fold 3 | Fold 4 | 均值±std |
|---|---|---|---|---|---|---|
| 竞赛分数 P | 0.698 | 0.727 | 0.674 | 0.688 | 0.637 | 0.685±0.030 |
| Male macro-F1 | 0.673 | 0.754 | 0.658 | 0.743 | 0.565 | 0.679±0.068 |
| Female macro-F1 | 0.722 | 0.699 | 0.690 | 0.634 | 0.709 | 0.691±0.030 |
| F1-腺癌 | 0.807 | 0.796 | 0.692 | 0.803 | 0.681 | 0.756±0.057 |
| F1-鳞癌 | 0.258 | 0.378 | 0.500 | 0.303 | 0.389 | 0.366±0.083 |
- OOF 全局竞赛分数 0.683(Male-F1=0.679, Female-F1=0.688),GRL 成功使女性 macro-F1 略高于男性
- 推理采用 5-fold 全集成 + 水平翻转 TTA,soft logit 投票 + OOF 阈值优化
消融实验要点¶
- Mean pooling → Max pooling:恢复了对稀疏肿瘤信号的检测能力
- Max pooling → Attention-MIL:学习动态切片权重,减少背景噪声
-
- 子群过采样:防止稀缺子群(女性鳞癌)的类别崩塌,大幅提升 Female macro-F1
-
- GRL:成功解耦肿瘤特征与性别特征,关闭公平性差距(Male-F1 ≈ Female-F1)
- Per-class 阈值优化 vs. argmax:在类不平衡下提升 macro-F1
亮点 / 我学到了什么¶
- GRL 是一种极简但有效的公平性约束手段——不改变主任务架构,仅增加一个对抗分支
- 在极端子群不平衡(仅 18 女性鳞癌)下,WeightedRandomSampler + focal loss + 标签平滑的组合是可行的补救方案
- 两阶段微调(先稳定注意力 → 再解冻骨干)对 MIL 架构的训练稳定性至关重要
- OOF 阈值优化避免了在小验证集上过拟合决策边界
局限性 / 可改进方向¶
- 鳞癌 F1 仍然很低(0.366±0.083),根本约束是数据稀缺,过采样无法完全弥补
- 仅考虑性别一种敏感属性,年龄/种族公平性未涉及
- 每个体积仅采样 32 张切片,可能丢失关键病变区域
- 未使用 3D 卷积或跨切片建模,忽略了 z 轴空间连续性
- 作者建议的未来方向:扩散模型生成稀缺子群 CT、无标签 CT 半监督预训练
与相关工作的对比¶
- vs. Ilse et al. (ICML 2018) Attention-MIL:本文在其基础上增加 GRL 对抗分支和公平性训练协议,从单纯的弱监督聚合扩展到公平性感知
- vs. Ganin & Lempitsky (2015) GRL:原始 GRL 用于域适应,本文将其转用于人口统计学公平性,目标从适应域转为消除敏感属性
- vs. 标准 CT 分类方法(3D ResNet 等):本文不使用 3D 卷积,而是 2D backbone + MIL 聚合,更适合切片数量高度可变的场景
与我的研究方向的关联¶
- 可能关联:
20260316_cross_species_framework.md - 可能关联:
20260316_nucleus_attention_vision_transformer.md - 可能关联:
20260317_3d_class_imbalance_medical.md
评分¶
- 新颖性: 5/10 — GRL 和 attention MIL 都是已有组件的组合应用,缺乏架构层面创新
- 实验充分度: 6/10 — 消融为定性描述,缺乏定量逐步消融表;仅在挑战赛单一数据集验证
- 写作质量: 7/10 — 方法描述清晰系统,流程图和公式完整
- 价值: 6/10 — 为医学 AI 公平性提供了端到端方案模板,但受限于挑战赛报告的深度
- 新颖性: ⭐⭐⭐
- 实验充分度: ⭐⭐⭐
- 写作质量: ⭐⭐⭐
- 对我的价值: ⭐⭐⭐