跳转至

Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning

会议: CVPR 2026
arXiv: 2603.12988
代码: GitHub
领域: 医学图像分析 / 公平性 / 对抗学习
关键词: 公平性诊断, 胸部CT, 多示例学习, 性别对抗正则化, 肺疾病分类, 梯度反转层

一句话总结

在 ConvNeXt 骨干上构建注意力 MIL 模型,并通过梯度反转层(GRL)对抗性地消除扫描表征中的性别信息,再配合 focal loss、子群过采样和 5-fold 集成,实现胸部 CT 四类肺疾病的公平诊断。

背景与动机

深度学习在胸部 CT 自动分析中取得巨大进展,但模型容易编码和放大训练数据中的人口统计学偏差,对弱势群体产生系统性更差的诊断结果。CVPR 2026 PHAROS-AIF-MIH 挑战赛要求将 CT 扫描分为健康、COVID-19、腺癌、鳞状细胞癌四类,评价指标为男女 macro-F1 的均值,直接惩罚性别不公平的预测。数据集(889 例:734 train/155 val)表现出严重的交叉不平衡——女性鳞癌仅 18 例 vs. 男性 91 例,且扫描深度从 20 至 800+ 切片不等。

核心问题

三个相互关联的挑战:(1) 体积信号稀疏——一次 CT 扫描 100-200 张切片中仅数张含病变,均值池化会淹没信号;(2) 人口统计学不平衡——女性鳞癌子群极度稀缺,标准训练对该子群性能严重不足;(3) 性别作为隐式捷径——即使不输入性别,模型可从体型、采集参数等编码性别特征并将其与疾病共现统计量耦合,造成对性别敏感的虚假预测。

方法详解

整体框架

以 ConvNeXt-Base 为骨干的注意力 MIL 模型,将 CT 体积视为切片嵌入的 bag,通过学习的注意力权重聚合为扫描级表示,随后分别送入疾病分类头和经 GRL 连接的性别对抗头,实现端到端联合训练。

关键设计

  1. 注意力 MIL 聚合:ConvNeXt-Base 提取每张切片的 D 维嵌入,两层 MLP 注意力网络为每张切片产生重要性分数,通过 softmax 归一化后加权求和得到扫描级表示 H。对零填充位置施加 attention mask,避免 padding 干扰。每个体积限制最多 M=32 张切片(训练随机采样,推理均匀采样)。
  2. GRL 对抗性别头:在扫描表示 H 上挂接梯度反转层 + 两层 MLP 二分类器,前向为恒等变换,反向将梯度取反并缩放 λ_adv,训练该头预测性别,反转梯度迫使骨干丢弃性别预测信息。
  3. 公平性训练协议:(a) 按 (class, gender) 8 个子群分层的 5-fold 交叉验证;(b) WeightedRandomSampler 对女性鳞癌大幅提升采样权重,使其几乎出现在每个 batch;(c) 两阶段微调——前 5 epoch 冻结骨干只训练注意力和两个头(LR=1e-3),之后解冻骨干(骨干 LR=1e-5,头 LR=1e-4,cosine 退火)。

损失函数 / 训练策略

总损失 L = L_disease + λ_adv · L_gender。疾病损失采用 focal loss(γ=2, α=0.25)+ 标签平滑(ε=0.1),focal loss 聚焦难例,标签平滑防止对稀缺子群过度自信。性别损失为二元交叉熵。优化器 AdamW(β1=0.9, β2=0.999, WD=0.05),梯度累积 K=4 步(等效 batch=16 volumes),训练 50 epoch,RTX A4000。

实验关键数据

指标 Fold 0 Fold 1 Fold 2 Fold 3 Fold 4 均值±std
竞赛分数 P 0.698 0.727 0.674 0.688 0.637 0.685±0.030
Male macro-F1 0.673 0.754 0.658 0.743 0.565 0.679±0.068
Female macro-F1 0.722 0.699 0.690 0.634 0.709 0.691±0.030
F1-腺癌 0.807 0.796 0.692 0.803 0.681 0.756±0.057
F1-鳞癌 0.258 0.378 0.500 0.303 0.389 0.366±0.083
  • OOF 全局竞赛分数 0.683(Male-F1=0.679, Female-F1=0.688),GRL 成功使女性 macro-F1 略高于男性
  • 推理采用 5-fold 全集成 + 水平翻转 TTA,soft logit 投票 + OOF 阈值优化

消融实验要点

  • Mean pooling → Max pooling:恢复了对稀疏肿瘤信号的检测能力
  • Max pooling → Attention-MIL:学习动态切片权重,减少背景噪声
    • 子群过采样:防止稀缺子群(女性鳞癌)的类别崩塌,大幅提升 Female macro-F1
    • GRL:成功解耦肿瘤特征与性别特征,关闭公平性差距(Male-F1 ≈ Female-F1)
  • Per-class 阈值优化 vs. argmax:在类不平衡下提升 macro-F1

亮点 / 我学到了什么

  • GRL 是一种极简但有效的公平性约束手段——不改变主任务架构,仅增加一个对抗分支
  • 在极端子群不平衡(仅 18 女性鳞癌)下,WeightedRandomSampler + focal loss + 标签平滑的组合是可行的补救方案
  • 两阶段微调(先稳定注意力 → 再解冻骨干)对 MIL 架构的训练稳定性至关重要
  • OOF 阈值优化避免了在小验证集上过拟合决策边界

局限性 / 可改进方向

  • 鳞癌 F1 仍然很低(0.366±0.083),根本约束是数据稀缺,过采样无法完全弥补
  • 仅考虑性别一种敏感属性,年龄/种族公平性未涉及
  • 每个体积仅采样 32 张切片,可能丢失关键病变区域
  • 未使用 3D 卷积或跨切片建模,忽略了 z 轴空间连续性
  • 作者建议的未来方向:扩散模型生成稀缺子群 CT、无标签 CT 半监督预训练

与相关工作的对比

  • vs. Ilse et al. (ICML 2018) Attention-MIL:本文在其基础上增加 GRL 对抗分支和公平性训练协议,从单纯的弱监督聚合扩展到公平性感知
  • vs. Ganin & Lempitsky (2015) GRL:原始 GRL 用于域适应,本文将其转用于人口统计学公平性,目标从适应域转为消除敏感属性
  • vs. 标准 CT 分类方法(3D ResNet 等):本文不使用 3D 卷积,而是 2D backbone + MIL 聚合,更适合切片数量高度可变的场景

与我的研究方向的关联

  • 可能关联: 20260316_cross_species_framework.md
  • 可能关联: 20260316_nucleus_attention_vision_transformer.md
  • 可能关联: 20260317_3d_class_imbalance_medical.md

评分

  • 新颖性: 5/10 — GRL 和 attention MIL 都是已有组件的组合应用,缺乏架构层面创新
  • 实验充分度: 6/10 — 消融为定性描述,缺乏定量逐步消融表;仅在挑战赛单一数据集验证
  • 写作质量: 7/10 — 方法描述清晰系统,流程图和公式完整
  • 价值: 6/10 — 为医学 AI 公平性提供了端到端方案模板,但受限于挑战赛报告的深度
  • 新颖性: ⭐⭐⭐
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐
  • 对我的价值: ⭐⭐⭐