Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning¶

会议: CVPR 2026
arXiv: 2603.12988
代码: GitHub
领域: 医学图像分析 / 公平性 / 对抗学习
关键词: 公平性诊断, 胸部CT, 多示例学习, 性别对抗正则化, 肺疾病分类, 梯度反转层

一句话总结¶

在 ConvNeXt 骨干上构建注意力 MIL 模型，并通过梯度反转层（GRL）对抗性地消除扫描表征中的性别信息，再配合 focal loss、子群过采样和 5-fold 集成，实现胸部 CT 四类肺疾病的公平诊断。

背景与动机¶

深度学习在胸部 CT 自动分析中取得巨大进展，但模型容易编码和放大训练数据中的人口统计学偏差，对弱势群体产生系统性更差的诊断结果。CVPR 2026 PHAROS-AIF-MIH 挑战赛要求将 CT 扫描分为健康、COVID-19、腺癌、鳞状细胞癌四类，评价指标为男女 macro-F1 的均值，直接惩罚性别不公平的预测。数据集（889 例：734 train/155 val）表现出严重的交叉不平衡——女性鳞癌仅 18 例 vs. 男性 91 例，且扫描深度从 20 至 800+ 切片不等。

核心问题¶

三个相互关联的挑战：(1) 体积信号稀疏——一次 CT 扫描 100-200 张切片中仅数张含病变，均值池化会淹没信号；(2) 人口统计学不平衡——女性鳞癌子群极度稀缺，标准训练对该子群性能严重不足；(3) 性别作为隐式捷径——即使不输入性别，模型可从体型、采集参数等编码性别特征并将其与疾病共现统计量耦合，造成对性别敏感的虚假预测。

方法详解¶

整体框架¶

以 ConvNeXt-Base 为骨干的注意力 MIL 模型，将 CT 体积视为切片嵌入的 bag，通过学习的注意力权重聚合为扫描级表示，随后分别送入疾病分类头和经 GRL 连接的性别对抗头，实现端到端联合训练。

关键设计¶

注意力 MIL 聚合：ConvNeXt-Base 提取每张切片的 D 维嵌入，两层 MLP 注意力网络为每张切片产生重要性分数，通过 softmax 归一化后加权求和得到扫描级表示 H。对零填充位置施加 attention mask，避免 padding 干扰。每个体积限制最多 M=32 张切片（训练随机采样，推理均匀采样）。
GRL 对抗性别头：在扫描表示 H 上挂接梯度反转层 + 两层 MLP 二分类器，前向为恒等变换，反向将梯度取反并缩放 λ_adv，训练该头预测性别，反转梯度迫使骨干丢弃性别预测信息。
公平性训练协议：(a) 按 (class, gender) 8 个子群分层的 5-fold 交叉验证；(b) WeightedRandomSampler 对女性鳞癌大幅提升采样权重，使其几乎出现在每个 batch；(c) 两阶段微调——前 5 epoch 冻结骨干只训练注意力和两个头（LR=1e-3），之后解冻骨干（骨干 LR=1e-5，头 LR=1e-4，cosine 退火）。

损失函数 / 训练策略¶

总损失 L = L_disease + λ_adv · L_gender。疾病损失采用 focal loss（γ=2, α=0.25）+ 标签平滑（ε=0.1），focal loss 聚焦难例，标签平滑防止对稀缺子群过度自信。性别损失为二元交叉熵。优化器 AdamW（β1=0.9, β2=0.999, WD=0.05），梯度累积 K=4 步（等效 batch=16 volumes），训练 50 epoch，RTX A4000。

实验关键数据¶

指标	Fold 0	Fold 1	Fold 2	Fold 3	Fold 4	均值±std
竞赛分数 P	0.698	0.727	0.674	0.688	0.637	0.685±0.030
Male macro-F1	0.673	0.754	0.658	0.743	0.565	0.679±0.068
Female macro-F1	0.722	0.699	0.690	0.634	0.709	0.691±0.030
F1-腺癌	0.807	0.796	0.692	0.803	0.681	0.756±0.057
F1-鳞癌	0.258	0.378	0.500	0.303	0.389	0.366±0.083

OOF 全局竞赛分数 0.683（Male-F1=0.679, Female-F1=0.688），GRL 成功使女性 macro-F1 略高于男性
推理采用 5-fold 全集成 + 水平翻转 TTA，soft logit 投票 + OOF 阈值优化

消融实验要点¶

Mean pooling → Max pooling：恢复了对稀疏肿瘤信号的检测能力
Max pooling → Attention-MIL：学习动态切片权重，减少背景噪声
- 子群过采样：防止稀缺子群（女性鳞癌）的类别崩塌，大幅提升 Female macro-F1
- GRL：成功解耦肿瘤特征与性别特征，关闭公平性差距（Male-F1 ≈ Female-F1）
Per-class 阈值优化 vs. argmax：在类不平衡下提升 macro-F1

亮点 / 我学到了什么¶

GRL 是一种极简但有效的公平性约束手段——不改变主任务架构，仅增加一个对抗分支
在极端子群不平衡（仅 18 女性鳞癌）下，WeightedRandomSampler + focal loss + 标签平滑的组合是可行的补救方案
两阶段微调（先稳定注意力 → 再解冻骨干）对 MIL 架构的训练稳定性至关重要
OOF 阈值优化避免了在小验证集上过拟合决策边界

局限性 / 可改进方向¶

鳞癌 F1 仍然很低（0.366±0.083），根本约束是数据稀缺，过采样无法完全弥补
仅考虑性别一种敏感属性，年龄/种族公平性未涉及
每个体积仅采样 32 张切片，可能丢失关键病变区域
未使用 3D 卷积或跨切片建模，忽略了 z 轴空间连续性
作者建议的未来方向：扩散模型生成稀缺子群 CT、无标签 CT 半监督预训练

与相关工作的对比¶

vs. Ilse et al. (ICML 2018) Attention-MIL：本文在其基础上增加 GRL 对抗分支和公平性训练协议，从单纯的弱监督聚合扩展到公平性感知
vs. Ganin & Lempitsky (2015) GRL：原始 GRL 用于域适应，本文将其转用于人口统计学公平性，目标从适应域转为消除敏感属性
vs. 标准 CT 分类方法（3D ResNet 等）：本文不使用 3D 卷积，而是 2D backbone + MIL 聚合，更适合切片数量高度可变的场景

与我的研究方向的关联¶

可能关联: 20260316_cross_species_framework.md
可能关联: 20260316_nucleus_attention_vision_transformer.md
可能关联: 20260317_3d_class_imbalance_medical.md

评分¶

新颖性: 5/10 — GRL 和 attention MIL 都是已有组件的组合应用，缺乏架构层面创新
实验充分度: 6/10 — 消融为定性描述，缺乏定量逐步消融表；仅在挑战赛单一数据集验证
写作质量: 7/10 — 方法描述清晰系统，流程图和公式完整
价值: 6/10 — 为医学 AI 公平性提供了端到端方案模板，但受限于挑战赛报告的深度
新颖性: ⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐
对我的价值: ⭐⭐⭐