The Disparate Benefits of Deep Ensembles¶

会议: ICML 2025
arXiv: 2410.13831
代码: 无
领域: AI安全 / 算法公平性
关键词: 深度集成, 算法公平性, 群体公平, 预测多样性, 后处理缓解

一句话总结¶

本文系统研究了深度集成（Deep Ensembles）对算法公平性的影响，发现集成会不均匀地提升不同群体的性能（disparate benefits effect），导致公平性下降，并证明Hardt后处理方法能有效缓解该问题同时保留集成的性能增益。

研究背景与动机¶

领域现状：深度集成是提升DNN性能最简单有效的方法之一，通过训练多个独立模型并平均输出分布来近似贝叶斯后验预测分布。在医疗、金融等高风险场景中被广泛使用。

现有痛点：虽然单个DNN的群体公平性问题已被深入研究，但集成多个网络对公平性的影响却几乎没有被探索。现有工作（如Ko et al., 2023）只关注子群体准确率变化，未使用标准公平性指标，且得出了"集成仅有正面影响"的片面结论。

核心矛盾：集成在提升整体性能的同时，其收益可能在不同保护属性定义的群体间分配不均——优势群体可能获得更多提升，导致公平性差距反而加大。

本文目标：(1) 系统量化深度集成对群体公平性的影响；(2) 分析不公平效应的根本原因；(3) 探索有效的缓解策略。

切入角度：作者从人脸分析和医学影像两个现实高风险场景出发，使用三种标准公平性指标（统计平价SPD、机会均等EOD、平均赔率差AOD）衡量深度集成的公平性影响。

核心 idea：深度集成的性能提升在不同群体间存在"差异化受益"效应——这种不均匀的改善可以用各群体间集成成员的"预测多样性"差异来解释，而利用集成更好的校准特性进行Hardt后处理能有效缓解该问题。

方法详解¶

整体框架¶

本文是一项系统性的实证研究，涵盖15个任务（跨3个数据集×多个目标/保护属性组合），使用5种DNN架构（ResNet18/34/50, RegNet-Y, EfficientNetV2-S）各训练10个成员模型，共训练1000个模型。主要分三部分：现象分析→原因追溯→缓解策略。

关键设计¶

Disparate Benefits效应的系统验证:
- 功能：量化深度集成对群体公平性的影响
- 核心思路：对每个任务（目标变量×保护属性组合），比较10成员集成与单个成员平均值在性能和公平性指标上的差异，使用t检验（5次运行）判断显著性。结果显示集成在显著提升准确率（如FairFace上Accuracy +2.2%）的同时，显著恶化多个公平性指标（如SPD增加2.2%）
- 设计动机：需要严谨统计证据证明"集成不总是有益的"这一反直觉结论
预测多样性差异作为原因解释:
- 功能：追溯disparate benefits效应的根本原因
- 核心思路：计算各群体内集成成员的预测多样性（disagreement rate），发现劣势群体上成员间分歧更大，因此集成带来的性能提升更多来自于对优势群体的"一致性投票"增强。具体地，当集成成员在某群体上的预测多样性更高时，平均预测的改善更大
- 设计动机：仅观察到现象不够，需要机制层面的解释才能指导缓解策略
Hardt后处理缓解策略:
- 功能：在保留集成性能增益的同时恢复公平性
- 核心思路：深度集成由于更好的概率校准，使得其预测对阈值更加敏感。Hardt后处理通过为不同群体选择不同的决策阈值来满足公平性约束。实验表明该方法能将公平性违规降至接近0，同时几乎不损失集成带来的性能增益
- 设计动机：集成改善了预测分布的校准性，使得基于阈值调整的后处理方法天然适用

损失函数 / 训练策略¶

模型使用标准交叉熵损失训练。FairFace上训练100 epochs，CheXpert上训练30 epochs，使用SGD+momentum（0.9），学习率1e-2配合线性+余弦退火调度。

实验关键数据¶

主实验¶

数据集/任务	Δ Accuracy/AUROC ↑	Δ SPD ↓	Δ EOD ↓	Δ AOD ↓
FairFace: age/gender	+0.022	-0.022 (恶化)	-0.017 (恶化)	-0.017 (恶化)
FairFace: age/race	+0.022	-0.009 (恶化)	-0.012 (恶化)	-0.007 (恶化)
UTKFace: age/gender	+0.015	-0.017 (恶化)	-0.015 (恶化)	-0.012 (恶化)
UTKFace: race/age	+0.021	-0.013 (恶化)	-0.007 (恶化)	~0
CheXpert: age	+0.005	-0.001 (恶化)	-0.008 (恶化)	-0.003 (恶化)

消融实验¶

缓解策略	公平性恢复效果	性能保留
Hardt后处理	公平性违规降至~0	几乎完全保留集成性能增益
简单阈值调整	部分恢复	保留大部分性能
无缓解（纯集成）	公平性恶化	性能最高

关键发现¶

在15个任务中的绝大多数，深度集成显著提升性能但同时显著恶化至少一个公平性指标
劣势群体上的预测多样性更高，这解释了为什么集成对优势群体"更有利"
该效应在FairFace、UTKFace和CheXpert三个数据集上均稳定存在，跨5种架构也一致
集成成员数越多，性能提升越大但公平性恶化也越严重（几乎线性关系）

亮点与洞察¶

Disparate Benefits概念的提出：将集成的"不均匀收益"形式化为一个公平性问题，这是之前完全被忽略的视角。巧妙之处在于"提升性能"这个看似无害的操作也可能加剧不公平
预测多样性作为解释机制：将集成理论（多样性-准确率权衡）与公平性分析桥接，指出不同群体数据分布不同导致模型行为多样性不同，是可迁移的分析框架
后处理缓解的自然适配：发现集成改善校准这一已知特性恰好使后处理方法更有效，形成了"问题与解决方案同源"的优雅闭环

局限与展望¶

仅验证了二分类场景，多类别分类的disparate benefits效应有待研究
公平性指标限于群体公平性，个体公平性（individual fairness）未涉及
缓解策略依赖于测试时可获取保护属性标签，实际部署中这可能不可用
未探索训练阶段的公平性约束方法是否能从根本上消除disparate benefits

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究深度集成对公平性的影响，提出disparate benefits概念
实验充分度: ⭐⭐⭐⭐⭐ 3数据集×5架构×15任务×1000模型，统计检验严谨
写作质量: ⭐⭐⭐⭐ 结构清晰，从现象到原因到缓解的逻辑链完整
价值: ⭐⭐⭐⭐ 对ML公平性社区有重要警示意义，实操指导明确

The Disparate Benefits of Deep Ensembles¶

会议: ICML 2025
arXiv: 2410.13831
代码: 无
领域: AI Safety / 公平性
关键词: 深度集成, 算法公平性, 差异化收益, 群体公平, 后处理缓解

一句话总结¶

本文揭示了 Deep Ensembles 在提升预测性能的同时会不均匀地惠及不同保护群体（disparate benefits effect），并通过实验分析了其成因（成员预测多样性的群体间差异），最后证明 Hardt 后处理方法能有效缓解该不公平性。

研究背景与动机¶

领域现状：Deep Ensembles 是提升 DNN 性能和不确定性估计的主流方法，已广泛应用于医疗、金融、法律等高风险场景。算法公平性领域则关注模型在不同保护属性群体（如性别、年龄、种族）间的表现差异。

现有痛点：尽管单个 DNN 的群体公平性已被充分研究，但 Deep Ensembles 对群体公平性的影响尚未被探索。集成多个模型是否可能加剧已有的公平性差距？

核心矛盾：Deep Ensembles 的性能提升在不同群体间分布不均——优势群体往往获益更多，导致集成反而放大了不公平性。这是因为集成成员在不同群体上的预测多样性存在差异。

本文目标：(1) 系统性地分析 Deep Ensembles 对群体公平性的影响；(2) 找出不公平性加剧的原因；(3) 探索有效的缓解策略。

切入角度：从集成成员"预测多样性"（predictive diversity）出发，分析为什么不同群体从集成中获益不同。

核心 idea：Deep Ensembles 的 disparate benefits effect 源于群体间预测多样性差异，而 Hardt 后处理可以利用集成模型更好的校准性来高效缓解此问题。

方法详解¶

整体框架¶

本文是一项实证研究而非提出新方法。整体流程为：(1) 在面部分析和医学影像数据集上训练大量 Deep Ensembles；(2) 使用三种群体公平指标评估公平性变化；(3) 分析成因；(4) 评估缓解策略。

关键设计¶

实验框架设计:
- 功能：系统评估 Deep Ensembles 的公平性影响
- 核心思路：在 FairFace、UTKFace（面部分析）和 CheXpert（医学影像）三个数据集上，使用 5 种 DNN 架构（ResNet18/34/50、RegNet-Y、EfficientNetV2-S），训练共 1000 个独立模型。评估三种公平指标：Statistical Parity Difference (SPD)、Equal Opportunity Difference (EOD)、Average Odds Difference (AOD)
- 设计动机：覆盖多种数据集、架构和公平指标组合，确保结论的普适性
Disparate Benefits 成因分析:
- 功能：解释为什么集成对不同群体的收益不同
- 核心思路：使用 predictive diversity 指标量化集成成员间的预测差异。发现在优势群体上成员的 diversity 更高，使得集成的平均化操作对该群体的"纠错"效果更强，从而获得更大的性能提升
- 设计动机：从集成学习理论出发，diversity 是集成性能提升的关键驱动力，群体间 diversity 差异自然导致差异化收益
Hardt 后处理缓解策略:
- 功能：在保持集成性能优势的同时恢复公平性
- 核心思路：Deep Ensembles 具有更好的概率校准性，因此对预测阈值更敏感。Hardt 后处理通过为不同保护群体设置不同的决策阈值来实现 equalized odds。由于集成的校准性更好，后处理的阈值调整效果更精确
- 设计动机：后处理方法不需要重新训练模型，可以在已有集成模型上直接应用

损失函数 / 训练策略¶

使用标准交叉熵损失训练各 DNN 成员。SGD 优化器（momentum=0.9），FairFace 训练 100 epochs，CheXpert 训练 30 epochs。线性+余弦退火学习率调度。

实验关键数据¶

主实验¶

数据集/任务	指标	Δ Performance	Δ SPD	Δ EOD	Δ AOD
FairFace age/gender	Acc/公平	+0.022	-0.022（更不公平）	-0.017	-0.017
FairFace age/race	Acc/公平	+0.022	-0.009	-0.012	-0.007
UTKFace age/gender	Acc/公平	+0.015	-0.017	-0.015	-0.012
CheXpert/age	AUROC/公平	+0.005	-0.001	-0.008	-0.003

消融实验¶

配置	公平性变化	说明
Deep Ensemble (10成员)	SPD/EOD/AOD 显著恶化	在 15 个任务中多数表现出 disparate benefits
+ Hardt 后处理	SPD/EOD/AOD 恢复到接近公平	利用更好的校准性调整阈值
单模型 + 后处理	效果较差	校准性不足限制了后处理效果

关键发现¶

在 15 个评估任务设置中，Deep Ensembles 几乎都提升了性能但同时恶化了至少一个公平指标
预测多样性（predictive diversity）的群体间差异是 disparate benefits 的关键解释因素
Hardt 后处理特别适合 Deep Ensembles，因为集成提供了更好校准的预测分布，使得阈值调整更加精准

亮点与洞察¶

核心发现具有普适性：disparate benefits effect 不仅出现在面部分析，也出现在医学影像中，说明这是 Deep Ensembles 的固有特性而非数据偶然。这提醒研究者在使用集成方法时必须同时关注公平性
因果链条清晰：从 diversity 差异 → 性能提升不均 → 公平性恶化的逻辑链路完整，为后续研究提供了有力的分析工具
后处理与集成的天然配合：集成改善校准性 → 后处理更有效，这个协同效应可迁移到其他需要公平性约束的集成方法

局限与展望¶

仅考虑了二元分类和二元保护属性，未推广到多类别、多属性、连续属性场景
仅探索了 post-processing 缓解策略，in-processing（训练时加公平约束）和 pre-processing 方法未被评估
实验局限于视觉任务（面部分析和胸片），未验证在 NLP 或表格数据等领域的适用性
可以进一步研究如何设计 fairness-aware 的集成策略，例如对成员加权以平衡群体间 diversity

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究 Deep Ensembles 的公平性影响
实验充分度: ⭐⭐⭐⭐⭐ 1000个模型、3数据集、5架构、3公平指标，非常全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，实验设计严谨
价值: ⭐⭐⭐⭐ 对 ML 公平性和集成学习社区都有重要的警示意义

title: >- [论文解读] The Disparate Benefits of Deep Ensembles description: >- [ICML 2025][医学图像][Deep Ensembles] 系统揭示 Deep Ensembles 的"差异化收益效应"：集成带来的性能提升在不同受保护群体间分配不均，往往有利于已优势群体，导致公平性指标恶化；并发现集成成员间的 per-group 预测多样性差异是根本原因，Hardt 后处理可有效缓解。 tags: - ICML 2025 - 医学图像 - Deep Ensembles - 算法公平性 - 差异化收益 - 预测多样性 - 后处理

The Disparate Benefits of Deep Ensembles¶

会议: ICML 2025
arXiv: 2410.13831
代码: 无
领域: 算法公平性 / 深度学习
关键词: Deep Ensembles、算法公平性、差异化收益、预测多样性、后处理

一句话总结¶

系统揭示 Deep Ensembles 的"差异化收益效应"：集成带来的性能提升在不同受保护群体间分配不均，往往有利于已优势群体，导致公平性指标恶化；并发现集成成员间的 per-group 预测多样性差异是根本原因，Hardt 后处理可有效缓解。

研究背景与动机¶

Deep Ensembles 广泛应用：通过简单集成多个DNN提升预测性能和不确定性估计，被大量部署在医疗、金融等高风险场景
算法公平性关注：当模型在受保护群体（如性别、种族、年龄）间表现不均时，可能加剧社会不公
研究空白：
- 单个DNN的公平性问题已被广泛研究
- 浅层模型集成的公平性有部分探索
- 但 Deep Ensembles 对群体公平性的影响几乎未被研究过
最相关工作 Ko et al. (2023)：研究了子群性能变化但未使用标准公平性指标，且结论偏积极（认为集成仅有正面影响）

核心发现预告：集成的性能提升并非"水涨船高"式普惠所有群体，而是不成比例地偏向某些群体。

方法详解¶

整体框架¶

实验驱动的研究，非提出新模型，而是系统分析现象、原因和缓解策略：

现象发现：量化 Deep Ensemble 在多个公平性指标上的影响
原因分析：通过预测多样性（predictive diversity）解释差异化收益
缓解策略：验证 Hardt 后处理的有效性

关键设计¶

1. 公平性指标体系

三种标准群体公平性指标： - 统计平权差异（SPD）：\(\text{PR}_{A=1} - \text{PR}_{A=0}\)（正预测率差异） - 机会均等差异（EOD）：\(\text{TPR}_{A=1} - \text{TPR}_{A=0}\)（真正例率差异） - 平均赔率差异（AOD）：\(\frac{1}{2}|\text{TPR}_{A=1} - \text{TPR}_{A=0}| + \frac{1}{2}|\text{FPR}_{A=1} - \text{FPR}_{A=0}|\)

其中 \(A=1\) 表示优势群体，所有指标取值 \(\in [0, 1]\)，0为最公平。

2. 预测多样性分析

利用 Jeffares et al. (2023) 的预测多样性定义：

\[\overline{\text{DIV}} = \frac{1}{K}\sum_{k=1}^K \left[\log\left(\frac{1}{N}\sum_{n=1}^N p(y_k|\mathbf{x}_k, \mathbf{w}_n)\right) - \frac{1}{N}\sum_{n=1}^N \log p(y_k|\mathbf{x}_k, \mathbf{w}_n)\right]\]

等式右侧 = 集成对数似然 - 平均成员对数似然
直觉：若集成成员对某群体的预测更"分散"（多样性更高），该群体从集成中获益更多
核心发现：群体间预测多样性差异大 → 差异化收益效应显著；差异小 → 效应不显著

3. Hardt 后处理

Deep Ensembles 因更好的校准性（calibration），其预测分布对决策阈值更敏感
Hardt后处理通过为不同群体设置不同阈值来满足公平性约束
集成的良好校准使得阈值调整更有效

损失函数 / 训练策略¶

5种架构：ResNet18/34/50、RegNet-Y 800MF、EfficientNetV2-S
交叉熵损失，SGD+momentum=0.9
FairFace训练100 epochs，CheXpert训练30 epochs
每种配置独立训练10个模型，5个随机种子，共1000个模型

实验关键数据¶

主实验¶

数据集：FairFace（人脸分析）、UTKFace（分布偏移测试）、CheXpert（医学影像）

FairFace + ResNet50（核心结果表，Δ = 集成 - 平均成员）：

目标/群体	Δ Accuracy↑	Δ SPD↓	Δ EOD↓	Δ AOD↓
age/gender	+0.022	-0.022	-0.017	-0.017
age/race	+0.022	-0.009	-0.012	-0.007
gender/age	+0.014	-0.001	-0.007	-0.004
race/age	+0.015	-0.004	+0.005	-0.001

注：Δ SPD/EOD/AOD为负表示公平性恶化

15个任务中的大多数出现统计显著的差异化收益效应
效应在age作为target时最强（SPD恶化达0.022）
效应在分布偏移下（UTKFace）同样存在且幅度相似

CheXpert医学影像： - Protected group = age时，SPD/EOD/AOD三个指标均显著恶化 - 效应幅度较小（AUROC提升仅0.005），但公平性指标仍受影响

消融实验¶

模型大小影响：较大模型（ResNet50 > ResNet34 > ResNet18）的差异化收益效应更强
架构一致性：5种架构的结果一致
异构集成：混合不同架构的集成同样出现差异化收益
集成成员数量：添加第一个成员（1→2）时公平性恶化最剧烈，之后趋于平缓

关键发现¶

预测多样性解释（核心因果链）： - 当存在显著差异化收益时，优势群体的 \(\overline{\text{DIV}}\) 系统性高于劣势群体 - 当不存在差异化收益时，两群体的 \(\overline{\text{DIV}}\) 差异很小 - 合成实验进一步验证：人工制造的 per-group 多样性差异导致可控的公平性变化

Hardt后处理效果： - 单模型上Hardt效果有限 - Deep Ensemble上Hardt效果显著——因为集成的预测分布更好校准，阈值更可靠 - 后处理后可以同时保留集成的性能增益和满足公平性约束

亮点与洞察¶

首次定义"差异化收益效应"：揭示了一个被忽视的现象——广泛使用的Deep Ensembles可能系统性地加剧群体不公平
因果解释清晰：通过预测多样性的 per-group 差异，从理论层面解释了效应产生的机制
实践影响重大：在医疗影像、人脸识别等高风险领域，性能提升伴随公平性恶化的隐患必须被意识到
缓解策略简单有效：不需要修改训练过程，仅通过Hardt后处理即可兼顾性能和公平性
实验规模大：1000个模型、15个任务、5种架构的全面评估

局限与展望¶

仅考虑二元保护属性和二元分类任务，多类别场景（如多种族分组）未涉及
公平性指标有其固有局限——满足数学定义不等于真实公平
未分析差异化收益效应与训练数据不平衡的具体关系（虽然隐含相关）
后处理方法需要保护属性在推断时可用，某些场景下不现实
未探索in-processing方法（如对抗去偏、公平约束训练）能否在集成中更有效
缺乏对回归任务和连续公平性指标的分析

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究Deep Ensembles对群体公平性的影响，发现重要新现象
实验充分度: ⭐⭐⭐⭐⭐ — 1000个模型、3个数据集、5种架构、3个公平性指标，极其全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验详实，但理论分析深度可进一步加强
价值: ⭐⭐⭐⭐⭐ — 直接影响Deep Ensembles在高风险场景的部署决策

The Disparate Benefits of Deep Ensembles¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

The Disparate Benefits of Deep Ensembles¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

The Disparate Benefits of Deep Ensembles¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶