Alternative Fairness and Accuracy Optimization in Criminal Justice¶

会议: AAAI 2026
arXiv: 2511.04505v4
代码: 无
领域: AI Safety / Algorithmic Fairness
关键词: 算法公平性, 刑事司法, 风险评估, 群体公平性, 个体公平性

一句话总结¶

本文系统综述了算法公平性的三大维度（群体公平、个体公平、过程公平），提出了一种基于容差约束的改进群体公平性优化公式，并构建了面向公共决策系统的"公平三支柱"部署框架。

背景与动机¶

随着算法在现代社会（尤其是刑事司法领域）中的应用日益广泛，算法决策的公平性问题愈发突出。COMPAS等犯罪风险评估工具被发现对少数族裔存在系统性歧视，引发了广泛关注。然而，"公平"本身的定义尚未达成共识——群体公平、个体公平、过程公平等不同定义之间存在内在冲突，满足一种公平可能会损害另一种。现有的严格等式约束（要求各群体假阴性率完全相等）在实践中往往导致优化问题无解或精度大幅下降。因此，亟需一种既能保证公平性、又不过度牺牲预测准确度的方法，以及一个能够指导实际部署的整体框架。

核心问题¶

公平性定义的冲突：群体公平（demographic parity、equalized odds、equal opportunity、calibration）、个体公平（Lipschitz条件）和过程公平三者之间存在不可调和的张力，无法同时完美满足。
严格等式约束的不可行性：传统方法要求各保护群体的错误率完全相等，但由于不同群体的基础率（base rate）差异，严格相等往往不可行或导致显著的准确率下降。
缺乏实践部署指导：技术层面的公平性优化缺少与合法性（legitimacy）、透明度、问责制相结合的完整框架。

方法详解¶

整体框架¶

本文包含两个核心贡献：(1) 一个改进的群体公平性数学优化公式；(2) 一个面向公共决策系统部署的"公平三支柱"（Three Pillars of Fairness）框架。

关键设计¶

改进的群体公平性优化公式¶

传统的 PAC 设置要求各群体假阴性率严格相等：

\[FN(h, v_i) = FN(h, v_j), \quad \forall i \neq j\]

本文将此放松为容差约束形式：

\[\min \sum_{i=1}^{n} \alpha \cdot FN(h, v_i) \cdot W_i\]

\[\text{s.t.} \quad |FN(h, v_i) - FN(h, v_j)| \leq \tau, \quad \forall i \neq j\]

其中： - \(\alpha\), \(\beta\) 分别为假阴性和假阳性的错误代价权重 - \(W_i\) 为群体 \(v_i\) 在总体中的比例 - \(\tau\) 为容差参数，控制各群体假阴性率差异的上界

两大优势： 1. 通过调节 \(\tau\)，可以保证优化问题始终有可行解 2. 由于放松了等式约束，总体预测准确率可以提升

核心权衡：\(\tau\) 的设定涉及伦理选择——过大的 \(\tau\) 可能使弱势群体进一步受损，而刻意偏向弱势群体则实质上构成了基于种族的"平权行动"（affirmative action），可能引发法律争议。

公平三支柱框架¶

基于需求的决策（Need-based Decisions）：公平性的定义应因场景而异——若历史数据有偏，可对不同群体设不同阈值以实现群体平等；若数据公平，则应设统一阈值以保障个体公平。
透明与问责（Transparency and Accountability）：决策过程应公开透明，清楚传达选择了哪种公平性定义、做了哪些妥协，以便公众理解和监督。
窄定义与窄解法（Narrowly Tailored Definitions and Solutions）：公平性的定义和解决方案应针对具体问题量身定制，避免"一刀切"。这既能提高技术可行性，也符合美国反歧视法律中"窄范围适用"的要求。

损失函数 / 训练策略¶

本文并非传统的模型训练论文，其"损失函数"体现在优化框架的设计上：

目标函数：最小化加权假阴性率之和 \(\sum_i \alpha \cdot FN(h, v_i) \cdot W_i\)
约束条件：各群体间假阴性率差异不超过 \(\tau\)
\(\alpha/\beta\) 的比值反映不同场景下的错误代价偏好：在医疗场景中 \(\alpha/\beta \gg 10\)（假阴性代价极高），在信贷场景中 \(\alpha/\beta \ll 0.1\)（假阳性代价更高）

此外，论文讨论了多种实现群体公平的技术路径： - 预处理：数据抑制（suppression）、标签翻转（massaging）、样本重加权、差异影响消除器（DI remover） - 训练中处理：在损失函数中添加正则项，惩罚群体间预测差异 - 后处理：均等化赔率后处理（翻转部分输出标签）、拒绝选项分类（ROC）

实验关键数据¶

本文为理论与框架型论文，不包含传统意义上的实验对比。不过论文引用了以下关键实证发现：

数据/场景	关键发现	来源
COMPAS 再犯预测	统一阈值→个体公平但群体不公平；差异化阈值→群体公平但损害个体公平和准确率	Lagioia et al.
UK Crime API 数据	即使使用完全随机化的合成历史数据，预测性警务算法仍产生偏差反馈循环	Chapman et al.
Adult 收入数据集	两群体 Wasserstein 距离越大，施加 DI remover 后个体公平性下降越多；均值差异比方差差异影响更大	Žliobaitė et al.

消融实验要点¶

论文对容差参数 \(\tau\) 进行了理论分析： - \(\tau = 0\)：退化为传统严格等式约束，可能无解 - \(\tau > 0\)：保证可行解存在，且 \(\tau\) 越大准确率越高，但公平性保障越弱 - 实际建议：如设置各种族群体再犯预测率差异不超过 5%

亮点¶

数学简洁而有洞察力：将严格等式约束放松为容差约束，形式简单但有效解决了可行性和准确率问题
跨学科视角：将政治学中的"合法性"（legitimacy）、过程正义等概念引入算法公平性讨论
三支柱框架的实用性：为政府机构和公共部门提供了可操作的部署指导，而非仅停留在技术层面
对三大批评的系统回应：数据偏差、隐性平权行动、子群体爆炸问题，每一类都给出了清晰分析
将伦理选择显性化：\(\alpha/\beta\) 比值和 \(\tau\) 的设定迫使设计者明确表达错误代价偏好，增强了透明度

局限性 / 可改进方向¶

缺乏实验验证：论文没有在真实数据集上实现和测试所提出的优化公式，停留在理论层面
\(\tau\) 的选取缺乏指导：虽然提出了容差约束，但对 \(\tau\) 该如何根据具体场景确定未给出系统方法
主要聚焦二元分类：讨论的大部分方法和示例都基于二元保护属性（如黑/白），多类别情况讨论不足
优化公式仅考虑假阴性率：目标函数只最小化假阴性率的加权和，未将假阳性率纳入优化目标
三支柱框架较为宏观：缺乏具体的量化指标和评估流程，部署时仍需大量定制工作
未讨论与因果公平性的关系：近年来因果推断视角下的公平性研究发展迅速，但本文未涉及

与相关工作的对比¶

Dwork et al. (2012)：提出个体公平的 Lipschitz 条件和"公平平权行动"算法，本文在此基础上分析个体/群体公平的冲突条件
Hardt et al. (2016)：提出均等化赔率后处理方法（翻转输出标签），本文将其作为后处理策略之一纳入讨论
Kearns et al. (2018)：提出子群体公平性的多项式时间算法，本文将子群体爆炸作为群体公平的第三大批评
Ho & Xiang (2020)：从法律角度论证窄范围适用的算法公平调整最具合法性，本文将此思路发展为三支柱中的"窄定义窄解法"
COMPAS 系统分析 (Lagioia et al.)：揭示了校准与群体公平的不可兼得性，本文以此为动机提出容差约束

启发与关联¶

容差约束思想的通用性：将严格等式约束放松为容差区间的做法可推广到其他公平性定义（如 equalized odds、calibration），在更广泛的 ML 公平性问题中有应用潜力
错误代价的场景依赖性：\(\alpha/\beta\) 的不同设定（医疗 vs. 信贷 vs. 刑事司法）启发我们在任何 ML 系统中都应显式考虑不同类型错误的代价差异
过程公平与技术公平的互补：即使技术上完美公平的算法，若缺乏透明度和公众信任，也可能在部署中失败——这对所有 AI 安全研究都有借鉴意义
可与对抗鲁棒性研究交叉：偏差反馈循环（biased feedback loops）与对抗攻击有类似结构，防御方法可能存在迁移

评分¶

新颖性: ⭐⭐⭐ 容差约束公式是对已有框架的简单但有效改进，三支柱框架综合了多学科视角，但各组成部分并非全新
实验充分度: ⭐⭐ 作为理论/框架型论文，完全没有自己的实验验证，仅引用已有实证结果，说服力有限
写作质量: ⭐⭐⭐⭐ 综述部分系统全面，数学符号规范，论述逻辑清晰，跨学科引用丰富
价值: ⭐⭐⭐ 三支柱框架对公共部门算法部署有实用指导价值，容差约束思想简洁实用，但缺乏实验验证削弱了整体贡献