Mitigating Confounding in Speech-Based Dementia Detection through Weight Masking¶
会议: ACL 2025
arXiv: 2506.05610
代码: GitHub
领域: NLP / 医疗AI / 公平性
关键词: dementia detection, confounding bias, weight masking, Transformer debiasing, gender fairness
一句话总结¶
针对基于语音转录文本的痴呆检测任务中的性别混淆偏差问题,提出 Extended Confounding Filter(ECF)和 Dual Filter(DF)两种无需额外训练模块的权重掩码方法,通过追踪微调过程中的权重变化来定位性别关联参数并将其置零,在多种分布偏移场景下保持痴呆检测性能的同时显著降低性别间的假阳性率差异和统计均等性差距。
研究背景与动机¶
Transformer 模型在基于患者语音转录文本的痴呆检测中表现良好,但隐藏着严重的混淆偏差(confounding bias)问题。在痴呆语音数据集中,性别变量同时影响两个方面:(1) 语言模式——男女在完成同一图片描述任务时的语言风格不同(用词、句法、叙述方式等);(2) 痴呆发病率——女性痴呆风险显著高于男性。这导致模型可能学到性别特异性语言线索(如女性更常用的词汇模式)并将其作为痴呆预测的"捷径",而非真正的认知衰退标志。
作者首先通过实验验证了这一偏差的存在:在 DementiaBank 和 CCC 两个数据集上,BERT-base 微调后在男性和女性子组间展现出显著的预测性能差异(Mann-Whitney-Wilcoxon 检验 p < 0.001),且在平衡性别分布后差异依然存在——证明偏差源于语言模式而非分布不均。
此前的 Confounding Filter 方法仅在分类头上操作,对整个 Transformer 网络中混淆信息的分布缺乏探索。本文将权重掩码扩展到完整网络架构,并提出了一种更高效的双模型比较方案。
方法详解¶
整体框架¶
两阶段流程:阶段1 正常微调模型用于痴呆检测(或同时训练性别分类模型);阶段2 通过追踪权重变化定位与性别关联的参数,生成二值掩码矩阵将这些参数置零,得到去混淆后的模型。
关键设计¶
-
Extended Confounding Filter (ECF):
- 功能:将原始 Confounding Filter 的权重定位范围从分类头扩展到完整 Transformer 网络
- 核心思路:阶段1正常微调痴呆检测模型 \(f(x;\hat{\theta})\) 并保存快照。阶段2从分类头开始,逐层解冻网络层(cls → layer12 → layer11 → ... → layer1 → emb),训练模型预测性别标签。在每个解冻配置下,追踪所有可训练权重矩阵(\(W_Q, W_K, W_V, W_O, W_1, W_2\))中每个元素的变化幅度,归一化后累积。选取每个权重矩阵中变化最大的 top-15% 参数生成掩码(置零)
- 设计动机:语义信息在 Transformer 的各层中动态分布,仅在分类头上识别性别权重是不够的。逐层解冻的探查方案(probing scheme)允许灵活定位网络中不同深度的混淆信息
- 关键发现:消除上层性别权重后模型痴呆检测性能保持稳定,直到波及底层(特别是 token embedding 层)才急剧退化
-
Dual Filter (DF):
- 功能:通过双模型的全局权重变化比较来定位混淆权重,更高效且更灵活
- 核心思路:从同一预训练检查点分别初始化两个模型——\(f\) 微调痴呆检测,\(g\) 微调性别分类。追踪两个模型在整个网络中各参数的变化幅度 \(\Delta_p\) 和 \(\Delta_c\)。分别选取各模型中变化最大的 top-\(k\%\) 权重位置,然后通过集合运算生成三种掩码:
- 交集掩码 \(M_I = \Delta_{p,k} \cap \Delta_{c,k}\):在两个任务中都大幅变化的权重——可能编码了纠缠的性别-痴呆信息
- 差集掩码 \(M_D = \Delta_{c,k} \setminus \Delta_{p,k}\):仅在性别模型中大幅变化的权重——纯性别信息
- 联合掩码 \(M_I \cup M_D\):等价于性别模型中变化最大的 top-\(k\%\) 权重
- 将选中的掩码应用于痴呆检测模型 \(f\) 的对应参数位置(置零)
- 设计动机:ECF 的逐层探查需要多次阶段2训练,计算开销大;DF 仅需两次微调,复杂度线性于数据集大小。且 DF 使用全局权重排序而非局部每层排序,能捕获跨层的混淆模式
- 关键细节:分类头不参与权重追踪(因两个任务的分类头必然差异最大且不可比);阶段2的性别分类训练仅使用非痴呆样本(健康对照),避免混入痴呆信号
-
混淆偏移评估框架(Confounding Shift):
- 功能:系统性评估模型在不同分布偏移下的鲁棒性
- 核心思路:引入参数 \(\alpha = P(\text{dementia}|\text{female}) / P(\text{dementia}|\text{male})\) 控制训练/测试集中性别-痴呆的条件分布。固定 \(P(\text{gender}=1) = P(\text{dementia}=1) = 0.5\) 确保平衡。训练在 \(\alpha_{\text{train}}\) 上,测试在 \(1/\alpha_{\text{train}}\) 上模拟极端偏移
- 设计动机:真实临床部署中训练和部署的人群分布往往不同,模型需在各种偏移下保持公平
损失函数 / 训练策略¶
- 阶段1:标准交叉熵损失微调 BERT-base 进行痴呆检测
- 阶段2(ECF):交叉熵损失训练性别分类,但仅追踪权重变化而非使用最终模型
- 阶段2(DF):分别独立微调两个模型,无需联合训练或对抗损失
- 掩码应用后不再微调——直接置零即为最终模型
实验关键数据¶
主实验:性别混淆偏差验证¶
| 数据集 | 设置 | 男女 AUPRC 差异均值 | p 值 |
|---|---|---|---|
| DementiaBank (DB) | 原始分布 | 0.055 | < 0.001 |
| DementiaBank (DB) | 平衡分布 | 0.068 | < 0.001 |
| CCC | 原始分布 | 0.152 | 0.002 |
| CCC | 平衡分布 | 0.102 | 0.007 |
平衡性别分布后差异依然显著甚至更大,证明偏差源于语言模式差异。
去偏效果示例(DB 数据集)¶
| 方法 | α_train | 掩码比例 | AUPRC | ΔFPR |
|---|---|---|---|---|
| 原始模型 | 0.2 | 0% | 0.83 | 0.23 |
| DF (\(M_I\)) | 0.2 | 10% | 0.80 (-0.03) | 0.03 (-0.20) |
性能仅下降 0.03,但性别间假阳性率差距从 0.23 降至 0.03——接近完全公平。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 原始 CF(仅分类头掩码) | AUPRC 无改善 | 分类头不足以捕获混淆信息 |
| ECF 逐层扩展 | 上层掩码后性能稳定,底层掩码后退化 | 性别信息主要在中上层,token embedding 层对性能至关重要 |
| DF \(M_I\) vs \(M_D\) vs \(M_I \cup M_D\) | \(M_I\) 和 \(M_D\) 弹性更强,\(M_I \cup M_D\) 偶有退化 | 不加区分地移除所有性别权重会损害任务性能 |
| 不同 \(\alpha_{\text{train}}\) 配置 | α 越偏离 1 性能越差 | "阶梯效应"——分布偏移程度与性能退化正相关 |
方法对比(\(\alpha_{\text{train}}=3, \alpha_{\text{test}}=1/3\))¶
在 AUPRC-ΔFPR 权衡曲线上: - CCC 数据集:ECF 取得最佳权衡 - DB 数据集:DF (\(M_D\)) 优于所有其他方法 - 两种方法一致优于 adapter 基线(ConGater, ModDiffy)和原始 Confounding Filter - 权重掩码方法提供更细粒度的权衡轨迹:通过连续调节掩码比例(0-60 步长 1)精细控制公平性-性能平衡
关键发现¶
- 简单的分类头掩码完全不够:原始 Confounding Filter 仅在分类层操作,对混淆偏差几乎无缓解效果——性别信息分布在整个 Transformer 网络中
- 上层掩码安全,底层掩码危险:从上层开始移除性别权重时模型保持弹性,直到波及底层(尤其 token embedding 层)才出现急剧退化——在某些配置下,移除某些层的性别权重甚至提升了痴呆检测性能
- 权重纠缠:性别信息和痴呆信息在 Transformer 权重中存在部分纠缠——\(M_I\)(交集掩码)非空,且掩码部分交集权重会轻微损害任务性能
- 统计均等性也显著改善:在平衡测试集(\(\alpha=1\))上,ΔSP(统计均等性差距)也大幅减小
- 即使标签和性别分布平衡,不处理混淆偏移也会导致性能退化——分布偏移问题不能仅靠数据平衡解决
亮点与洞察¶
- 方法与模型无关(model-agnostic):ECF 和 DF 可应用于任何 Transformer 架构,不引入额外训练模块或目标函数,仅通过追踪权重变化和置零操作实现
- DF 的"双模型比较"范式简洁优雅:不需要联合训练、对抗损失或适配器模块——只需两次标准微调加集合运算。概念简单但效果强大
- 可扩展到非二元混淆变量:将阶段2改为多分类即可处理年龄、教育水平等混淆因素
- 权重掩码 vs 损失优化方法:掩码方法提供连续可调的公平性-性能权衡曲线,比 adapter 方法(离散超参数)更灵活
- 实验设计中的混淆偏移框架(α 参数控制)值得其他公平性研究借鉴
局限与展望¶
- 数据集规模小:DB 仅 290 名参与者 548 条样本,CCC 仅 70 人 394 条转录。不同 α 配置需要重复采样,数据中包含大量重复
- 仅使用 BERT-base 一种编码器模型,未验证 RoBERTa、DeBERTa 等其他架构
- ECF 的逐层探查计算开销较大(每种解冻配置都需要一次阶段2训练)
- 仅考虑二元性别变量,未探索多变量混淆(如性别×年龄×教育水平的联合效应)
- 研究假设性别不应影响痴呆预测,但临床上性别确实是痴呆风险因素——方法可能移除了部分有临床意义的性别相关信号
- 权重置零是硬操作——是否存在更柔性的权重调节方式(如缩放而非置零)需要探索
相关工作与启发¶
- vs Confounding Filter (Wang et al. 2019): 原方法仅在分类头上操作且针对 CNN/非 Transformer 架构;ECF 将其扩展到 Transformer 全网络,DF 进一步提出更高效的全局方案
- vs ConGater (Masoudian et al. 2024): 适配器方法,通过额外模块和联合损失函数去偏;本文方法更轻量,不引入额外参数
- vs ModDiffy (Hauzenberger et al. 2023): 另一种模块化去偏方法;在 AUPRC-ΔFPR 权衡上本文方法表现更优
- vs INLP (Ravfogel et al. 2022): 通过线性投影移除受保护属性信息;本文方法操作在参数空间而非表示空间,与微调过程更紧密结合
评分¶
- 新颖性: ⭐⭐⭐⭐ Dual Filter 的双模型权重比较思路新颖简洁;将混淆偏差问题引入痴呆检测NLP领域有开拓性
- 实验充分度: ⭐⭐⭐⭐ 多种 α 配置的系统性分布偏移实验、多种掩码策略对比、两个数据集、多基线比较、公平性+性能双维度评估
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述严谨,伦理声明详尽
- 价值: ⭐⭐⭐⭐ 方法通用可迁移到其他临床NLP任务中的混淆偏差问题;权重掩码视角为 Transformer 可解释性研究提供了新工具
相关论文¶
- [ACL 2025] Segment-Based Attention Masking for GPTs
- [ACL 2025] Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation
- [ACL 2025] Mitigating Shortcut Learning with InterpoLated Learning
- [ACL 2025] Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text
- [ACL 2025] Unlocking Speech Instruction Data Potential with Query Rewriting