Mitigating Selection Bias with Node Pruning and Auxiliary Options¶
会议: ACL 2025
arXiv: 2409.18857
领域: NLP 理解
关键词: 选择偏差, 模型剪枝, 多选题, LLM去偏, 辅助选项注入
一句话总结¶
提出Bias Node Pruning (BNP)和Auxiliary Option Injection (AOI)两种互补方法,从模型内部和输入端同时缓解LLM在多选题中的选择偏差,仅剪除0.002%权重即可将Llama-3准确率从52.3%提升至65.3%(+24.9%组合提升)。
研究背景与动机¶
- 问题定义:LLM对多选题(MCQ)存在系统性的选择偏差——倾向于选择特定位置或标签的答案(如总选最后一个或总选A),与内容无关
- 现有方法局限:
- 输入重格式化(Li et al. 2023)或输出概率调整(Zheng et al. 2024)只在表面修补
- 忽略了偏差在模型内部的产生机制
- 两个关键观察:
- 错误样本偏差更严重:模型回答错误时,选择分布更加不均衡
- 偏差集中在最后几层:通过embedding分析发现偏差在decoder最终输出层最为显著
方法详解¶
整体框架¶
两种方法协同工作: - BNP(白盒):剪除输出投影矩阵中与偏差向量交互最强的参数行 - AOI(白盒+黑盒):向选项中注入"我不知道"辅助选项,重分配注意力
另提出CKLD新指标衡量选择偏差。
关键设计¶
Bias Node Pruning (BNP) - 偏差向量计算:对每题,用不同选项排列生成embedding,计算正确/错误排列的embedding差 - b_x = (1/n₋)Σz₋ - (1/n₊)Σz₊,平均32个样本得到b - 偏差节点识别:计算W矩阵各行与偏差向量b的交互强度 - K = Top-k_i(Σⱼ bᵢ × Wᵢⱼ) - 剪枝:将K个最强交互行置零 → 得到W̃ - 超参数:Llama-3和Mistral剪32个节点,Bloomz剪128个节点 - 仅修改0.002%权重
Auxiliary Option Injection (AOI) - 在选项末尾添加"I don't know"选项 - 最终答案从原始选项中选概率最高的(排除IDK) - 关键直觉:给模型一个"不确定"出口,减少在无把握时的位置偏差 - 适用于黑盒模型(Claude-3等)
Choice KL Divergence (CKLD) - 现有RStd/RSD仅衡量recall变异性,无法捕捉分布性不平衡 - CKLD = KL(模型预测分布 || 真实答案分布) - 更敏感地反映选择偏差的程度
实验关键数据¶
主实验¶
三个数据集:ARC-Challenge, MMLU-Redux, CommonsenseQA 三个模型:Llama-3-8B-Instruct, Bloomz-7b1, Mistral-7B-Instruct-v0.2
Llama-3核心结果(ARC-Challenge): | 方法 | Acc↑ | F1↑ | RSD↓ | CKLD↓ | |------|------|-----|------|-------| | Baseline | 52.3 | 54.1 | 0.562 | 0.494 | | +BNP | 56.7 | 57.0 | 0.434 | 0.302 | | +AOI | 60.7 | 61.0 | 0.364 | 0.231 | | +BNP+AOI | 65.3 | 65.1 | 0.262 | 0.124 |
- BNP+AOI组合在Llama-3上提升24.9% Acc(52.3→65.3),CKLD降低74.9%
- MMLU-Redux上从41.8→48.3(+15.6%),CSQA上从65.4→68.1
Bloomz结果(ARC-Challenge): | Baseline | BNP+AOI | |----------|---------| | 43.9 Acc / 0.283 CKLD | 48.8 Acc / 0.088 CKLD |
与基线方法结合(Llama-3 + CoT): | 方法 | ARC Acc | MMLU Acc | |------|---------|----------| | CoT | 66.2 | 50.2 | | CoT + Ours | 69.2 | 50.4 |
黑盒模型(Claude-3-Sonnet + AOI): - AOI在Claude-3上同样有效,Figure 2显示voting accuracy与original accuracy的gap减小
关键发现¶
- BNP和AOI互补:各自独立有效,组合后效果最佳
- 与CoT/ICL正交:BNP+AOI可叠加在CoT和In-Context Learning之上进一步提升
- CKLD vs RSD:CKLD在所有实验中比RSD更敏感、更一致
- Mistral偏差较小:初始CKLD仅0.040,BNP改进空间有限,但AOI仍显著有效
- IDK选项的作用机制:AOI使模型将"不确定"概率集中到IDK选项,从而让真实答案的概率分布更均衡
亮点与洞察¶
- 从内部机制入手:首次定位偏差在最终输出层的参数级来源,而非外部修补
- 极简剪枝:仅0.002%权重修改即产生显著效果,几乎无计算开销
- AOI的巧妙设计:添加无害的"我不知道"选项即可大幅减偏,适用于任何模型
- CKLD指标:基于分布的度量比recall方差更能反映真实偏差
- 两种方法覆盖全场景:BNP用于白盒,AOI同时适用黑盒,实践中灵活组合
局限性¶
- BNP需要少量偏差校准数据(32个样本),对OOD数据的泛化性未充分验证
- 超参数k(剪枝节点数)需要按模型搜索,未提供自动选择方法
- 仅在MCQ任务上验证,对生成式任务中的偏差是否适用未知
- AOI在多轮对话等复杂交互场景的效果未探索
- 偏差向量的计算假设可获取所有选项排列,对大量选项的情况效率较低
相关工作¶
- 输入端去偏:PriDe(Li et al. 2023)、选项顺序重排(Robinson et al. 2023)
- 输出端去偏:概率校准(Zheng et al. 2024)、DoLa解码(Reif & Schwartz 2024)
- 结构化剪枝:模型压缩领域的权重剪枝方法
- MCQ评估:ARC、MMLU等benchmark
评分¶
- 新颖性: ⭐⭐⭐⭐ — 偏差定位+参数级剪枝思路新颖,AOI简洁有效
- 技术深度: ⭐⭐⭐⭐ — 从偏差分析到方法设计逻辑清晰
- 实验充分性: ⭐⭐⭐⭐ — 3模型×3数据集,与CoT/ICL组合验证全面
- 实用性: ⭐⭐⭐⭐⭐ — 即插即用,对白盒和黑盒模型均适用
- 总评: ⭐⭐⭐⭐ — 解决了实际且重要的问题,方法简洁有效