Mitigating Selection Bias with Node Pruning and Auxiliary Options¶

会议: ACL 2025
arXiv: 2409.18857
领域: NLP 理解
关键词: 选择偏差, 模型剪枝, 多选题, LLM去偏, 辅助选项注入

一句话总结¶

提出Bias Node Pruning (BNP)和Auxiliary Option Injection (AOI)两种互补方法，从模型内部和输入端同时缓解LLM在多选题中的选择偏差，仅剪除0.002%权重即可将Llama-3准确率从52.3%提升至65.3%（+24.9%组合提升）。

研究背景与动机¶

问题定义：LLM对多选题(MCQ)存在系统性的选择偏差——倾向于选择特定位置或标签的答案（如总选最后一个或总选A），与内容无关
现有方法局限：
输入重格式化（Li et al. 2023）或输出概率调整（Zheng et al. 2024）只在表面修补
忽略了偏差在模型内部的产生机制
两个关键观察：
错误样本偏差更严重：模型回答错误时，选择分布更加不均衡
偏差集中在最后几层：通过embedding分析发现偏差在decoder最终输出层最为显著

方法详解¶

整体框架¶

两种方法协同工作： - BNP（白盒）：剪除输出投影矩阵中与偏差向量交互最强的参数行 - AOI（白盒+黑盒）：向选项中注入"我不知道"辅助选项，重分配注意力

另提出CKLD新指标衡量选择偏差。

关键设计¶

Bias Node Pruning (BNP) - 偏差向量计算：对每题，用不同选项排列生成embedding，计算正确/错误排列的embedding差 - b_x = (1/n₋)Σz₋ - (1/n₊)Σz₊，平均32个样本得到b - 偏差节点识别：计算W矩阵各行与偏差向量b的交互强度 - K = Top-k_i(Σⱼ bᵢ × Wᵢⱼ) - 剪枝：将K个最强交互行置零 → 得到W̃ - 超参数：Llama-3和Mistral剪32个节点，Bloomz剪128个节点 - 仅修改0.002%权重

Auxiliary Option Injection (AOI) - 在选项末尾添加"I don't know"选项 - 最终答案从原始选项中选概率最高的（排除IDK） - 关键直觉：给模型一个"不确定"出口，减少在无把握时的位置偏差 - 适用于黑盒模型（Claude-3等）

Choice KL Divergence (CKLD) - 现有RStd/RSD仅衡量recall变异性，无法捕捉分布性不平衡 - CKLD = KL(模型预测分布 || 真实答案分布) - 更敏感地反映选择偏差的程度

实验关键数据¶

主实验¶

三个数据集：ARC-Challenge, MMLU-Redux, CommonsenseQA 三个模型：Llama-3-8B-Instruct, Bloomz-7b1, Mistral-7B-Instruct-v0.2

Llama-3核心结果（ARC-Challenge）： | 方法 | Acc↑ | F1↑ | RSD↓ | CKLD↓ | |------|------|-----|------|-------| | Baseline | 52.3 | 54.1 | 0.562 | 0.494 | | +BNP | 56.7 | 57.0 | 0.434 | 0.302 | | +AOI | 60.7 | 61.0 | 0.364 | 0.231 | | +BNP+AOI | 65.3 | 65.1 | 0.262 | 0.124 |

BNP+AOI组合在Llama-3上提升24.9% Acc（52.3→65.3），CKLD降低74.9%
MMLU-Redux上从41.8→48.3（+15.6%），CSQA上从65.4→68.1

Bloomz结果（ARC-Challenge）： | Baseline | BNP+AOI | |----------|---------| | 43.9 Acc / 0.283 CKLD | 48.8 Acc / 0.088 CKLD |

与基线方法结合（Llama-3 + CoT）： | 方法 | ARC Acc | MMLU Acc | |------|---------|----------| | CoT | 66.2 | 50.2 | | CoT + Ours | 69.2 | 50.4 |

黑盒模型（Claude-3-Sonnet + AOI）： - AOI在Claude-3上同样有效，Figure 2显示voting accuracy与original accuracy的gap减小

关键发现¶

BNP和AOI互补：各自独立有效，组合后效果最佳
与CoT/ICL正交：BNP+AOI可叠加在CoT和In-Context Learning之上进一步提升
CKLD vs RSD：CKLD在所有实验中比RSD更敏感、更一致
Mistral偏差较小：初始CKLD仅0.040，BNP改进空间有限，但AOI仍显著有效
IDK选项的作用机制：AOI使模型将"不确定"概率集中到IDK选项，从而让真实答案的概率分布更均衡

亮点与洞察¶

从内部机制入手：首次定位偏差在最终输出层的参数级来源，而非外部修补
极简剪枝：仅0.002%权重修改即产生显著效果，几乎无计算开销
AOI的巧妙设计：添加无害的"我不知道"选项即可大幅减偏，适用于任何模型
CKLD指标：基于分布的度量比recall方差更能反映真实偏差
两种方法覆盖全场景：BNP用于白盒，AOI同时适用黑盒，实践中灵活组合

局限性¶

BNP需要少量偏差校准数据（32个样本），对OOD数据的泛化性未充分验证
超参数k（剪枝节点数）需要按模型搜索，未提供自动选择方法
仅在MCQ任务上验证，对生成式任务中的偏差是否适用未知
AOI在多轮对话等复杂交互场景的效果未探索
偏差向量的计算假设可获取所有选项排列，对大量选项的情况效率较低

评分¶

新颖性: ⭐⭐⭐⭐ — 偏差定位+参数级剪枝思路新颖，AOI简洁有效
技术深度: ⭐⭐⭐⭐ — 从偏差分析到方法设计逻辑清晰
实验充分性: ⭐⭐⭐⭐ — 3模型×3数据集，与CoT/ICL组合验证全面
实用性: ⭐⭐⭐⭐⭐ — 即插即用，对白盒和黑盒模型均适用
总评: ⭐⭐⭐⭐ — 解决了实际且重要的问题，方法简洁有效