Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks¶
会议: ACL 2025
arXiv: 2410.11005
领域: LLM 公平性 / AI 安全
关键词: 方言公平性, AAVE, 推理任务, 语言鲁棒性, 基准评测
一句话总结¶
本文提出首个系统评估LLM在非标准方言(AAVE)推理任务中公平性与鲁棒性的研究,构建了包含1.2K+平行查询对的ReDial基准,发现几乎所有主流LLM在AAVE输入上表现出显著的性能下降和不公平。
研究背景与动机¶
-
语言多样性被忽视:现有LLM评测基准通常以标准英语(SE)构建,忽略了语言内部的方言变异。全球约3300万人使用非裔美国人方言英语(AAVE),约80%的非裔美国人使用该方言。
-
方言歧视的现实影响:方言使用者在住房、教育、就业和刑事司法等领域已知会遭受隐性和显性歧视。随着LLM服务的用户群体快速扩大,理解其与多样语言社区的交互至关重要。
-
现有工作的不足:
- 现有方言基准(如Ziems et al., 2023)不涵盖推理任务
- 主流推理基准(如HumanEval、GSM8K)仅以标准英语构建
-
此前方言转换方法要么依赖预定义的词汇/形态句法变换规则(可能忽略微妙的语境差异),要么使用LLM作翻译器(可能引入偏见)
-
研究目标:确保用户可以使用其偏好的语言风格,而不是被语言模型服务所限制;系统客观地评估LLM在推理任务中对方言查询的公平性与鲁棒性。
方法详解¶
整体框架¶
ReDial(Reasoning with Dialect Queries)是一个高质量的、端到端人工标注的SE-AAVE平行数据集,包含四大推理类别:
| 类别 | 占比 | 数据来源 | 数量 |
|---|---|---|---|
| 算法 | 25.7% | HumanEval, MBPP | 314 |
| 逻辑 | 29.8% | LogicBench, Folio | 362 |
| 数学 | 24.7% | GSM8K, SVAMP | 300 |
| 综合 | 19.7% | AsyncHow | 240 |
| 总计 | - | - | 1,216 |
关键设计¶
- 数据来源与采样策略:
- 从7个已有基准中精选数据,覆盖算法(HumanEval 164条、MBPP 150条)、数学(GSM8K 150条、SVAMP 150条)、逻辑(LogicBench 200条、Folio 162条)和综合推理(AsyncHow 240条)
-
综合推理任务需要结合逻辑、算法和数学多种技能
-
人工标注流程:
- 雇佣13名具有不同人口背景的AAVE母语者进行改写
- 对涉及代码的算法任务,专门雇佣具有计算机科学背景的标注者
-
要求保留所有关键信息(数值、逻辑条件、技术细节)同时使表达自然
-
质量验证机制(三重检验):
- 自然性检查:标注者交叉检查彼此的标注
- 正确性检查:非AAVE使用者手动检查关键信息保留情况
- LLM辅助检查:使用GPT-4o进行正确性辅理检查(但不单独依赖LLM判断)
- 不合格实例返回重新标注,迭代直至全部通过
实验关键数据¶
主实验¶
在14个模型上的大规模评估结果:
| 模型 | SE总体 | AAVE总体 | 下降幅度Δ |
|---|---|---|---|
| GPT-o1 | 0.892 | 0.866 | -0.026 |
| GPT-4o (Direct) | 0.832 | 0.716 | -0.116 |
| GPT-4o (CoT) | 0.826 | 0.784 | -0.043 |
| Claude-3.5-Sonnet (Direct) | 0.865 | 0.810 | -0.055 |
| Claude-3.5-Sonnet (CoT) | 0.868 | 0.811 | -0.058 |
| Llama-3.1-70B (Direct) | 0.663 | 0.599 | -0.064 |
| Phi-3-Small (Direct) | 0.530 | 0.421 | -0.109 |
| Mixtral-8x7B (Direct) | 0.388 | 0.274 | -0.114 |
| GPT-3.5-turbo (CoT) | 0.517 | 0.416 | -0.101 |
| GPT-4 (CoT) | 0.706 | 0.590 | -0.115 |
关键发现:平均相对性能下降超过10%,几乎所有模型在AAVE上都有统计显著的性能下降。
关键发现¶
-
广泛的不公平性:几乎所有测试的主流模型在AAVE查询上都表现出显著的脆弱性和不公平,尽管AAVE与SE查询在语义上完全等价。
-
CoT提示无法解决问题:即使使用Chain of Thought提示技术,性能差距依然持续存在。例如GPT-4在CoT下反而差距更大(-0.115 vs Direct的-0.067)。
-
综合推理类别受影响最大:在Integrated Reasoning(AsyncHow)上,多个模型的AAVE性能出现断崖式下降。GPT-4o从0.783降至0.312(Direct),GPT-4从0.283降至0.058(CoT)。
-
脆弱性根源:LLM的AAVE脆弱性源于方言特有的形态句法特征和细微的会话规范的组合,合成扰动和AAVE特征注入实验表明这些因素虽导致性能下降,但无法复现人工标注数据的严重程度。
-
模型规模不能完全解决问题:虽然较大模型(如GPT-o1)差距较小,但仍然存在统计显著的性能下降,说明简单增大模型规模不是根本解决方案。
亮点与洞察¶
-
首创性:首个系统评估LLM在方言推理任务中公平性的研究,填补了该领域的重要空白。
-
高质量人工标注:采用端到端人工标注而非规则变换或LLM翻译,确保数据自然性和准确性,避免引入系统偏见。
-
实际影响:研究发现直接影响教育评估、个性化推荐和语音助手等实际应用场景中的公平性。
-
方法论贡献:建立了分析LLM方言偏见的系统客观框架,包含鲁棒性和公平性两个维度。
-
深层洞察:揭示了合成扰动无法替代真实人工数据的本质限制,强调高质量、上下文丰富的数据集的关键必要性。
局限性¶
-
方言覆盖有限:仅关注AAVE一种方言,对其他英语方言(如苏格兰英语、印度英语)或其他语言的方言情况未做研究。
-
标注规模:1.2K+的数据量虽已全面但相对有限,每个类别的样本量可能不足以捕获所有边缘情况。
-
模型更新:随着模型快速迭代,当前评估结果可能不完全适用于最新版本的LLM。
-
AAVE的内部多样性:AAVE本身也存在地域和社会变异,13名标注者可能无法完全涵盖AAVE的全部多样性。
-
缺乏解决方案:论文主要聚焦于发现和量化问题,未提出具体的缓解或改进策略。
相关工作¶
- 方言NLP:Ziems et al. (2022, 2023)的基于规则的方言变换;Gupta et al. (2024)的LLM翻译方法
- LLM偏见研究:Sap et al. (2019), Hofmann et al. (2024)在语言和社会分析任务中的偏见评估
- 对抗鲁棒性:Moradi and Samwald (2021), Jin et al. (2023)的语义鲁棒性测试框架
- 推理基准:HumanEval (Chen et al., 2021), GSM8K (Cobbe et al., 2021), LogicBench (Parmar et al., 2024)
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 新颖性 | 9 | 首个系统评估方言推理公平性的工作 |
| 技术深度 | 7 | 以实证为主,技术创新相对有限 |
| 实验充分性 | 9 | 14个模型、7个数据源、多维分析 |
| 写作质量 | 8 | 结构清晰,论证严谨 |
| 实际影响 | 8 | 对AI公平性领域有重要启示意义 |
| 总分 | 8.2 | 填补重要空白的实证研究 |