跳转至

Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

会议: ACL 2025
arXiv: 2410.11005
领域: LLM 公平性 / AI 安全
关键词: 方言公平性, AAVE, 推理任务, 语言鲁棒性, 基准评测

一句话总结

本文提出首个系统评估LLM在非标准方言(AAVE)推理任务中公平性与鲁棒性的研究,构建了包含1.2K+平行查询对的ReDial基准,发现几乎所有主流LLM在AAVE输入上表现出显著的性能下降和不公平。

研究背景与动机

  1. 语言多样性被忽视:现有LLM评测基准通常以标准英语(SE)构建,忽略了语言内部的方言变异。全球约3300万人使用非裔美国人方言英语(AAVE),约80%的非裔美国人使用该方言。

  2. 方言歧视的现实影响:方言使用者在住房、教育、就业和刑事司法等领域已知会遭受隐性和显性歧视。随着LLM服务的用户群体快速扩大,理解其与多样语言社区的交互至关重要。

  3. 现有工作的不足

  4. 现有方言基准(如Ziems et al., 2023)不涵盖推理任务
  5. 主流推理基准(如HumanEval、GSM8K)仅以标准英语构建
  6. 此前方言转换方法要么依赖预定义的词汇/形态句法变换规则(可能忽略微妙的语境差异),要么使用LLM作翻译器(可能引入偏见)

  7. 研究目标:确保用户可以使用其偏好的语言风格,而不是被语言模型服务所限制;系统客观地评估LLM在推理任务中对方言查询的公平性与鲁棒性。

方法详解

整体框架

ReDial(Reasoning with Dialect Queries)是一个高质量的、端到端人工标注的SE-AAVE平行数据集,包含四大推理类别:

类别 占比 数据来源 数量
算法 25.7% HumanEval, MBPP 314
逻辑 29.8% LogicBench, Folio 362
数学 24.7% GSM8K, SVAMP 300
综合 19.7% AsyncHow 240
总计 - - 1,216

关键设计

  1. 数据来源与采样策略
  2. 从7个已有基准中精选数据,覆盖算法(HumanEval 164条、MBPP 150条)、数学(GSM8K 150条、SVAMP 150条)、逻辑(LogicBench 200条、Folio 162条)和综合推理(AsyncHow 240条)
  3. 综合推理任务需要结合逻辑、算法和数学多种技能

  4. 人工标注流程

  5. 雇佣13名具有不同人口背景的AAVE母语者进行改写
  6. 对涉及代码的算法任务,专门雇佣具有计算机科学背景的标注者
  7. 要求保留所有关键信息(数值、逻辑条件、技术细节)同时使表达自然

  8. 质量验证机制(三重检验)

  9. 自然性检查:标注者交叉检查彼此的标注
  10. 正确性检查:非AAVE使用者手动检查关键信息保留情况
  11. LLM辅助检查:使用GPT-4o进行正确性辅理检查(但不单独依赖LLM判断)
  12. 不合格实例返回重新标注,迭代直至全部通过

实验关键数据

主实验

在14个模型上的大规模评估结果:

模型 SE总体 AAVE总体 下降幅度Δ
GPT-o1 0.892 0.866 -0.026
GPT-4o (Direct) 0.832 0.716 -0.116
GPT-4o (CoT) 0.826 0.784 -0.043
Claude-3.5-Sonnet (Direct) 0.865 0.810 -0.055
Claude-3.5-Sonnet (CoT) 0.868 0.811 -0.058
Llama-3.1-70B (Direct) 0.663 0.599 -0.064
Phi-3-Small (Direct) 0.530 0.421 -0.109
Mixtral-8x7B (Direct) 0.388 0.274 -0.114
GPT-3.5-turbo (CoT) 0.517 0.416 -0.101
GPT-4 (CoT) 0.706 0.590 -0.115

关键发现:平均相对性能下降超过10%,几乎所有模型在AAVE上都有统计显著的性能下降。

关键发现

  1. 广泛的不公平性:几乎所有测试的主流模型在AAVE查询上都表现出显著的脆弱性和不公平,尽管AAVE与SE查询在语义上完全等价。

  2. CoT提示无法解决问题:即使使用Chain of Thought提示技术,性能差距依然持续存在。例如GPT-4在CoT下反而差距更大(-0.115 vs Direct的-0.067)。

  3. 综合推理类别受影响最大:在Integrated Reasoning(AsyncHow)上,多个模型的AAVE性能出现断崖式下降。GPT-4o从0.783降至0.312(Direct),GPT-4从0.283降至0.058(CoT)。

  4. 脆弱性根源:LLM的AAVE脆弱性源于方言特有的形态句法特征和细微的会话规范的组合,合成扰动和AAVE特征注入实验表明这些因素虽导致性能下降,但无法复现人工标注数据的严重程度。

  5. 模型规模不能完全解决问题:虽然较大模型(如GPT-o1)差距较小,但仍然存在统计显著的性能下降,说明简单增大模型规模不是根本解决方案。

亮点与洞察

  1. 首创性:首个系统评估LLM在方言推理任务中公平性的研究,填补了该领域的重要空白。

  2. 高质量人工标注:采用端到端人工标注而非规则变换或LLM翻译,确保数据自然性和准确性,避免引入系统偏见。

  3. 实际影响:研究发现直接影响教育评估、个性化推荐和语音助手等实际应用场景中的公平性。

  4. 方法论贡献:建立了分析LLM方言偏见的系统客观框架,包含鲁棒性和公平性两个维度。

  5. 深层洞察:揭示了合成扰动无法替代真实人工数据的本质限制,强调高质量、上下文丰富的数据集的关键必要性。

局限性

  1. 方言覆盖有限:仅关注AAVE一种方言,对其他英语方言(如苏格兰英语、印度英语)或其他语言的方言情况未做研究。

  2. 标注规模:1.2K+的数据量虽已全面但相对有限,每个类别的样本量可能不足以捕获所有边缘情况。

  3. 模型更新:随着模型快速迭代,当前评估结果可能不完全适用于最新版本的LLM。

  4. AAVE的内部多样性:AAVE本身也存在地域和社会变异,13名标注者可能无法完全涵盖AAVE的全部多样性。

  5. 缺乏解决方案:论文主要聚焦于发现和量化问题,未提出具体的缓解或改进策略。

相关工作

  • 方言NLP:Ziems et al. (2022, 2023)的基于规则的方言变换;Gupta et al. (2024)的LLM翻译方法
  • LLM偏见研究:Sap et al. (2019), Hofmann et al. (2024)在语言和社会分析任务中的偏见评估
  • 对抗鲁棒性:Moradi and Samwald (2021), Jin et al. (2023)的语义鲁棒性测试框架
  • 推理基准:HumanEval (Chen et al., 2021), GSM8K (Cobbe et al., 2021), LogicBench (Parmar et al., 2024)

评分

维度 分数 (1-10) 说明
新颖性 9 首个系统评估方言推理公平性的工作
技术深度 7 以实证为主,技术创新相对有限
实验充分性 9 14个模型、7个数据源、多维分析
写作质量 8 结构清晰,论证严谨
实际影响 8 对AI公平性领域有重要启示意义
总分 8.2 填补重要空白的实证研究