Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks¶

会议: ACL 2025
arXiv: 2410.11005
领域: LLM 公平性 / AI 安全
关键词: 方言公平性, AAVE, 推理任务, 语言鲁棒性, 基准评测

一句话总结¶

本文提出首个系统评估LLM在非标准方言（AAVE）推理任务中公平性与鲁棒性的研究，构建了包含1.2K+平行查询对的ReDial基准，发现几乎所有主流LLM在AAVE输入上表现出显著的性能下降和不公平。

语言多样性被忽视：现有LLM评测基准通常以标准英语（SE）构建，忽略了语言内部的方言变异。全球约3300万人使用非裔美国人方言英语（AAVE），约80%的非裔美国人使用该方言。
方言歧视的现实影响：方言使用者在住房、教育、就业和刑事司法等领域已知会遭受隐性和显性歧视。随着LLM服务的用户群体快速扩大，理解其与多样语言社区的交互至关重要。
现有工作的不足：
现有方言基准（如Ziems et al., 2023）不涵盖推理任务
主流推理基准（如HumanEval、GSM8K）仅以标准英语构建
此前方言转换方法要么依赖预定义的词汇/形态句法变换规则（可能忽略微妙的语境差异），要么使用LLM作翻译器（可能引入偏见）
研究目标：确保用户可以使用其偏好的语言风格，而不是被语言模型服务所限制；系统客观地评估LLM在推理任务中对方言查询的公平性与鲁棒性。

ReDial（Reasoning with Dialect Queries）是一个高质量的、端到端人工标注的SE-AAVE平行数据集，包含四大推理类别：

数据来源与采样策略：
从7个已有基准中精选数据，覆盖算法（HumanEval 164条、MBPP 150条）、数学（GSM8K 150条、SVAMP 150条）、逻辑（LogicBench 200条、Folio 162条）和综合推理（AsyncHow 240条）
综合推理任务需要结合逻辑、算法和数学多种技能
人工标注流程：
雇佣13名具有不同人口背景的AAVE母语者进行改写
对涉及代码的算法任务，专门雇佣具有计算机科学背景的标注者
要求保留所有关键信息（数值、逻辑条件、技术细节）同时使表达自然
质量验证机制（三重检验）：
自然性检查：标注者交叉检查彼此的标注
正确性检查：非AAVE使用者手动检查关键信息保留情况
LLM辅助检查：使用GPT-4o进行正确性辅理检查（但不单独依赖LLM判断）
不合格实例返回重新标注，迭代直至全部通过

在14个模型上的大规模评估结果：

模型	SE总体	AAVE总体	下降幅度Δ
GPT-o1	0.892	0.866	-0.026
GPT-4o (Direct)	0.832	0.716	-0.116
GPT-4o (CoT)	0.826	0.784	-0.043
Claude-3.5-Sonnet (Direct)	0.865	0.810	-0.055
Claude-3.5-Sonnet (CoT)	0.868	0.811	-0.058
Llama-3.1-70B (Direct)	0.663	0.599	-0.064
Phi-3-Small (Direct)	0.530	0.421	-0.109
Mixtral-8x7B (Direct)	0.388	0.274	-0.114
GPT-3.5-turbo (CoT)	0.517	0.416	-0.101
GPT-4 (CoT)	0.706	0.590	-0.115

关键发现：平均相对性能下降超过10%，几乎所有模型在AAVE上都有统计显著的性能下降。

广泛的不公平性：几乎所有测试的主流模型在AAVE查询上都表现出显著的脆弱性和不公平，尽管AAVE与SE查询在语义上完全等价。
CoT提示无法解决问题：即使使用Chain of Thought提示技术，性能差距依然持续存在。例如GPT-4在CoT下反而差距更大（-0.115 vs Direct的-0.067）。
综合推理类别受影响最大：在Integrated Reasoning（AsyncHow）上，多个模型的AAVE性能出现断崖式下降。GPT-4o从0.783降至0.312（Direct），GPT-4从0.283降至0.058（CoT）。
脆弱性根源：LLM的AAVE脆弱性源于方言特有的形态句法特征和细微的会话规范的组合，合成扰动和AAVE特征注入实验表明这些因素虽导致性能下降，但无法复现人工标注数据的严重程度。
模型规模不能完全解决问题：虽然较大模型（如GPT-o1）差距较小，但仍然存在统计显著的性能下降，说明简单增大模型规模不是根本解决方案。