Assessing Agentic LLMs in Multilingual National Bias¶
会议: ACL 2025
arXiv: 2502.17945
代码: GitHub
领域: LLM偏见 / 多语言Agent
关键词: 国籍偏见, 多语言, 推理Agent, 大学申请, 旅行推荐, CoT, 语言偏向
一句话总结¶
首次研究 LLM 作为推理型 Agent 在多语言场景下的国籍偏见——在大学申请/旅行/搬迁三个决策场景中,让 GPT-3.5/GPT-4/Sonnet 对同一实体(大学/城市)用不同语言打分,发现普遍存在"本地语言偏向"(用中文问清华得 10 分,用英文问只得 7 分),GPT-4 在英语上偏见减少但非英语上偏见显著,CoT 不一定缓解反而可能放大偏差。
背景与动机¶
LLM 越来越多地作为多语言决策 Agent(如大学申请顾问、旅行规划师)使用。已有偏见研究聚焦词汇级偏好(形容词正/负面性),但推理型决策中的跨语言国籍偏向几乎未被研究——当同一问题用不同语言提出时,LLM 给出的评分和建议可能截然不同。
核心问题¶
LLM Agent 在多语言决策场景中如何表现出国籍偏向?用户人口特征(性别/语言群体)和推理策略(CoT)如何影响偏向模式?
方法详解¶
三个决策场景¶
- 大学申请推荐(QS 2024 前 100)
- 旅行目的地推荐(Euromonitor 2023)
- 城市搬迁建议(GDP 2022)
评分设计¶
- 每次呈现三个选项的三元组(target + 2 个对比选项,一个英语国家一个非英语国家)
- 每个 target 用多种语言提问(英/中/日/法/德等)
- LLM 对每个选项打分(1-10),分析 target 的分数在不同语言下的变化
- 每个 target 100 个固定对比三元组,确保公平
偏见量化¶
参考 Thurstone 比较判断法,通过大规模评分统计揭示系统性偏向
评估的模型¶
GPT-3.5, GPT-4, Claude Sonnet
实验关键数据¶
| 发现 | 详情 |
|---|---|
| 本地语言偏向 | 普遍存在——用中文问中国大学得分更高,用日文问日本大学得分更高 |
| GPT-4 改善 | 英语上偏见显著降低,但非英语上仍有显著偏向 |
| CoT 效果 | 不总是缓解——有时放大偏差,尤其在非英语语言中 |
| 性别效应 | 性别化语言(如日语敬语)影响偏向模式 |
| 任务差异 | 大学推荐偏向最严重,旅行推荐相对温和 |
典型案例¶
清华大学:中文查询得 10/10,英文查询得 7/10——中文回复强调优势,英文回复列出不足
亮点¶
- 首次研究推理型 Agent 的跨语言国籍偏向——填补了重要空白
- 三个真实世界决策场景——比简单偏见检测更贴近实际应用
- Thurstone 量化法——从心理物理学引入的严格偏见度量方法
- CoT 放大偏差的反直觉发现——对 AI 安全有重要启示
局限性 / 可改进方向¶
- 评分主观性:1-10 打分内在含有主观性
- 语言种类可扩展:仅测试 5-6 种语言
- 仅商业模型:开源模型的偏向模式可能不同
- 三元组设计可能引入偏差:对比选项的选择影响 target 得分
与相关工作的对比¶
- vs 词汇级偏见研究:仅检测正/负形容词;本文检测推理决策中的系统性评分偏向
- vs Durmus et al. 2023:二选一主观意见;本文三元组评分更精细
- vs Armstrong et al. 2024(招聘偏见):限于英语且无 CoT;本文多语言+CoT 分析
启发与关联¶
- 多语言 LLM Agent 部署前必须做跨语言偏见审计——同一服务用不同语言得到不公平建议
- CoT 不是万能去偏工具——在某些场景下反而使偏见更强(因为推理过程中引入了更多文化偏好)
- 教育公平的直接隐患:如果学生用母语咨询大学申请,可能得到偏向本国的建议
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次在Agent决策场景研究跨语言国籍偏见
- 实验充分度: ⭐⭐⭐⭐ 3场景×多语言×多模型×CoT分析
- 写作质量: ⭐⭐⭐⭐ 案例生动,量化方法严谨
- 价值: ⭐⭐⭐⭐⭐ 对多语言AI公平部署有直接警示价值