Assessing Agentic LLMs in Multilingual National Bias¶

会议: ACL 2025
arXiv: 2502.17945
代码: GitHub
领域: LLM偏见 / 多语言Agent
关键词: 国籍偏见, 多语言, 推理Agent, 大学申请, 旅行推荐, CoT, 语言偏向

一句话总结¶

首次研究 LLM 作为推理型 Agent 在多语言场景下的国籍偏见——在大学申请/旅行/搬迁三个决策场景中，让 GPT-3.5/GPT-4/Sonnet 对同一实体（大学/城市）用不同语言打分，发现普遍存在"本地语言偏向"（用中文问清华得 10 分，用英文问只得 7 分），GPT-4 在英语上偏见减少但非英语上偏见显著，CoT 不一定缓解反而可能放大偏差。

背景与动机¶

LLM 越来越多地作为多语言决策 Agent（如大学申请顾问、旅行规划师）使用。已有偏见研究聚焦词汇级偏好（形容词正/负面性），但推理型决策中的跨语言国籍偏向几乎未被研究——当同一问题用不同语言提出时，LLM 给出的评分和建议可能截然不同。

核心问题¶

LLM Agent 在多语言决策场景中如何表现出国籍偏向？用户人口特征（性别/语言群体）和推理策略（CoT）如何影响偏向模式？

方法详解¶

三个决策场景¶

大学申请推荐（QS 2024 前 100）
旅行目的地推荐（Euromonitor 2023）
城市搬迁建议（GDP 2022）

评分设计¶

每次呈现三个选项的三元组（target + 2 个对比选项，一个英语国家一个非英语国家）
每个 target 用多种语言提问（英/中/日/法/德等）
LLM 对每个选项打分（1-10），分析 target 的分数在不同语言下的变化
每个 target 100 个固定对比三元组，确保公平

偏见量化¶

参考 Thurstone 比较判断法，通过大规模评分统计揭示系统性偏向

评估的模型¶

GPT-3.5, GPT-4, Claude Sonnet

实验关键数据¶

发现	详情
本地语言偏向	普遍存在——用中文问中国大学得分更高，用日文问日本大学得分更高
GPT-4 改善	英语上偏见显著降低，但非英语上仍有显著偏向
CoT 效果	不总是缓解——有时放大偏差，尤其在非英语语言中
性别效应	性别化语言（如日语敬语）影响偏向模式
任务差异	大学推荐偏向最严重，旅行推荐相对温和

典型案例¶

清华大学：中文查询得 10/10，英文查询得 7/10——中文回复强调优势，英文回复列出不足

亮点¶

首次研究推理型 Agent 的跨语言国籍偏向——填补了重要空白
三个真实世界决策场景——比简单偏见检测更贴近实际应用
Thurstone 量化法——从心理物理学引入的严格偏见度量方法
CoT 放大偏差的反直觉发现——对 AI 安全有重要启示

局限性 / 可改进方向¶

评分主观性：1-10 打分内在含有主观性
语言种类可扩展：仅测试 5-6 种语言
仅商业模型：开源模型的偏向模式可能不同
三元组设计可能引入偏差：对比选项的选择影响 target 得分

与相关工作的对比¶

vs 词汇级偏见研究：仅检测正/负形容词；本文检测推理决策中的系统性评分偏向
vs Durmus et al. 2023：二选一主观意见；本文三元组评分更精细
vs Armstrong et al. 2024（招聘偏见）：限于英语且无 CoT；本文多语言+CoT 分析

启发与关联¶

多语言 LLM Agent 部署前必须做跨语言偏见审计——同一服务用不同语言得到不公平建议
CoT 不是万能去偏工具——在某些场景下反而使偏见更强（因为推理过程中引入了更多文化偏好）
教育公平的直接隐患：如果学生用母语咨询大学申请，可能得到偏向本国的建议

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在Agent决策场景研究跨语言国籍偏见
实验充分度: ⭐⭐⭐⭐ 3场景×多语言×多模型×CoT分析
写作质量: ⭐⭐⭐⭐ 案例生动，量化方法严谨
价值: ⭐⭐⭐⭐⭐ 对多语言AI公平部署有直接警示价值