跳转至

Assessing Agentic LLMs in Multilingual National Bias

会议: ACL 2025
arXiv: 2502.17945
代码: GitHub
领域: LLM偏见 / 多语言Agent
关键词: 国籍偏见, 多语言, 推理Agent, 大学申请, 旅行推荐, CoT, 语言偏向

一句话总结

首次研究 LLM 作为推理型 Agent 在多语言场景下的国籍偏见——在大学申请/旅行/搬迁三个决策场景中,让 GPT-3.5/GPT-4/Sonnet 对同一实体(大学/城市)用不同语言打分,发现普遍存在"本地语言偏向"(用中文问清华得 10 分,用英文问只得 7 分),GPT-4 在英语上偏见减少但非英语上偏见显著,CoT 不一定缓解反而可能放大偏差。

背景与动机

LLM 越来越多地作为多语言决策 Agent(如大学申请顾问、旅行规划师)使用。已有偏见研究聚焦词汇级偏好(形容词正/负面性),但推理型决策中的跨语言国籍偏向几乎未被研究——当同一问题用不同语言提出时,LLM 给出的评分和建议可能截然不同。

核心问题

LLM Agent 在多语言决策场景中如何表现出国籍偏向?用户人口特征(性别/语言群体)和推理策略(CoT)如何影响偏向模式?

方法详解

三个决策场景

  1. 大学申请推荐(QS 2024 前 100)
  2. 旅行目的地推荐(Euromonitor 2023)
  3. 城市搬迁建议(GDP 2022)

评分设计

  • 每次呈现三个选项的三元组(target + 2 个对比选项,一个英语国家一个非英语国家)
  • 每个 target 用多种语言提问(英/中/日/法/德等)
  • LLM 对每个选项打分(1-10),分析 target 的分数在不同语言下的变化
  • 每个 target 100 个固定对比三元组,确保公平

偏见量化

参考 Thurstone 比较判断法,通过大规模评分统计揭示系统性偏向

评估的模型

GPT-3.5, GPT-4, Claude Sonnet

实验关键数据

发现 详情
本地语言偏向 普遍存在——用中文问中国大学得分更高,用日文问日本大学得分更高
GPT-4 改善 英语上偏见显著降低,但非英语上仍有显著偏向
CoT 效果 不总是缓解——有时放大偏差,尤其在非英语语言中
性别效应 性别化语言(如日语敬语)影响偏向模式
任务差异 大学推荐偏向最严重,旅行推荐相对温和

典型案例

清华大学:中文查询得 10/10,英文查询得 7/10——中文回复强调优势,英文回复列出不足

亮点

  • 首次研究推理型 Agent 的跨语言国籍偏向——填补了重要空白
  • 三个真实世界决策场景——比简单偏见检测更贴近实际应用
  • Thurstone 量化法——从心理物理学引入的严格偏见度量方法
  • CoT 放大偏差的反直觉发现——对 AI 安全有重要启示

局限性 / 可改进方向

  • 评分主观性:1-10 打分内在含有主观性
  • 语言种类可扩展:仅测试 5-6 种语言
  • 仅商业模型:开源模型的偏向模式可能不同
  • 三元组设计可能引入偏差:对比选项的选择影响 target 得分

与相关工作的对比

  • vs 词汇级偏见研究:仅检测正/负形容词;本文检测推理决策中的系统性评分偏向
  • vs Durmus et al. 2023:二选一主观意见;本文三元组评分更精细
  • vs Armstrong et al. 2024(招聘偏见):限于英语且无 CoT;本文多语言+CoT 分析

启发与关联

  • 多语言 LLM Agent 部署前必须做跨语言偏见审计——同一服务用不同语言得到不公平建议
  • CoT 不是万能去偏工具——在某些场景下反而使偏见更强(因为推理过程中引入了更多文化偏好)
  • 教育公平的直接隐患:如果学生用母语咨询大学申请,可能得到偏向本国的建议

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次在Agent决策场景研究跨语言国籍偏见
  • 实验充分度: ⭐⭐⭐⭐ 3场景×多语言×多模型×CoT分析
  • 写作质量: ⭐⭐⭐⭐ 案例生动,量化方法严谨
  • 价值: ⭐⭐⭐⭐⭐ 对多语言AI公平部署有直接警示价值