跳转至

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

会议: ICLR2026
arXiv: 2505.19558
代码: GitHub (PoliCon)
领域: llm_reasoning
关键词: benchmark, political consensus, social choice theory, LLM evaluation, European Parliament

一句话总结

基于欧洲议会2225条真实审议记录构建PoliCon基准,评估LLM在不同政治目标(简单多数/2/3多数/否决权/罗尔斯/功利主义)下起草共识决议的能力。

背景与动机

  1. 政治共识是社会治理的基本前提,但多元社会中价值冲突、权力结构使共识构建极具挑战
  2. LLM已在民主审议辅助(如Polis平台)和意识形态分析中展现潜力,但在复杂真实政治场景中达成共识的能力尚未被系统研究
  3. 现有政治基准多聚焦文本分类、立场检测等单一任务,缺少面向"共识构建"的开放式评估框架
  4. 不同的投票机制(简单多数、2/3多数、否决权)和政治目标(罗尔斯、功利主义)对LLM提出不同要求
  5. 需要一个基于真实数据、可控环境因子、自动评估的系统化研究平台

方法

数据构建: 大规模爬取欧洲议会官网+HowTheyVote+VoteWatch数据,跨2009-2022年三届议会,清洗后得2225条高质量记录(议题/辩论/决议/投票五元组)。分为5大类19细粒度主题。

任务环境四因子: (1) 政治议题及分类; (2) 政治目标(通过决议/罗尔斯/功利主义); (3) 参与方数量(2/4/6个政党); (4) 权力结构(基于席位的随机分配),组合得28620个场景。

评估框架: 两阶段——(1) LLM-as-Judge模拟各政党投票得分(0-9),与真实投票Pearson相关0.83; (2) 基于社会选择理论将投票映射为共识分数。五种设定: SM(简单多数>50%), 2/3M(>66.7%), VP(简单多数+否决方>60%), Rawls(最小化最差方得分), Util(得分总和)。

实验

模型 SM(6方) 2/3M(6方) VP(6方) Rawls(2方) Util(6方)
Gemini-2.5 0.90 0.58 0.70 4.60 6.68
DeepSeek-V3.1 0.93 0.63 0.71 4.52 6.77
GPT-4o 0.92 0.63 0.69 4.50 6.80
Qwen2.5-72B 0.88 0.49 0.65 4.11 6.53
Random 0.56 0.14 0.38 2.59 4.80

关键发现: (1) SM任务大部分模型表现较好(87-93%),但2/3M下降至52-63%; (2) thinking模型(Gemini/DeepSeek)优于非thinking模型; (3) 模型倾向依赖最大党支持而非团结小党; (4) 安全/公民权利议题比产业发展议题更难达成共识; (5) 模型存在与现实投票分布相似的党派偏见。

亮点

  • 首个系统化评估LLM政治共识能力的基准,基于真实议会数据而非合成数据
  • 社会选择理论驱动的评估框架,评估器与真实投票高度一致(Pearson=0.83)
  • 发现LLM缺乏团结小党的策略能力,揭示内在党派偏见

局限

  • 评估器基于GPT-4o-mini,可能引入系统性偏差
  • 席位随机分配虽增广场景但与现实权力格局不完全对应
  • 仅限欧洲议会数据,对其他政体的泛化性待验证
  • 未考虑多轮协商/修正决议的动态过程

相关工作

  • 民主审议: Tessler et al. 2024 微调LLM生成群体共识声明; Fish et al. 2023 基于Polis综合意见
  • 政治基准: POLCA (Moghimifar 2024) 评估LLM判断声明是否出现在最终协议; Liang et al. 2025 基于联合国决议评估政治立场模拟
  • 博弈与协商: Lewis et al. 2017 Deal or No Deal; Zhou et al. 2023 博弈论谈判

评分

  • 新颖性: ⭐⭐⭐⭐ (首个政治共识基准,问题定义新颖)
  • 实验充分度: ⭐⭐⭐⭐ (6模型+2基线,15种设定,多维分析)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,可视化丰富)
  • 价值: ⭐⭐⭐⭐ (AI+政治科学交叉研究有意义)