PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives¶
会议: ICLR2026
arXiv: 2505.19558
代码: GitHub (PoliCon)
领域: llm_reasoning
关键词: benchmark, political consensus, social choice theory, LLM evaluation, European Parliament
一句话总结¶
基于欧洲议会2225条真实审议记录构建PoliCon基准,评估LLM在不同政治目标(简单多数/2/3多数/否决权/罗尔斯/功利主义)下起草共识决议的能力。
背景与动机¶
- 政治共识是社会治理的基本前提,但多元社会中价值冲突、权力结构使共识构建极具挑战
- LLM已在民主审议辅助(如Polis平台)和意识形态分析中展现潜力,但在复杂真实政治场景中达成共识的能力尚未被系统研究
- 现有政治基准多聚焦文本分类、立场检测等单一任务,缺少面向"共识构建"的开放式评估框架
- 不同的投票机制(简单多数、2/3多数、否决权)和政治目标(罗尔斯、功利主义)对LLM提出不同要求
- 需要一个基于真实数据、可控环境因子、自动评估的系统化研究平台
方法¶
数据构建: 大规模爬取欧洲议会官网+HowTheyVote+VoteWatch数据,跨2009-2022年三届议会,清洗后得2225条高质量记录(议题/辩论/决议/投票五元组)。分为5大类19细粒度主题。
任务环境四因子: (1) 政治议题及分类; (2) 政治目标(通过决议/罗尔斯/功利主义); (3) 参与方数量(2/4/6个政党); (4) 权力结构(基于席位的随机分配),组合得28620个场景。
评估框架: 两阶段——(1) LLM-as-Judge模拟各政党投票得分(0-9),与真实投票Pearson相关0.83; (2) 基于社会选择理论将投票映射为共识分数。五种设定: SM(简单多数>50%), 2/3M(>66.7%), VP(简单多数+否决方>60%), Rawls(最小化最差方得分), Util(得分总和)。
实验¶
| 模型 | SM(6方) | 2/3M(6方) | VP(6方) | Rawls(2方) | Util(6方) |
|---|---|---|---|---|---|
| Gemini-2.5 | 0.90 | 0.58 | 0.70 | 4.60 | 6.68 |
| DeepSeek-V3.1 | 0.93 | 0.63 | 0.71 | 4.52 | 6.77 |
| GPT-4o | 0.92 | 0.63 | 0.69 | 4.50 | 6.80 |
| Qwen2.5-72B | 0.88 | 0.49 | 0.65 | 4.11 | 6.53 |
| Random | 0.56 | 0.14 | 0.38 | 2.59 | 4.80 |
关键发现: (1) SM任务大部分模型表现较好(87-93%),但2/3M下降至52-63%; (2) thinking模型(Gemini/DeepSeek)优于非thinking模型; (3) 模型倾向依赖最大党支持而非团结小党; (4) 安全/公民权利议题比产业发展议题更难达成共识; (5) 模型存在与现实投票分布相似的党派偏见。
亮点¶
- 首个系统化评估LLM政治共识能力的基准,基于真实议会数据而非合成数据
- 社会选择理论驱动的评估框架,评估器与真实投票高度一致(Pearson=0.83)
- 发现LLM缺乏团结小党的策略能力,揭示内在党派偏见
局限¶
- 评估器基于GPT-4o-mini,可能引入系统性偏差
- 席位随机分配虽增广场景但与现实权力格局不完全对应
- 仅限欧洲议会数据,对其他政体的泛化性待验证
- 未考虑多轮协商/修正决议的动态过程
相关工作¶
- 民主审议: Tessler et al. 2024 微调LLM生成群体共识声明; Fish et al. 2023 基于Polis综合意见
- 政治基准: POLCA (Moghimifar 2024) 评估LLM判断声明是否出现在最终协议; Liang et al. 2025 基于联合国决议评估政治立场模拟
- 博弈与协商: Lewis et al. 2017 Deal or No Deal; Zhou et al. 2023 博弈论谈判
评分¶
- 新颖性: ⭐⭐⭐⭐ (首个政治共识基准,问题定义新颖)
- 实验充分度: ⭐⭐⭐⭐ (6模型+2基线,15种设定,多维分析)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,可视化丰富)
- 价值: ⭐⭐⭐⭐ (AI+政治科学交叉研究有意义)