PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives¶

会议: ICLR2026
arXiv: 2505.19558
代码: GitHub (PoliCon)
领域: llm_reasoning
关键词: benchmark, political consensus, social choice theory, LLM evaluation, European Parliament

一句话总结¶

基于欧洲议会2225条真实审议记录构建PoliCon基准，评估LLM在不同政治目标（简单多数/2/3多数/否决权/罗尔斯/功利主义）下起草共识决议的能力。

背景与动机¶

政治共识是社会治理的基本前提，但多元社会中价值冲突、权力结构使共识构建极具挑战
LLM已在民主审议辅助（如Polis平台）和意识形态分析中展现潜力，但在复杂真实政治场景中达成共识的能力尚未被系统研究
现有政治基准多聚焦文本分类、立场检测等单一任务，缺少面向"共识构建"的开放式评估框架
不同的投票机制（简单多数、2/3多数、否决权）和政治目标（罗尔斯、功利主义）对LLM提出不同要求
需要一个基于真实数据、可控环境因子、自动评估的系统化研究平台

方法¶

数据构建: 大规模爬取欧洲议会官网+HowTheyVote+VoteWatch数据，跨2009-2022年三届议会，清洗后得2225条高质量记录（议题/辩论/决议/投票五元组）。分为5大类19细粒度主题。

任务环境四因子: (1) 政治议题及分类; (2) 政治目标（通过决议/罗尔斯/功利主义）; (3) 参与方数量（2/4/6个政党）; (4) 权力结构（基于席位的随机分配），组合得28620个场景。

评估框架: 两阶段——(1) LLM-as-Judge模拟各政党投票得分(0-9)，与真实投票Pearson相关0.83; (2) 基于社会选择理论将投票映射为共识分数。五种设定: SM(简单多数>50%), 2/3M(>66.7%), VP(简单多数+否决方>60%), Rawls(最小化最差方得分), Util(得分总和)。

实验¶

模型	SM(6方)	2/3M(6方)	VP(6方)	Rawls(2方)	Util(6方)
Gemini-2.5	0.90	0.58	0.70	4.60	6.68
DeepSeek-V3.1	0.93	0.63	0.71	4.52	6.77
GPT-4o	0.92	0.63	0.69	4.50	6.80
Qwen2.5-72B	0.88	0.49	0.65	4.11	6.53
Random	0.56	0.14	0.38	2.59	4.80

关键发现: (1) SM任务大部分模型表现较好(87-93%)，但2/3M下降至52-63%; (2) thinking模型(Gemini/DeepSeek)优于非thinking模型; (3) 模型倾向依赖最大党支持而非团结小党; (4) 安全/公民权利议题比产业发展议题更难达成共识; (5) 模型存在与现实投票分布相似的党派偏见。

亮点¶

首个系统化评估LLM政治共识能力的基准，基于真实议会数据而非合成数据
社会选择理论驱动的评估框架，评估器与真实投票高度一致(Pearson=0.83)
发现LLM缺乏团结小党的策略能力，揭示内在党派偏见

局限¶

评估器基于GPT-4o-mini，可能引入系统性偏差
席位随机分配虽增广场景但与现实权力格局不完全对应
仅限欧洲议会数据，对其他政体的泛化性待验证
未考虑多轮协商/修正决议的动态过程

评分¶

新颖性: ⭐⭐⭐⭐ (首个政治共识基准，问题定义新颖)
实验充分度: ⭐⭐⭐⭐ (6模型+2基线，15种设定，多维分析)
写作质量: ⭐⭐⭐⭐ (结构清晰，可视化丰富)
价值: ⭐⭐⭐⭐ (AI+政治科学交叉研究有意义)

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限¶

相关工作¶

评分¶