Benchmarking LLMs for Political Science: A United Nations Perspective¶

会议: AAAI 2026
arXiv: 2502.14122
代码: GitHub
领域: LLM评测/政治科学
关键词: 联合国安理会, 政治科学基准, 投票模拟, 决议预测, 外交文本生成

一句话总结¶

提出 UNBench，首个基于联合国安理会 1994-2024 年记录的综合性政治科学 LLM 评测基准，涵盖决议起草、投票模拟、通过预测和代表发言生成四个关联任务，评估 LLM 对复杂政治动态的理解和模拟能力。

研究背景与动机¶

领域现状：LLM 在自然语言处理上取得巨大进步，但其在高风险政治决策场景中的应用仍未充分探索。现有基准（MMLU、BIG-Bench 等）包含政治相关任务但碎片化，缺乏反映真实多边决策过程的系统性评估。
现有痛点：政治科学要求超越语义理解的能力——预测联盟动态、解读模糊外交语言、平衡国家利益与全球规范。现有 LLM 评测未覆盖这些高阶需求。
核心矛盾：联合国决议一旦通过即成为有约束力的国际法，一个安理会否决票就能阻止决议通过，模型在此类高风险场景的表现如何完全缺乏量化评估。
本文要解决什么？ 构建首个统一覆盖 UN 决策全流程（起草→投票→讨论）的 LLM 评测基准，系统评估模型在政治推理、投票预测和外交文本生成上的能力。
切入角度：从 UNSC 公开记录中系统提取数据，设计四个互相关联的任务来覆盖决议生命周期的三个阶段。
核心idea一句话：用联合国安理会 30 年真实记录构建端到端基准，通过四个渐进式任务全面评估 LLM 的政治推理能力。

方法详解¶

整体框架¶

UNBench 围绕 UN 决议三阶段设计四个任务：起草阶段（Task 1: 共同提案方判断），投票阶段（Task 2: 代表投票模拟，Task 3: 决议通过预测），讨论阶段（Task 4: 代表声明生成）。数据来源于 1994-2024 年 UNSC 官方记录，包含草案文本、投票记录和外交演讲。

关键设计¶

Task 1: 共同提案方判断（Co-Penholder Judgement）：给定匿名化的决议草案和起草国，从 2-5 个候选国中选择最可能的共同提案方。测试模型理解决议主题、推断外交结盟关系、推理多边合作策略的能力。多选题格式，共 355,126 个实例。
Task 2: 代表投票模拟（Voting Simulation）：让 LLM 扮演特定国家代表，对给定决议投票（赞成/反对/弃权）。需要模型综合理解决议内容、国家利益优先级、地缘政治结盟和否决权等因素。17,430 个投票实例。
Task 3: 决议通过预测（Draft Adoption Prediction）：预测决议最终是否通过。不同于 Task 2 的个体投票，这里需要对 15 个理事国的集体动态做整体推理，考虑否决威胁、支持联盟和历史先例。1,978 个决议，其中 98 个未通过。
Task 4: 代表声明生成（Statement Generation）：给定决议和投票结果，生成国家代表的外交声明。评估模型在政治约束下生成说服性语言的能力，需要对齐国家利益、投票理由和外交语调。7,394 条声明。

损失函数 / 训练策略¶

分类任务（1-3）使用基于时间的 train/test 划分，模拟从历史预测未来的真实场景。BERT 和 DeBERTa 微调 3 epoch，学习率 5×10⁻⁵。LLM 使用 temperature=0.0 做推理。

实验关键数据¶

主实验¶

UNBench 四个任务的主要结果：

模型	Task1 Bal.ACC	Task2 Bal.ACC	Task2 Mac.F1	Task3 Bal.ACC	Task4 ROUGE	Task4 CosSim
BERT	0.011	0.537	0.396	0.333	/	/
DeBERTa	0.010	0.500	0.527	0.333	/	/
Llama-3.1-8B	0.665	0.530	0.168	0.357	0.039	0.355
Mistral-7B	0.563	0.426	0.268	0.529	0.194	0.575
GPT-4o	0.726	0.823	0.696	0.677	0.199	0.619
DeepSeek-V3	0.695	0.724	0.655	0.668	0.207	0.623
Qwen2.5-7B	0.642	0.699	0.375	0.578	0.201	0.623

消融实验¶

Task 1 候选数量增加时的影响（共同提案方判断）：

2 选项: GPT-4o 准确率最高，远超其他模型
5 选项: 所有模型准确率下降，但 GPT-4o 保持领先
传统模型（BERT/DeBERTa）在 Task 1 上几乎完全失败（~0.01），说明政治推理需要 LLM 规模的架构

数据集统计：30 年跨度，515 条通过决议，98 条未通过决议，7,394 条外交声明，涉及 204 个国家。

关键发现¶

GPT-4o 在预测性任务（Task 1-3）上全面领先，展现出最强的地缘政治推理能力
传统文本分类模型在 Task 1 上彻底失败（Bal.ACC ~0.01），说明该任务需要超越文本理解的知识推理
Task 4 中所有模型的 ROUGE 分数都很低（<0.21），暴露了精确外交术语对齐的局限性
Llama-3.2-3B 在 Task 3 的 Macro-F1（0.402）上超过 GPT-4o（0.363），但 Bal.ACC 更低，揭示了类别不平衡下指标的分歧
DeepSeek-V3 在生成任务上表现最强，ROUGE 和语义相似度均最高

亮点与洞察¶

首个覆盖 UN 决策全流程的系统性 LLM 评测基准，填补了政治科学领域的空白
四个任务从选择到预测到生成层层递进，形成完整评估体系
30 年跨度的数据集捕获了国际格局的演变，支持时序分析
传统 NLP 模型在政治推理任务上的彻底失败突显了 LLM 知识推理能力的不可替代性

局限性 / 可改进方向¶

数据严重不平衡：1,880 条通过 vs 98 条未通过决议，Task 3 评估有挑战
仅覆盖英文，未考虑多语言外交场景
Task 4 评估仅用 ROUGE 和余弦相似度，缺乏人工评估外交文本质量的维度
未评估模型在该数据上的地缘政治偏见（与隔壁的偏见研究互补）
缺少对模型在不同时间段或地区议题上表现差异的深入分析

评分¶

新颖性: ⭐⭐⭐⭐ 首个 UN 政治科学 LLM 基准，任务设计创新但核心方法学较常规
实验充分度: ⭐⭐⭐⭐ 多模型对比、多任务评估，但缺少更多 SOTA 模型和人工评估
写作质量: ⭐⭐⭐⭐ 结构清晰、任务定义形式化，数据构建过程描述详尽
价值: ⭐⭐⭐⭐ 为 AI+政治科学交叉研究提供重要基础设施，30 年数据横跨多个国际格局变化