SocialEval: Evaluating Social Intelligence of Large Language Models¶
会议: ACL 2025 arXiv: 2506.00900 代码: https://github.com/thu-coai/SocialEval 领域: LLM NLP / 社会智能评估 关键词: Social Intelligence, Benchmark, World Tree, Interpersonal Ability, Goal Achievement
一句话总结¶
提出基于叙事脚本的双语社会智能基准 SocialEval,通过"世界树"结构整合结果导向的目标达成评估和过程导向的人际能力评估,全面评测 LLM 的社会智能。
研究背景与动机¶
- 领域现状:LLM 在社会仿真中展现出新兴的社会智能(SI),被广泛用于社会科学研究和人际训练场景。
- 现有痛点:现有评估工作只关注单回合社会动态和终端结果,忽略了多回合序列依赖的社交互动过程。
- 核心矛盾:SI 本质上是一个动态过程——个体在不断演变的叙事性社交活动中持续调节人际技能,但缺乏全面评估 LLM SI 的范式。
- 本文要解决什么? 提供一个整合过程和结果两个维度的 SI 评估框架。
- 切入角度:借鉴社会心理学脚本理论(Schank & Abelson),将社交活动建模为"世界树"——多条由人际能力驱动的情节线交织而成的树结构。
- 核心idea一句话:通过手工构建叙事脚本的世界树,将 LLM 的社交行为建模为目标条件 MDP,同时评估目标达成和人际能力运用。
方法详解¶
整体框架¶
SocialEval 由 153 个世界树组成,每个世界树包含场景、角色、多个情节和过渡选项。LLM 扮演主角,在关键抉择点从 candidate utterances 中选择,驱动情节推进并影响社交目标的达成。
关键设计¶
- 社交世界分类法(Social World Taxonomy):
- 做什么:定义社交世界的类型
- 核心思路:基于 interdependence theory,以自利和利他两个维度的笛卡尔积定义 7 种社交取向(合作、谈判、竞争、援助、利他、诱导、冲突)
-
设计动机:不同取向下的社交目标和行为策略截然不同,需分别评测
-
人际能力清单(BESSI Framework):
- 做什么:定义 5 大维度 32 种具体人际能力
- 核心思路:采用 BESSI 心理学框架,涵盖社交参与、合作、自我管理、情绪韧性、创新
-
设计动机:提供细粒度的过程导向评测维度
-
世界树构建与质量控制:
- 做什么:手工构建 153 个双语世界树,每个包含平均 9.46 条情节线
- 核心思路:雇用编剧创作,经三阶段检查+交叉检验,一致率 95%
- 设计动机:确保情节合理性和标注准确性
评估任务¶
- 任务1(GAE):结果导向目标达成评估——LLM 选择动作推进情节,判断是否达成社交目标
- 任务2(IAE):过程导向人际能力评估——通过选择题测试 LLM 是否理解各选项所体现的人际能力
实验关键数据¶
主实验¶
| 模型 | 亲社会(zh/en) | 亲自我(zh/en) | 反社会(zh/en) | 总体(zh/en) |
|---|---|---|---|---|
| Human (best) | 100/100 | 100/100 | 100/100 | 100/100 |
| Human (avg) | 64.9/59.9 | 55.0/40.0 | 51.3/50.0 | 61.8/55.2 |
| Claude-3-opus | 54.0/52.3 | 31.5/29.8 | 29.7/27.6 | 47.0/45.2 |
| GPT-4o | 52.8/51.6 | 27.6/25.5 | 23.2/17.6 | 44.6/42.7 |
| o1 | 54.3/52.7 | 32.5/31.0 | 27.5/25.7 | 47.0/45.4 |
| Qwen-2.5-32B | 45.6/42.1 | 26.2/21.6 | - | ~40/36 |
关键发现¶
- LLM 在两项 SI 评估中均落后于人类
- LLM 和人类都展现出跨语言的 SI 差异(中文普遍优于英文)
- LLM 强烈偏好亲社会和积极行为,即使这会导致目标失败
- 随着模型规模增大,LLM 逐渐发展出类似人脑的能力特异性功能分区
消融实验¶
| 分析维度 | 发现 |
|---|---|
| 模型规模 | 更大模型 SI 更强,但与人类差距仍显著 |
| 亲社会偏好 | 所有 LLM 在反社会场景表现最差 |
| 能力功能分区 | 大模型形成了类脑的能力特异性神经元分区 |
亮点与洞察¶
- 世界树结构是一个非常巧妙的设计,将社交互动建模为可解释的决策过程
- 双语设计揭示了 LLM SI 的跨语言差异
- 亲社会偏好发现具有重要的 alignment 意义——LLM 宁可失败也不愿采取攻击性行为
局限性 / 可改进方向¶
- 反社会场景(诱导和冲突)只有各 10 个世界树,样本量较小
- 评估主要依赖选择题形式,缺少开放式对话评测
- 世界树结构是离散的决策点,可能简化了真实社交的连续性
相关工作与启发¶
- vs SocialBench (Wang et al. 2024): SocialBench 关注单回合社交场景,SocialEval 支持多回合序列依赖的评估
- vs BigToM (Gandhi et al. 2024): BigToM 聚焦心理理论,SocialEval 覆盖更广泛的 32 种人际能力
补充细节¶
- 数据规模:153 个世界树,2493 个测试样本,涵盖 5 个能力维度 32 种具体人际能力
- 平均每个世界树包含 101 轮对话交互、6.5 个情节、5.5 个过渡决策点
- 人工质量控制流程:编剧创作 - 三阶段检查 - 交叉检验,最终一致率 95%
- 翻译流程:GPT-4o 翻译 + 专业多语言翻译人员审核,接受率 97%
- 实验发现 LLM 的表征空间随模型规模增大逐渐形成类脑的能力特异性功能分区
- 中英文评测差距说明 LLM 的社会智能受训练数据语言分布影响
- 社交世界分类基于 self-interest 和 altruism 两维度的笛卡尔积
- 数据集同时支持中文和英文双语评测
评分¶
- 新颖性: ⭐⭐⭐⭐ 世界树+双任务评估范式新颖,但核心仍是选择题基准
- 实验充分度: ⭐⭐⭐⭐⭐ 20+ 模型 x 双语 x 两项任务,覆盖面广
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论基础扎实,但篇幅较长
- 价值: ⭐⭐⭐⭐ 为 LLM 社会智能评估提供了系统化框架