SocialEval: Evaluating Social Intelligence of Large Language Models¶

会议: ACL 2025 arXiv: 2506.00900 代码: https://github.com/thu-coai/SocialEval 领域: LLM NLP / 社会智能评估 关键词: Social Intelligence, Benchmark, World Tree, Interpersonal Ability, Goal Achievement

一句话总结¶

提出基于叙事脚本的双语社会智能基准 SocialEval，通过"世界树"结构整合结果导向的目标达成评估和过程导向的人际能力评估，全面评测 LLM 的社会智能。

研究背景与动机¶

领域现状：LLM 在社会仿真中展现出新兴的社会智能(SI)，被广泛用于社会科学研究和人际训练场景。
现有痛点：现有评估工作只关注单回合社会动态和终端结果，忽略了多回合序列依赖的社交互动过程。
核心矛盾：SI 本质上是一个动态过程——个体在不断演变的叙事性社交活动中持续调节人际技能，但缺乏全面评估 LLM SI 的范式。
本文要解决什么？ 提供一个整合过程和结果两个维度的 SI 评估框架。
切入角度：借鉴社会心理学脚本理论（Schank & Abelson），将社交活动建模为"世界树"——多条由人际能力驱动的情节线交织而成的树结构。
核心idea一句话：通过手工构建叙事脚本的世界树，将 LLM 的社交行为建模为目标条件 MDP，同时评估目标达成和人际能力运用。

方法详解¶

整体框架¶

SocialEval 由 153 个世界树组成，每个世界树包含场景、角色、多个情节和过渡选项。LLM 扮演主角，在关键抉择点从 candidate utterances 中选择，驱动情节推进并影响社交目标的达成。

关键设计¶

社交世界分类法（Social World Taxonomy）:
做什么：定义社交世界的类型
核心思路：基于 interdependence theory，以自利和利他两个维度的笛卡尔积定义 7 种社交取向（合作、谈判、竞争、援助、利他、诱导、冲突）
设计动机：不同取向下的社交目标和行为策略截然不同，需分别评测
人际能力清单（BESSI Framework）:
做什么：定义 5 大维度 32 种具体人际能力
核心思路：采用 BESSI 心理学框架，涵盖社交参与、合作、自我管理、情绪韧性、创新
设计动机：提供细粒度的过程导向评测维度
世界树构建与质量控制:
做什么：手工构建 153 个双语世界树，每个包含平均 9.46 条情节线
核心思路：雇用编剧创作，经三阶段检查+交叉检验，一致率 95%
设计动机：确保情节合理性和标注准确性

评估任务¶

任务1（GAE）：结果导向目标达成评估——LLM 选择动作推进情节，判断是否达成社交目标
任务2（IAE）：过程导向人际能力评估——通过选择题测试 LLM 是否理解各选项所体现的人际能力

实验关键数据¶

主实验¶

模型	亲社会(zh/en)	亲自我(zh/en)	反社会(zh/en)	总体(zh/en)
Human (best)	100/100	100/100	100/100	100/100
Human (avg)	64.9/59.9	55.0/40.0	51.3/50.0	61.8/55.2
Claude-3-opus	54.0/52.3	31.5/29.8	29.7/27.6	47.0/45.2
GPT-4o	52.8/51.6	27.6/25.5	23.2/17.6	44.6/42.7
o1	54.3/52.7	32.5/31.0	27.5/25.7	47.0/45.4
Qwen-2.5-32B	45.6/42.1	26.2/21.6	-	~40/36

关键发现¶

LLM 在两项 SI 评估中均落后于人类
LLM 和人类都展现出跨语言的 SI 差异（中文普遍优于英文）
LLM 强烈偏好亲社会和积极行为，即使这会导致目标失败
随着模型规模增大，LLM 逐渐发展出类似人脑的能力特异性功能分区

消融实验¶

分析维度	发现
模型规模	更大模型 SI 更强，但与人类差距仍显著
亲社会偏好	所有 LLM 在反社会场景表现最差
能力功能分区	大模型形成了类脑的能力特异性神经元分区

亮点与洞察¶

世界树结构是一个非常巧妙的设计，将社交互动建模为可解释的决策过程
双语设计揭示了 LLM SI 的跨语言差异
亲社会偏好发现具有重要的 alignment 意义——LLM 宁可失败也不愿采取攻击性行为

局限性 / 可改进方向¶

反社会场景（诱导和冲突）只有各 10 个世界树，样本量较小
评估主要依赖选择题形式，缺少开放式对话评测
世界树结构是离散的决策点，可能简化了真实社交的连续性

补充细节¶

数据规模：153 个世界树，2493 个测试样本，涵盖 5 个能力维度 32 种具体人际能力
平均每个世界树包含 101 轮对话交互、6.5 个情节、5.5 个过渡决策点
人工质量控制流程：编剧创作 - 三阶段检查 - 交叉检验，最终一致率 95%
翻译流程：GPT-4o 翻译 + 专业多语言翻译人员审核，接受率 97%
实验发现 LLM 的表征空间随模型规模增大逐渐形成类脑的能力特异性功能分区
中英文评测差距说明 LLM 的社会智能受训练数据语言分布影响
社交世界分类基于 self-interest 和 altruism 两维度的笛卡尔积
数据集同时支持中文和英文双语评测

评分¶

新颖性: ⭐⭐⭐⭐ 世界树+双任务评估范式新颖，但核心仍是选择题基准
实验充分度: ⭐⭐⭐⭐⭐ 20+ 模型 x 双语 x 两项任务，覆盖面广
写作质量: ⭐⭐⭐⭐ 结构清晰，理论基础扎实，但篇幅较长
价值: ⭐⭐⭐⭐ 为 LLM 社会智能评估提供了系统化框架