跳转至

SocialEval: Evaluating Social Intelligence of Large Language Models

会议: ACL 2025 arXiv: 2506.00900 代码: https://github.com/thu-coai/SocialEval 领域: LLM NLP / 社会智能评估 关键词: Social Intelligence, Benchmark, World Tree, Interpersonal Ability, Goal Achievement

一句话总结

提出基于叙事脚本的双语社会智能基准 SocialEval,通过"世界树"结构整合结果导向的目标达成评估和过程导向的人际能力评估,全面评测 LLM 的社会智能。

研究背景与动机

  1. 领域现状:LLM 在社会仿真中展现出新兴的社会智能(SI),被广泛用于社会科学研究和人际训练场景。
  2. 现有痛点:现有评估工作只关注单回合社会动态和终端结果,忽略了多回合序列依赖的社交互动过程。
  3. 核心矛盾:SI 本质上是一个动态过程——个体在不断演变的叙事性社交活动中持续调节人际技能,但缺乏全面评估 LLM SI 的范式。
  4. 本文要解决什么? 提供一个整合过程和结果两个维度的 SI 评估框架。
  5. 切入角度:借鉴社会心理学脚本理论(Schank & Abelson),将社交活动建模为"世界树"——多条由人际能力驱动的情节线交织而成的树结构。
  6. 核心idea一句话:通过手工构建叙事脚本的世界树,将 LLM 的社交行为建模为目标条件 MDP,同时评估目标达成和人际能力运用。

方法详解

整体框架

SocialEval 由 153 个世界树组成,每个世界树包含场景、角色、多个情节和过渡选项。LLM 扮演主角,在关键抉择点从 candidate utterances 中选择,驱动情节推进并影响社交目标的达成。

关键设计

  1. 社交世界分类法(Social World Taxonomy):
  2. 做什么:定义社交世界的类型
  3. 核心思路:基于 interdependence theory,以自利和利他两个维度的笛卡尔积定义 7 种社交取向(合作、谈判、竞争、援助、利他、诱导、冲突)
  4. 设计动机:不同取向下的社交目标和行为策略截然不同,需分别评测

  5. 人际能力清单(BESSI Framework):

  6. 做什么:定义 5 大维度 32 种具体人际能力
  7. 核心思路:采用 BESSI 心理学框架,涵盖社交参与、合作、自我管理、情绪韧性、创新
  8. 设计动机:提供细粒度的过程导向评测维度

  9. 世界树构建与质量控制:

  10. 做什么:手工构建 153 个双语世界树,每个包含平均 9.46 条情节线
  11. 核心思路:雇用编剧创作,经三阶段检查+交叉检验,一致率 95%
  12. 设计动机:确保情节合理性和标注准确性

评估任务

  • 任务1(GAE):结果导向目标达成评估——LLM 选择动作推进情节,判断是否达成社交目标
  • 任务2(IAE):过程导向人际能力评估——通过选择题测试 LLM 是否理解各选项所体现的人际能力

实验关键数据

主实验

模型 亲社会(zh/en) 亲自我(zh/en) 反社会(zh/en) 总体(zh/en)
Human (best) 100/100 100/100 100/100 100/100
Human (avg) 64.9/59.9 55.0/40.0 51.3/50.0 61.8/55.2
Claude-3-opus 54.0/52.3 31.5/29.8 29.7/27.6 47.0/45.2
GPT-4o 52.8/51.6 27.6/25.5 23.2/17.6 44.6/42.7
o1 54.3/52.7 32.5/31.0 27.5/25.7 47.0/45.4
Qwen-2.5-32B 45.6/42.1 26.2/21.6 - ~40/36

关键发现

  • LLM 在两项 SI 评估中均落后于人类
  • LLM 和人类都展现出跨语言的 SI 差异(中文普遍优于英文)
  • LLM 强烈偏好亲社会和积极行为,即使这会导致目标失败
  • 随着模型规模增大,LLM 逐渐发展出类似人脑的能力特异性功能分区

消融实验

分析维度 发现
模型规模 更大模型 SI 更强,但与人类差距仍显著
亲社会偏好 所有 LLM 在反社会场景表现最差
能力功能分区 大模型形成了类脑的能力特异性神经元分区

亮点与洞察

  • 世界树结构是一个非常巧妙的设计,将社交互动建模为可解释的决策过程
  • 双语设计揭示了 LLM SI 的跨语言差异
  • 亲社会偏好发现具有重要的 alignment 意义——LLM 宁可失败也不愿采取攻击性行为

局限性 / 可改进方向

  • 反社会场景(诱导和冲突)只有各 10 个世界树,样本量较小
  • 评估主要依赖选择题形式,缺少开放式对话评测
  • 世界树结构是离散的决策点,可能简化了真实社交的连续性

相关工作与启发

  • vs SocialBench (Wang et al. 2024): SocialBench 关注单回合社交场景,SocialEval 支持多回合序列依赖的评估
  • vs BigToM (Gandhi et al. 2024): BigToM 聚焦心理理论,SocialEval 覆盖更广泛的 32 种人际能力

补充细节

  • 数据规模:153 个世界树,2493 个测试样本,涵盖 5 个能力维度 32 种具体人际能力
  • 平均每个世界树包含 101 轮对话交互、6.5 个情节、5.5 个过渡决策点
  • 人工质量控制流程:编剧创作 - 三阶段检查 - 交叉检验,最终一致率 95%
  • 翻译流程:GPT-4o 翻译 + 专业多语言翻译人员审核,接受率 97%
  • 实验发现 LLM 的表征空间随模型规模增大逐渐形成类脑的能力特异性功能分区
  • 中英文评测差距说明 LLM 的社会智能受训练数据语言分布影响
  • 社交世界分类基于 self-interest 和 altruism 两维度的笛卡尔积
  • 数据集同时支持中文和英文双语评测

评分

  • 新颖性: ⭐⭐⭐⭐ 世界树+双任务评估范式新颖,但核心仍是选择题基准
  • 实验充分度: ⭐⭐⭐⭐⭐ 20+ 模型 x 双语 x 两项任务,覆盖面广
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,理论基础扎实,但篇幅较长
  • 价值: ⭐⭐⭐⭐ 为 LLM 社会智能评估提供了系统化框架