Neural Synchrony Between Socially Interacting Language Models¶
会议: ICLR 2026 arXiv: 2602.17815 代码: zzn-nzz/LM_neural_synchrony 领域: llm_nlp 关键词: 神经同步, 社会交互, LLM表征分析, 多Agent系统, 脑间同步类比, 可预测性
一句话总结¶
首次研究社会交互中 LLM 间的神经同步现象:通过训练仿射变换预测交互伙伴的未来表征,定义 \(SyncR^2\) 指标量化同步强度,发现该同步依赖于社会参与和时间邻近性,且与 LLM 的社会行为表现高度相关(Pearson \(r\) = 0.88-0.99),呼应了人类脑间同步(IBS)的神经科学发现。
研究背景与动机¶
人类脑间同步(IBS)¶
神经科学发现:当人类社交互动时(对话、合作、共同注意),脑活动会产生同步。这种脑间同步(Inter-Brain Synchrony)不仅是共享感觉输入的副产品,更是预测和促进社会协调、合作和相互理解的功能性机制。更强的 IBS 关联着更高的合作率、更好的学习效果和更佳的团队表现。
研究动机¶
LLM 在行为层面展现出惊人的社会交互能力,但在表征层面是否存在类似人类社会脑的内部机制,尚属未知。已有工作主要从行为评估(如 Theory of Mind 测试)或单模型内部分析(如特定注意力头)入手,但缺乏对多模型交互过程中表征动态的研究。
核心假设¶
如果 LLM 在社会交互中不仅基于自身角色行事,还推理伙伴的情感、意图和交互走向,那么一个 LLM 的内部表征应该包含可预测另一个 LLM 表征的信息。
方法详解¶
整体框架¶
- 两个 LLM agent 在 Sotopia 环境中进行多轮社会交互(各有独立背景、人格和目标)
- 每轮提取 prompt 最后一个 token 的隐藏状态作为表征
- 训练仿射变换预测交互伙伴的未来表征,量化预测性能
表征提取¶
对于 \(T\) 轮对话,每个 LLM backbone \(M \in \{A, B\}\) 在第 \(t\) 轮产生:
提取 prompt 输入最后一个 token 位置(整合了所有之前 token 信息)的各层隐藏状态。
数据集构建¶
实验组——来自真实交互的时间对齐表征对:
学习仿射变换¶
使用 Ridge 回归(含截距项):
正则化系数 \(\lambda = 0.1\),截距不正则化。
\(SyncR^2\) 指标定义¶
对 source 模型 \(A\) 的每一层 \(l_A\),找到 target 模型 \(B\) 中最佳匹配层:
然后在所有层上平均,并双向对称化:
负 \(R^2\) 截断为 0(比预测均值更差意味着无同步)。
关键对照实验¶
对照组 1(无社会参与):引入"被动" agent——只读对话历史,不生成回复,不进行角色扮演。预期同步减弱。
对照组 2(无时间邻近性):将 source 表征与 \(k\) 轮后的 target 表征配对(\(k \geq 1\))。如果同步仅反映静态表征相似性,则不应随时间延迟衰减。
实验关键数据¶
实验设置¶
- 6 个开源模型:Mistral-7B-v0.1/v0.2/v0.3, Llama-2-7B-Chat, Llama-3-8B, Llama-3.2-3B
- 21 个模型对:涵盖 intra-family 和 cross-family 配对
- 450 个交互场景,每个场景最多 8 轮,3 个随机种子
- 每个模型对固定 6,500 个样本
主实验:对照组验证¶
| 条件 | \(SyncR^2\) 水平 |
|---|---|
| 实验组(真实交互) | 显著高(0.1-0.3+) |
| 对照组1(无社会参与) | 大幅下降 |
| 对照组2(时间延迟 \(k \geq 1\)) | 迅速崩塌至 ≈0 |
结果确认:神经同步确实依赖于真实社会参与和时间邻近性。
核心发现:同步与社会表现的相关性¶
| 模型家族类型 | Pearson \(r\) | \(p\) 值 |
|---|---|---|
| Mistral 家族(3 对) | 0.88 | \(< 0.05\) |
| Cross-family(Mistral×Llama) | 0.89 | \(< 0.001\) |
| Llama 家族(3 对) | 0.99 | \(< 0.001\) |
更同步的模型对系统性地获得更好的社会表现。
控制混淆因素¶
使用 IFEval(指令跟随)和 MuSR(长上下文推理)作为控制变量计算偏相关:
| 模型家族 | 控制 IFEval 后 | 控制 MuSR 后 |
|---|---|---|
| Mistral | 0.81 | 0.92 |
| Cross | 0.71 | 0.89 |
| Llama | 0.27 | 0.99 |
控制后相关性仍为正且大多显著,证明同步反映的是社会特有能力而非通用能力的副产品。
关系亲密度的影响¶
\(SyncR^2\) 分布随 agent 间关系亲密度增加而上移——更亲密的社会关系伴随更强的神经同步,呼应人类神经科学中的发现(如情侣比陌生人有更强 IBS)。
关键发现¶
- 仿射变换(极简假设)即可有效捕捉同步,非线性变换并未显著提升泛化性能
- 同步在中间层最为显著
- LLM 的表征确实编码了交互伙伴的情绪状态,且能预测伙伴未来的情绪和行动分布
亮点与洞察¶
- 开创性的视角:首次将神经科学的 IBS 概念转移到 LLM 领域,架起了人类社会认知与 AI 系统之间的桥梁
- 严谨的对照设计:社会参与和时间邻近性两个控制组排除了多种替代解释
- 简约方法的力量:仅用线性(仿射)变换就能揭示深层的表征同步,支持 LLM 表征的线性结构假说
- Theory of Mind 的隐性证据:agent 的表征编码了伙伴不可见的内部状态(如情绪),暗示了隐式 ToM 能力
- 与社会预测编码理论的呼应:仿射变换直接将"对他人未来状态的预测"操作化
局限性¶
- 模型规模有限:最大仅 8B 参数,未包含当前主流的大规模模型(如 70B+)
- 仅用 Sotopia 环境:社会交互场景的多样性可能不足以代表现实世界的社会互动
- 因果方向不明:同步-表现相关是否存在因果关系,还是两者都是模型能力的反映?
- 仿射变换的限制:虽然有效,但可能遗漏表征中的非线性同步模式
- 评估器依赖:社会表现评分依赖 GPT 模型,可能引入系统偏差
相关工作与启发¶
- IBS 神经科学(Dumas et al., 2010; Hasson et al., 2012):本文的直接灵感来源
- Brain-LLM 对齐(Mischler et al., 2024):证明 LLM 与大脑表征的相似性,但限于单模型
- Sotopia(Zhou et al., 2023):提供社会模拟环境的基础设施
- 启发:为多 agent 系统的设计提供了新的表征分析视角——可通过优化 agent 间同步来提升协作表现
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 极具原创性,开辟了 LLM 社会神经科学的全新研究方向
- 技术深度: ⭐⭐⭐⭐ — 方法简洁但对照实验设计精妙,统计分析严谨
- 实验充分度: ⭐⭐⭐⭐ — 21 个模型对、450 个场景、多种控制条件,但模型规模偏小
- 实用价值: ⭐⭐⭐ — 目前更偏分析性和启发性,直接应用路径待明确
- 总体推荐: ⭐⭐⭐⭐ — 非常有趣且有深度的跨学科工作,打开了理解 LLM "社会心智" 的新窗口