Savoir: Learning Social Savoir-Faire via Shapley-based Reward Attribution¶

会议: ACL 2026
arXiv: 2604.18982
代码: 无
领域: 社交智能 / 强化学习
关键词: 社交智能, Shapley值, 信用分配, 合作博弈论, 期望效用

一句话总结¶

本文提出 Savoir，一个基于合作博弈论的社交 RL 框架，结合期望效用（前瞻性评估话语的战略潜力）和 Shapley 值（公理化公平信用分配）解决多轮对话中的信用分配问题，在 SOTOPIA 基准上以 7B 模型达到 SOTA 性能（Hard 设置 Goal 7.18），匹配或超越 GPT-4o 和 Claude-3.5-Sonnet，且大型推理模型（o1、DeepSeek-R1）在社交任务上系统性欠佳。

研究背景与动机¶

领域现状：社交智能——驾驭复杂人际交互的能力——是 LLM 应用于谈判、协作和说服场景的核心需求。近期研究通过 RL 方法训练社交代理：SOTOPIA-π 结合行为克隆和自我强化，Sotopia-RL 用 LLM 启发式地将 episode 级奖励分配到话语级。

现有痛点：(1) Sotopia-RL 的信用分配缺乏理论基础——LLM 直接分配奖励，没有公平性或准确性的原则性保证；(2) 更根本的是，现有奖励模型执行回顾性归因（这句话对已发生结果贡献了多少），而非前瞻性估值（这句话为后续有利交互创造了多少战略潜力）。一些话语即时贡献看起来很小，但其战略定位为后续成功解锁了关键路径。

核心矛盾：社交交互本质是多轮、多目标、涉及竞争的，个体话语的价值不仅在于当前贡献，更在于它为未来创造的可能性空间。回顾性归因无法捕捉这种前瞻性的战略价值。

本文目标：(1) 用博弈论公理化解决多轮对话的信用分配问题；(2) 区分话语的回顾性贡献和前瞻性战略价值；(3) 在小模型上实现超越大模型的社交智能。

切入角度：将每次社交对话视为合作博弈，每句话语是一个玩家，联合贡献于最终结果。用 Shapley 值的数学保证（效率、对称、边际贡献公理）替代 LLM 的启发式分配。

核心 idea：期望效用定义"衡量什么"（通过 rollout 评估话语的前瞻性战略价值），Shapley 值定义"如何分配"（公理化保证的公平信用分布），两者结合将信用分配从启发式转变为原则性计算。

方法详解¶

整体框架¶

Savoir 的训练管道分三个阶段：(1) 数据收集——LLM 自我对弈生成社交交互 episode；(2) 奖励建模——用 Savoir 算法将 episode 级结果归因到话语级，训练奖励模型；(3) 策略训练——SFT 预热后用 GRPO 在线 RL。核心创新在阶段 (2)：给定对话 \(\tau\) 中代理的 \(n\) 句话语 \(N = \{a_1, \ldots, a_n\}\)，计算每句话语的 Shapley 值 \(\phi_i\) 作为奖励信号。

关键设计¶

期望效用（Expected Utility）用于前瞻性估值:
- 功能：将话语评估从"对过去贡献了什么"转变为"对未来期望价值是什么"
- 核心思路：定义价值函数 \(v(S) = \mathbb{E}_{\tau' \sim \mathcal{R}(H(S))}[U(\tau')]\)，其中 \(H(S)\) 是仅包含子集 \(S\) 中话语及其对应伙伴回应的重构对话历史，\(\mathcal{R}(H(S))\) 是从该状态出发的未来对话轨迹分布。通过 Monte Carlo 模拟：\(v(S) = \frac{1}{J}\sum_{j=1}^J U(\tau_j)\)，用代理策略 \(\pi_A\) 和伙伴策略 \(\pi_B\) 交替生成完整对话，\(U(\tau) = \sum_d w_d \cdot G_d(\tau)\) 按 SOTOPIA 七个维度加权聚合
- 设计动机：一句精心设计的提案可能即时贡献看起来很小，但它开启的后续有利轨迹可能价值巨大——只有通过 rollout 才能评估这种战略潜力
Shapley 值用于公理化信用分配:
- 功能：将价值函数的总价值公平地分配给各话语
- 核心思路：\(\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(n-|S|-1)!}{n!}[v(S \cup \{i\}) - v(S)]\)，计算话语 \(a_i\) 在所有可能排列中的平均边际贡献。满足效率（所有话语的 Shapley 值之和等于总价值）、对称性、零贡献者和可加性四个公理
- 设计动机：启发式的 LLM 信用分配无法保证公平性——某些话语可能被过度或不足归因，而 Shapley 值是唯一满足这些公理的分配方案
KernelSHAP 高效近似:
- 功能：将指数级的 Shapley 计算化为可行的加权线性回归
- 核心思路：将 Shapley 值重构为加权最小二乘问题：\(\phi^* = \arg\min_\phi \sum_k w_k(v(S_k) - \sum_i \phi_i \cdot z_{ki})^2\)，其中 SHAP 核权重 \(w_k\) 对极端大小的联盟（非常小或非常大）赋予更高权重，因为它们提供最具信息量的边际贡献。采用智能联盟采样策略，优先采样极端大小的联盟
- 设计动机：直接计算需要 \(2^n\) 次价值函数评估（每次还需 \(J\) 次 rollout），KernelSHAP 以约 200 次联盟采样实现高精度近似

损失函数 / 训练策略¶

奖励模型训练用 MSE 损失 \(\mathcal{L}_\text{RM} = \mathbb{E}[(R_\theta(c,a) - \hat{\phi})^2]\)；策略训练分两阶段：先在 GPT-4o 自我对弈 episode 上 SFT 预热，再用 GRPO（Group Relative Policy Optimization）在线 RL。Savoir 的 rollout 使用 \(J=2\) 次模拟，联盟采样上限为 200。

实验关键数据¶

主实验¶

SOTOPIA 基准主要结果（Goal 指标，0-10 分）

模型/方法	Self-Play All	Self-Play Hard	GPT-4o Partner All	GPT-4o Partner Hard
GPT-4o	8.19	6.97	8.19	6.97
Claude-3.5-Sonnet	8.29	6.33	8.42	6.64
OpenAI-o1	7.93	5.69	8.09	6.65
DeepSeek-R1	7.97	5.86	7.92	6.20
o3-mini	7.38	5.14	7.96	6.33
Sotopia-RL (7B)	7.80	7.81	8.31	6.68
Savoir (7B)	8.43	7.93	8.42	7.18

消融实验¶

EU 与 Shapley 的组件解耦（SOTOPIA-Hard, GPT-4o Partner）

变体	EU	Shapley	Goal	Avg
基线 (Sotopia-RL)	×	×	6.68	3.29
EU-only	✓	×	6.89	3.38
Shapley-only	×	✓	6.96	3.42
Savoir (Full)	✓	✓	7.18	3.51

关键发现¶

7B Savoir 超越所有大模型：在 Self-Play All 上 8.43 vs GPT-4o 的 8.19，在 Hard 设置上 7.93 vs 6.97（+13.8%）
大型推理模型系统性欠佳：o3-mini 在 Self-Play Hard 上仅 5.14 vs Savoir 7.93（差距 54.3%），说明社交智能需要直觉式响应而非深思熟虑的推理链
EU 和 Shapley 解决正交问题：EU 单独提升 3.1%（更好的价值估计），Shapley 单独提升 4.2%（更公平的分配），组合提升 7.5%——两者互补而非重叠
人工评估中策略性评分 4.06 vs Sotopia-RL 的 3.41（+19.1%，\(p<0.01\)），奖励公平性偏好 67.1% vs 15.7%
训练数据从 2K 到 7.5K episode 持续提升，最大增益在 3K-5K 之间（Goal +8.6%）

亮点与洞察¶

将 Shapley 值引入社交对话的信用分配是理论优雅和实践有效的完美结合——四个公理保证的公平性直接转化为更好的奖励信号
"推理模型不擅长社交"的发现非常有洞察力——o1、R1 等模型的"过度思考"可能反而损害需要直觉和灵活性的社交交互
期望效用的 rollout 机制捕捉了"战略定位"的价值——某些看似无关紧要的话语可能是后续成功的关键铺垫

局限与展望¶

Rollout 和联盟采样的计算成本高（每个 episode 约 200 次联盟 × 2 次 rollout），限制了大规模应用
评估依赖 GPT-4o 作为 evaluator，可能引入评估偏差
面对越来越强的对话伙伴性能下降：vs Gemini-3-Pro Goal 降低 17.8%，说明泛化能力有限
仅在 SOTOPIA 基准上评估，真实世界社交场景的复杂度可能更高

评分¶

新颖性: ⭐⭐⭐⭐⭐ Shapley 值 + 期望效用在社交 RL 中的应用具有理论深度和实践创新
实验充分度: ⭐⭐⭐⭐⭐ 主实验 + 组件消融 + 人工评估 + 数据规模分析 + 对手强度分析，极为全面
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，动机到方法的逻辑链完整，案例分析生动
价值: ⭐⭐⭐⭐⭐ 7B 模型超越 GPT-4o 的社交智能具有重要实践意义，推理模型欠佳的发现有深远影响