Explicit Trait Inference for Multi-Agent Coordination¶

会议: ACL 2026
arXiv: 2604.19278
代码: 无
领域: LLM多智能体 / 社会推理
关键词: 多智能体协调, 特质推理, 温暖-能力维度, 社会认知, 博弈论

一句话总结¶

提出显式特质推理（ETI）方法，基于心理学中温暖和能力两个维度让LLM智能体推理并追踪合作伙伴的行为特征，在经济博弈中减少45-77%收益损失，在MultiAgentBench上提升3-29%任务表现。

研究背景与动机¶

领域现状：基于LLM的多智能体系统（MAS）在复杂任务上展现潜力，但仍然容易出现协调失败——目标漂移、错误级联、信息共享不足、行为不对齐等问题限制了可靠性和可扩展性。

现有痛点：（1）结构化方法（如CAMEL、ChatDev）通过固定角色组织协作，但不涉及智能体如何推理和适应彼此；（2）ToM方法主要建模瞬态心理状态（信念、意图），而非稳定的行为特质（可靠性、合作意愿）；（3）信誉系统仅追踪任务指标（成功率），未捕获"为什么"和"如何"的行为模式。

核心矛盾：核心挑战不是智能体能否执行个别动作，而是它们能否彼此有效协调——这需要对合作伙伴形成稳定、可操作的认知表征。

本文目标：提供基于心理学的轻量级机制，使智能体能根据交互历史推理合作伙伴的特质并据此调整行为。

切入角度：借鉴社会心理学中的温暖-能力二维模型（Fiske et al., 2007），将社会评估映射为可操作的协调信号。

核心 idea：让智能体显式推断并维护合作伙伴在温暖（信任/合作）和能力（技能/可靠性）上的特质档案，用于指导委派、沟通和策略调整。

方法详解¶

整体框架¶

ETI是一个基于提示和上下文管理的框架。每次交互后，智能体收到包含任务目标、行动、沟通和结果的结构化摘要，被提示推理合作伙伴的特质。智能体生成（a）每个特质的1-7分Likert评分和（b）支持判断的简要证据，这些档案被追加到上下文中用于后续规划和执行。

关键设计¶

温暖-能力特质框架:
- 功能：为智能体提供结构化的合作伙伴表征
- 核心思路：将8个行为锚定特质分为两个维度——温暖（目标对齐、协作性、可信赖性、恶意性）和能力（执行能力、可靠性、适应性、效率）。特质定义明确分离温暖和能力，防止日常用语中的混淆（如将不合作误判为无能）
- 设计动机：温暖维度应对目标漂移和不可靠合作，低温暖时促使智能体澄清意图或打折不可靠输入；能力维度应对执行错误和级联失败，低能力时促使重新分配任务或增加验证
推理-规划-执行循环:
- 功能：将特质推理无缝集成到多智能体流水线中
- 核心思路：每次迭代后，智能体（1）基于行动和结果历史推理合作伙伴特质；（2）将结构化特质档案纳入上下文；（3）利用富化的上下文规划和执行下一步。提示指示模型关注主要行为模式而非孤立事件，保持领域无关
- 设计动机：纯提示方法无需微调或额外数据，开销极小，适用于任意MAS架构
经济博弈中的能力参数化:
- 功能：为评估特质推理准确性提供有ground truth的受控环境
- 核心思路：在标准囚徒困境和猎鹿博弈中加入能力参数——玩家意图的动作仅以概率 \(p_i\) 成功执行。这样智能体可以从动作推理意图（合作性vs自私），从结果推理能力（成功率）。与参数化的规则对手对弈50轮
- 设计动机：经济博弈提供了简单但需要适应性推理的决策问题，能精确评估特质推理的准确性

损失函数 / 训练策略¶

ETI是纯提示方法，不涉及训练。使用Qwen3-8B作为智能体，在所有配置中25次独立重复。

实验关键数据¶

主实验¶

在经济博弈中（Qwen3-8B vs 规则对手）：

博弈	方法	收益偏差↓	说明
囚徒困境	CoT基线	高	缺乏对手建模
囚徒困境	ETI	降低45-77%	特质感知决策
猎鹿博弈	CoT基线	高	默认保守策略
猎鹿博弈	ETI	显著提升	准确判断合作可能

在MultiAgentBench上：

场景类型	ETI提升	协调提升
协作场景	3-29%	6-42%
竞争场景	有提升	显著

消融实验¶

配置	效果	说明
ETI (信息性档案)	最优	多样化特质判断驱动改进
ETI (泛化档案)	微弱提升	不具辨识性的档案无效
无特质推理	基线	CoT仅关注任务级推理
特质预测行为	准确	ETI档案确实预测智能体行动

关键发现¶

ETI的收益不来自"更多推理"而是来自"更有针对性的推理"——泛化的档案几乎无效，只有信息性强的档案才有用
特质推理能力被验证：ETI生成的档案确实能预测智能体的后续行为，证明模型可以从交互历史可靠地推断稳定特质
在MultiAgentBench的复杂场景中，ETI最大提升29%，证明方法从受控设置到现实MAS的泛化能力
温暖维度在合作场景中更重要（检测不可靠合作者），能力维度在复杂任务场景中更重要（重分配任务）

亮点与洞察¶

将社会心理学的温暖-能力模型引入MAS是一个优雅的跨学科创新：人类社会中信任和协调正是基于这两个维度运作的，直接将其形式化为智能体间的推理框架非常自然。
"行为锚定"的特质定义设计值得借鉴：通过明确的行为描述（而非抽象概念）防止LLM在推理时混淆维度，这对任何需要LLM做结构化判断的场景都适用。
纯提示实现意味着零附加训练成本和即插即用，对实际MAS部署极其友好。

局限与展望¶

特质推理的准确性依赖LLM的社会推理能力，较弱的模型可能产生不准确的档案
当前框架假设特质是相对稳定的——对策略性伪装（如初期合作后背叛）的检测能力有限
8个特质的选择虽有心理学依据，但不一定是最优的MAS设计——任务特定的特质维度可能更有效
在极大规模MAS（>10个智能体）中，维护所有合作伙伴的特质档案的上下文成本可能过高

评分¶

新颖性: ⭐⭐⭐⭐⭐ 心理学特质理论+MAS的首次系统结合
实验充分度: ⭐⭐⭐⭐⭐ 受控博弈+现实MAS，从准确性到因果性全面验证
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，跨学科整合优秀
价值: ⭐⭐⭐⭐⭐ 为LLM多智能体协调提供了轻量且有效的新范式