Explicit Trait Inference for Multi-Agent Coordination¶
会议: ACL 2026
arXiv: 2604.19278
代码: 无
领域: LLM多智能体 / 社会推理
关键词: 多智能体协调, 特质推理, 温暖-能力维度, 社会认知, 博弈论
一句话总结¶
提出显式特质推理(ETI)方法,基于心理学中温暖和能力两个维度让LLM智能体推理并追踪合作伙伴的行为特征,在经济博弈中减少45-77%收益损失,在MultiAgentBench上提升3-29%任务表现。
研究背景与动机¶
领域现状:基于LLM的多智能体系统(MAS)在复杂任务上展现潜力,但仍然容易出现协调失败——目标漂移、错误级联、信息共享不足、行为不对齐等问题限制了可靠性和可扩展性。
现有痛点:(1)结构化方法(如CAMEL、ChatDev)通过固定角色组织协作,但不涉及智能体如何推理和适应彼此;(2)ToM方法主要建模瞬态心理状态(信念、意图),而非稳定的行为特质(可靠性、合作意愿);(3)信誉系统仅追踪任务指标(成功率),未捕获"为什么"和"如何"的行为模式。
核心矛盾:核心挑战不是智能体能否执行个别动作,而是它们能否彼此有效协调——这需要对合作伙伴形成稳定、可操作的认知表征。
本文目标:提供基于心理学的轻量级机制,使智能体能根据交互历史推理合作伙伴的特质并据此调整行为。
切入角度:借鉴社会心理学中的温暖-能力二维模型(Fiske et al., 2007),将社会评估映射为可操作的协调信号。
核心 idea:让智能体显式推断并维护合作伙伴在温暖(信任/合作)和能力(技能/可靠性)上的特质档案,用于指导委派、沟通和策略调整。
方法详解¶
整体框架¶
ETI是一个基于提示和上下文管理的框架。每次交互后,智能体收到包含任务目标、行动、沟通和结果的结构化摘要,被提示推理合作伙伴的特质。智能体生成(a)每个特质的1-7分Likert评分和(b)支持判断的简要证据,这些档案被追加到上下文中用于后续规划和执行。
关键设计¶
-
温暖-能力特质框架:
- 功能:为智能体提供结构化的合作伙伴表征
- 核心思路:将8个行为锚定特质分为两个维度——温暖(目标对齐、协作性、可信赖性、恶意性)和能力(执行能力、可靠性、适应性、效率)。特质定义明确分离温暖和能力,防止日常用语中的混淆(如将不合作误判为无能)
- 设计动机:温暖维度应对目标漂移和不可靠合作,低温暖时促使智能体澄清意图或打折不可靠输入;能力维度应对执行错误和级联失败,低能力时促使重新分配任务或增加验证
-
推理-规划-执行循环:
- 功能:将特质推理无缝集成到多智能体流水线中
- 核心思路:每次迭代后,智能体(1)基于行动和结果历史推理合作伙伴特质;(2)将结构化特质档案纳入上下文;(3)利用富化的上下文规划和执行下一步。提示指示模型关注主要行为模式而非孤立事件,保持领域无关
- 设计动机:纯提示方法无需微调或额外数据,开销极小,适用于任意MAS架构
-
经济博弈中的能力参数化:
- 功能:为评估特质推理准确性提供有ground truth的受控环境
- 核心思路:在标准囚徒困境和猎鹿博弈中加入能力参数——玩家意图的动作仅以概率 \(p_i\) 成功执行。这样智能体可以从动作推理意图(合作性vs自私),从结果推理能力(成功率)。与参数化的规则对手对弈50轮
- 设计动机:经济博弈提供了简单但需要适应性推理的决策问题,能精确评估特质推理的准确性
损失函数 / 训练策略¶
ETI是纯提示方法,不涉及训练。使用Qwen3-8B作为智能体,在所有配置中25次独立重复。
实验关键数据¶
主实验¶
在经济博弈中(Qwen3-8B vs 规则对手):
| 博弈 | 方法 | 收益偏差↓ | 说明 |
|---|---|---|---|
| 囚徒困境 | CoT基线 | 高 | 缺乏对手建模 |
| 囚徒困境 | ETI | 降低45-77% | 特质感知决策 |
| 猎鹿博弈 | CoT基线 | 高 | 默认保守策略 |
| 猎鹿博弈 | ETI | 显著提升 | 准确判断合作可能 |
在MultiAgentBench上:
| 场景类型 | ETI提升 | 协调提升 |
|---|---|---|
| 协作场景 | 3-29% | 6-42% |
| 竞争场景 | 有提升 | 显著 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| ETI (信息性档案) | 最优 | 多样化特质判断驱动改进 |
| ETI (泛化档案) | 微弱提升 | 不具辨识性的档案无效 |
| 无特质推理 | 基线 | CoT仅关注任务级推理 |
| 特质预测行为 | 准确 | ETI档案确实预测智能体行动 |
关键发现¶
- ETI的收益不来自"更多推理"而是来自"更有针对性的推理"——泛化的档案几乎无效,只有信息性强的档案才有用
- 特质推理能力被验证:ETI生成的档案确实能预测智能体的后续行为,证明模型可以从交互历史可靠地推断稳定特质
- 在MultiAgentBench的复杂场景中,ETI最大提升29%,证明方法从受控设置到现实MAS的泛化能力
- 温暖维度在合作场景中更重要(检测不可靠合作者),能力维度在复杂任务场景中更重要(重分配任务)
亮点与洞察¶
- 将社会心理学的温暖-能力模型引入MAS是一个优雅的跨学科创新:人类社会中信任和协调正是基于这两个维度运作的,直接将其形式化为智能体间的推理框架非常自然。
- "行为锚定"的特质定义设计值得借鉴:通过明确的行为描述(而非抽象概念)防止LLM在推理时混淆维度,这对任何需要LLM做结构化判断的场景都适用。
- 纯提示实现意味着零附加训练成本和即插即用,对实际MAS部署极其友好。
局限与展望¶
- 特质推理的准确性依赖LLM的社会推理能力,较弱的模型可能产生不准确的档案
- 当前框架假设特质是相对稳定的——对策略性伪装(如初期合作后背叛)的检测能力有限
- 8个特质的选择虽有心理学依据,但不一定是最优的MAS设计——任务特定的特质维度可能更有效
- 在极大规模MAS(>10个智能体)中,维护所有合作伙伴的特质档案的上下文成本可能过高
相关工作与启发¶
- vs ToM方法(Li et al., 2023): 建模瞬态信念/意图,不跟踪稳定特质;ETI提供跨交互的持续表征
- vs 信誉系统(Lou et al., 2026): 仅追踪成功率等指标,不捕获行为动机;ETI提供更丰富的表征(为什么+如何)
- vs CoT/Reflexion: 仅结构化任务级推理,不涉及对他人的推理;ETI扩展到社会推理域
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 心理学特质理论+MAS的首次系统结合
- 实验充分度: ⭐⭐⭐⭐⭐ 受控博弈+现实MAS,从准确性到因果性全面验证
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,跨学科整合优秀
- 价值: ⭐⭐⭐⭐⭐ 为LLM多智能体协调提供了轻量且有效的新范式
相关论文¶
- [ACL 2026] MARCH: Evaluating the Intersection of Ambiguity Interpretation and Multi-hop Inference
- [ICLR 2026] AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent
- [ACL 2026] Failure Modes in Multi-Hop QA: The Weakest Link Effect and the Recognition Bottleneck
- [ICML 2025] Ad-Hoc Human-AI Coordination Challenge (AH2AC2)
- [ACL 2026] ReCoQA: A Benchmark for Tool-Augmented and Multi-Step Reasoning in Real Estate Question and Answering