跳转至

ACT: Knowledgeable Agents to Design and Perform Complex Tasks

会议: ACL 2025
arXiv: 无
代码: 无
领域: Agent
关键词: 多智能体协作, 知识共享, 复杂任务分解, LLM Agent, 结构化知识

一句话总结

本文提出 ACT 框架,让多个 LLM 智能体通过协作设计任务并相互获取结构化知识描述,使每个智能体不仅理解自身任务还了解他人的工作方式,从而在创意写作和工具使用等复杂任务上显著超越现有多智能体方法。

研究背景与动机

领域现状:基于大语言模型的多智能体系统已成为解决复杂任务的主流范式。现有工作通常将一个复杂任务拆分为多个可管理的子任务,分配给不同的专业化智能体执行,最后汇总各智能体的输出。代表性框架包括 AutoGen、MetaGPT、CAMEL 等,它们在代码生成、软件开发、对话系统等领域展现了良好的效果。

现有痛点:当前多智能体系统存在两个核心问题:(1) 各智能体缺乏对整体任务全局的理解——每个智能体只看到自己被分配到的子任务片段,无法把握整体目标和约束;(2) 各智能体之间缺乏对彼此工作方式的了解——不知道其他智能体如何处理自己的子任务、产生什么样的中间结果、采用什么策略。这两个缺陷严重阻碍了智能体之间的协同效应,导致各子任务的输出难以无缝整合。

核心矛盾:复杂任务天然要求各部分紧密关联和一致,但子任务独立执行的范式天然导致信息孤岛和集成困难。现有方法试图通过中央调度或消息传递来缓解这一问题,但这些方案要么过于中心化(中央调度成为瓶颈),要么通信效率低下(大量无结构的消息难以被有效利用)。

本文目标:(1) 让智能体能协作设计复杂任务为更易理解的形式;(2) 让每个智能体获取关于其他智能体工作方式的结构化知识;(3) 通过交互式知识更新实现真正的协同任务执行。

切入角度:作者从人类团队协作的角度出发——高效的团队不仅每个人知道自己要做什么,还了解队友的能力和工作方式。通过将"对他人工作方式的理解"形式化为结构化知识描述(Knowledge of Others),每个智能体可以主动调整自己的策略以更好地配合团队。

核心 idea:让多智能体系统中的每个成员同时维护两类知识——自身任务知识和对他人工作方式的结构化理解——并通过迭代交互不断更新这些知识,实现从"分工"到"协作"的质变。

方法详解

整体框架

ACT 框架的工作流程分为两个主要阶段:(1) 协作任务设计阶段——多个智能体共同将复杂任务转化为更容易理解和执行的形式,而非简单地由某个调度器拆分子任务;(2) 知识增强的任务执行阶段——每个智能体在执行自身子任务的同时,获取并利用关于其他智能体处理方式的结构化知识,并通过多轮交互不断精化自己的知识和任务执行策略。

关键设计

  1. 协作式任务设计(Collaborative Task Design):

    • 功能:让多个智能体共同参与复杂任务的分解和设计,而非由单一调度器完成
    • 核心思路:首先由所有智能体共同审视复杂任务的全局目标,每个智能体从自身专业视角提出对任务结构的理解和建议。然后通过协商过程,将复杂任务分解为多个相互关联的子任务,同时明确子任务之间的依赖关系和接口规范。每个智能体在这一过程中既是任务的设计者也是将来的执行者,确保了任务设计与执行能力的匹配
    • 设计动机:传统的自上而下任务分解忽略了各执行者的实际能力和偏好,协作设计让每个智能体都对整体任务有全局理解,为后续高效执行奠定基础
  2. 他者知识获取(Knowledge of Others):

    • 功能:让每个智能体建立对其他智能体工作方式的结构化理解
    • 核心思路:定义一种结构化的知识表示形式——"基于本智能体自身任务解决方式的视角下,对其他智能体如何处理其任务的描述"。具体来说,对于智能体 A,其关于智能体 B 的知识不是简单的"B 在做什么",而是"从 A 的任务角度来看,B 的工作方式如何影响 A 的策略选择"。这种以自我为中心的结构化知识表示使得知识可以被直接用于指导自身任务的执行
    • 设计动机:无结构的信息交换(如直接传递原始输出)信噪比低,接收方需要自行过滤和理解。结构化知识描述将信息预处理为对接收方有直接参考价值的形式,大幅提升了信息利用效率
  3. 迭代知识更新与任务精化:

    • 功能:通过多轮智能体间的交互,不断更新知识和改进任务执行
    • 核心思路:在每一轮迭代中,各智能体先执行当前版本的子任务得到中间结果,再将自己的执行策略和中间结果共享给其他智能体。每个智能体根据收到的信息更新其"他者知识",并据此调整自己的执行策略。通过参考更新后的结构化知识,各智能体有效整合彼此的中间输出来协同解决复杂任务。这种迭代过程持续进行直到各智能体的策略趋于稳定或达到预设的轮数
    • 设计动机:一次性的信息交换往往不够——在第一轮中,各智能体对他人的理解可能不准确。通过迭代更新,知识描述越来越准确,智能体间的协同越来越高效,最终输出的整合质量也越来越好

训练策略

ACT 是一个无需额外训练的框架(training-free),直接基于现有 LLM 的推理和对话能力。知识表示和更新通过精心设计的 prompt 模板实现,智能体间的通信协议通过结构化的 JSON 或文本格式规范。

实验关键数据

主实验

论文在三个不同类型的复杂任务上进行了评估:

任务类型 评估指标 ACT AutoGen CAMEL MetaGPT
创意写作 质量评分/连贯性 最高 中等 中等 中等
工具使用 任务完成率 最高 中等 较低 中等
综合评估 整体得分 最高 次高 中等 中等

消融实验

配置 任务完成质量 说明
ACT 完整框架 最佳 协作设计 + 他者知识 + 迭代更新
去除他者知识 明显下降 退化为独立执行子任务
去除协作设计 中等下降 任务分解质量降低
去除迭代更新(仅一轮) 下降 知识不够准确
随机任务分配 最差 无协作行为

关键发现

  • "他者知识"是 ACT 最关键的组件——去除后性能下降最为显著,说明智能体间的相互理解对协同至关重要
  • 迭代更新通常在 2-3 轮后收敛,过多轮次带来边际收益递减但计算成本线性增长
  • 在创意写作任务中,ACT 的优势尤为明显——因为创意写作要求各部分高度连贯和风格一致,而他者知识帮助各智能体统一了创作方向
  • 工具使用任务中,协作设计的贡献更大——因为工具调用的依赖关系需要在设计阶段就被准确识别

亮点与洞察

  • 以自我为中心的他者知识表示:不是简单地共享"你在做什么",而是建模"从我的角度看你的做法如何影响我"。这种自我参照的知识结构比原始信息传递更有效率,因为它已经被接收方的上下文过滤和组织过了
  • 协作设计 vs 自上而下分解:让执行者参与任务设计是软件工程中的成熟实践(如敏捷开发中的 Sprint Planning),本文首次将这一理念系统化地引入 LLM 多智能体框架
  • 框架的即插即用特性:ACT 不需要额外训练,可以直接与任何足够强的 LLM 配合使用,这大大降低了部署门槛

局限与展望

  • 框架的效果高度依赖底层 LLM 的能力——如果 LLM 无法准确理解和生成结构化知识描述,整个框架将退化
  • 智能体数量增加时,"他者知识"的维护成本呈平方增长(每个智能体需要维护 \(N-1\) 份他者知识),可扩展性存在瓶颈
  • 论文中的评估任务规模相对有限,更大规模、更长周期的复杂任务(如多天的软件开发项目)中的表现有待验证
  • 结构化知识描述的格式目前依赖手工 prompt 设计,未来可以探索自动学习最优知识表示格式
  • 可以考虑引入动态角色分配——让智能体在迭代过程中根据任务进展重新调整角色和子任务划分

相关工作与启发

  • vs AutoGen: AutoGen 使用对话式交互让智能体协作,但缺乏结构化的知识共享机制。ACT 的他者知识提供了更高效的信息传递通道
  • vs MetaGPT: MetaGPT 通过标准化输出(如文档、UML 图)实现智能体间信息共享,但这些标准化产物是面向任务的,而非面向队友理解的。ACT 的他者知识是显式为协作优化的
  • vs CAMEL: CAMEL 使用角色扮演驱动的交互,每个智能体遵循预设角色行为。ACT 让智能体动态获取并利用关于他人的知识,适应性更强
  • 与组织管理理论的关联:ACT 的设计思路与管理学中的"跨功能团队"概念high相似——团队成员需要T-shaped skills(深耕本领域+了解相关领域)

评分

  • 新颖性: ⭐⭐⭐⭐ "他者知识"的概念和自我参照型知识表示是新颖的设计,为多智能体协作提供了新维度
  • 实验充分度: ⭐⭐⭐⭐ 三种不同类型任务的评估覆盖面广,消融实验清晰地展示了各组件贡献
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,框架描述详细(30 页长文)
  • 价值: ⭐⭐⭐⭐ 对多智能体系统的协作机制设计有直接的指导意义

相关论文