跳转至

Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration

会议: ACL 2025
arXiv: 2502.11882
代码: https://github.com/sjtu-marl/DPT-Agent
领域: LLM Agent
关键词: 双过程理论, 实时协作, 人机协同, 心智理论, 有限状态机

一句话总结

提出 DPT-Agent,首个将双过程理论(Dual Process Theory)系统化地融入语言智能体框架的方法——用有限状态机(FSM)+code-as-policy 作为快速直觉的 System 1,用心智理论(ToM)+异步反思的 LLM 作为慢速深思的 System 2,首次实现了自主的实时同步人机协作(在 Overcooked 困难版中)。

研究背景与动机

  1. 领域现状:LLM 智能体在轮流式(turn-by-turn)人机协作中表现出色(如写作、编码),但在需要实时同步的任务(如共享空间中的协作操作)中面临严重挑战。
  2. 现有痛点:(a) 延迟问题——大模型推理能力强但延迟高(如 o3-mini 思考时间太长),小模型响应快但能力差(得分效率接近零);(b) 自主性不足——大多数协作框架仍需人类输入才能行动,无法主动推断人类意图并适应;(c) 策略适应性差——LLM 难以应对人类合作者动态变化的策略。
  3. 核心矛盾:性能与延迟的不可调和——强推理能力的模型太慢无法实时响应,快速响应的模型能力不足无法有效行动。
  4. 本文要解决什么? 在保证实时响应的同时实现自主的人机同步协作。
  5. 切入角度:将认知心理学的双过程理论操作化——System 1 用 FSM 实现毫秒级决策(不依赖 LLM 推理),System 2 用 LLM 做异步深度思考(不阻塞行动)。两个系统并行运行、互相指导。
  6. 核心idea一句话:FSM 快速行动 + LLM 异步思考 + ToM 推断人类意图 = 实时自主人机协作。

方法详解

整体框架

DPT-Agent 由两个并行系统组成:(1) System 1(快系统)——FSM 驱动的低层行动决策,用 code-as-policy 编码 System 2 的策略指导,实现毫秒级响应;(2) System 2(慢系统)——LLM 驱动的高层推理,包含 Theory of Mind(推断人类意图)和异步反思(从经验中学习改进策略),以代码形式将推理结果传递给 System 1。

关键设计

  1. FSM + Code-as-Policy 的 System 1:
  2. 做什么:在不等待 LLM 推理的情况下做出实时行动决策
  3. 核心思路:预定义有限状态机描述基本行为模式(如"取材料→加工→送餐"),System 2 通过生成控制代码(code-as-policy)动态修改 FSM 的状态转移规则,间接控制 System 1 的行为
  4. 设计动机:FSM 的状态转移是 O(1) 复杂度,远快于 LLM 推理。code-as-policy 让慢思考的结果可以立即被快行动系统执行

  5. Theory of Mind (ToM) 的 System 2:

  6. 做什么:主动推断人类合作者的意图和策略
  7. 核心思路:LLM 根据观察到的人类行为轨迹,推断人类的当前目标和偏好策略,据此调整自身策略以配合——如推断"人类正在准备汤料"则自己去送上一轮的餐
  8. 设计动机:真实协作中人类不会显式告诉 AI 自己的策略——需要 AI 像人类推断合作伙伴一样推断人类

  9. 异步反思机制:

  10. 做什么:在不阻塞行动的情况下从经验中学习
  11. 核心思路:System 2 的反思过程在后台异步执行——当 System 1 按当前策略行动时,System 2 分析最近的行为序列和环境反馈,识别低效模式并更新策略代码。更新完成后自动推送到 System 1
  12. 设计动机:同步反思会阻塞行动导致延迟增加;异步设计让学习和行动并行

损失函数 / 训练策略

  • 无需训练——纯推理时框架
  • System 1 的 FSM 预定义 + System 2 的 LLM 生成代码动态更新
  • 支持多种 LLM 骨干(GPT-4o、Llama-3.3-70B、DeepSeek-R1 等)

实验关键数据

主实验(与规则代理协作,Overcooked 困难版)

方法 Map 1 得分 Map 2 得分 说明
FSM (上限参考) 硬编码最优
ReAct (GPT-4o) 中低 中低 延迟导致错过行动
Reflexion (GPT-4o) 反思改进但仍受延迟限制
DPT-Agent (GPT-4o) 最高 最高 快慢系统协同

与人类协作实验

方法 Map 1 得分 Map 2 得分 人类感知排名
ReAct
Reflexion 中低
DPT-Agent w/o ToM 中高 中高
DPT-Agent 最高 最高 最高

消融实验

配置 效果 说明
w/o ToM 性能下降(尤其与人类协作时) ToM 对适应人类策略至关重要
w/o 异步反思 性能下降 无法从经验中改进
推理模型(o3-mini)在常规框架 得分极低 延迟太高,思考越久行动越少
推理模型(DeepSeek-R1) + DPT-Agent 性能显著恢复 DPT框架有效将慢思考转化为快行动

关键发现

  • DPT-Agent 是首个在 Overcooked 困难版中实现成功实时人机同步协作的智能体框架
  • 推理模型(o3-mini、DeepSeek-R1)在独立使用时因延迟导致失败,但在 DPT-Agent 框架下性能大幅恢复——证明了 DPT 框架"将正确思考转化为有效行动"的能力
  • ToM 模块在与人类协作时贡献最大——推断人类意图使得 agent 能主动配合而非被动等指令
  • 人类评估者在主观排名中一致给 DPT-Agent 最高——验证了真实协作体验的提升
  • FSM 作为 System 1 实现了毫秒级响应——彻底解决了延迟瓶颈

亮点与洞察

  • 将双过程理论完整操作化为智能体架构是核心贡献——不是简单的"大小模型组合",而是 FSM(非 LLM)+ LLM 的异构协同,真正实现了"快慢分离"。之前的工作用小 LLM 做 System 1 仍然受限于 LLM 推理延迟。
  • Code-as-policy 作为快慢系统的接口巧妙——System 2 生成代码修改 System 1 的 FSM 规则,实现了"慢思考指导快行动"的传递机制。
  • 异步反思消除了"思考就停止行动"的问题——在实时任务中这是关键。
  • 推理模型 + DPT-Agent 的组合揭示了推理模型的新使用范式——不让推理模型直接行动,而是让它异步提供策略指导。
  • ToM 的"功能性"实现(推断→决策→行动的闭环)超越了之前 LLM 的"思考性"ToM(推断了但没用于决策)。

局限性 / 可改进方向

  • FSM 需要为每个新任务手动设计状态空间——限制了通用性
  • 目前仅在 Overcooked 环境验证——更复杂的真实世界任务需要验证
  • ToM 的准确性取决于 LLM 的推断能力——某些模型(如 Llama-70B)的 ToM 反而损害性能
  • 异步反思的更新频率需要手动调节
  • 未探索多个 AI 之间的同步协作(仅研究了人-AI 协作)

相关工作与启发

  • vs ReAct/Reflexion: 同步推理+行动导致延迟不可接受;DPT-Agent 的异步设计解决了这个问题
  • vs 大小模型组合(Liu et al. 2024): 之前用小 LLM 做 System 1 仍有延迟;DPT-Agent 用 FSM 完全消除了 System 1 的推理延迟
  • vs VirSci(多智能体 idea 生成): VirSci 的多智能体协作是非实时的;DPT-Agent 解决了实时约束下的协作
  • 对游戏AI、机器人协作、自动驾驶等实时决策场景有直接参考价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次完整操作化双过程理论,FSM+LLM 异构协同设计独特
  • 实验充分度: ⭐⭐⭐⭐⭐ 规则代理+真人实验+主观评估+消融+多模型对比
  • 写作质量: ⭐⭐⭐⭐ 动机分析数据驱动(Figure 2 的延迟-性能分析),框架图清晰
  • 价值: ⭐⭐⭐⭐⭐ 对实时人机协作和 LLM Agent 架构有重大贡献