Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration¶

会议: ACL 2025
arXiv: 2502.11882
代码: https://github.com/sjtu-marl/DPT-Agent
领域: LLM Agent
关键词: 双过程理论, 实时协作, 人机协同, 心智理论, 有限状态机

一句话总结¶

提出 DPT-Agent，首个将双过程理论（Dual Process Theory）系统化地融入语言智能体框架的方法——用有限状态机(FSM)+code-as-policy 作为快速直觉的 System 1，用心智理论(ToM)+异步反思的 LLM 作为慢速深思的 System 2，首次实现了自主的实时同步人机协作（在 Overcooked 困难版中）。

研究背景与动机¶

领域现状：LLM 智能体在轮流式（turn-by-turn）人机协作中表现出色（如写作、编码），但在需要实时同步的任务（如共享空间中的协作操作）中面临严重挑战。
现有痛点：(a) 延迟问题——大模型推理能力强但延迟高（如 o3-mini 思考时间太长），小模型响应快但能力差（得分效率接近零）；(b) 自主性不足——大多数协作框架仍需人类输入才能行动，无法主动推断人类意图并适应；(c) 策略适应性差——LLM 难以应对人类合作者动态变化的策略。
核心矛盾：性能与延迟的不可调和——强推理能力的模型太慢无法实时响应，快速响应的模型能力不足无法有效行动。
本文要解决什么？ 在保证实时响应的同时实现自主的人机同步协作。
切入角度：将认知心理学的双过程理论操作化——System 1 用 FSM 实现毫秒级决策（不依赖 LLM 推理），System 2 用 LLM 做异步深度思考（不阻塞行动）。两个系统并行运行、互相指导。
核心idea一句话：FSM 快速行动 + LLM 异步思考 + ToM 推断人类意图 = 实时自主人机协作。

方法详解¶

整体框架¶

DPT-Agent 由两个并行系统组成：(1) System 1（快系统）——FSM 驱动的低层行动决策，用 code-as-policy 编码 System 2 的策略指导，实现毫秒级响应；(2) System 2（慢系统）——LLM 驱动的高层推理，包含 Theory of Mind（推断人类意图）和异步反思（从经验中学习改进策略），以代码形式将推理结果传递给 System 1。

关键设计¶

FSM + Code-as-Policy 的 System 1:
做什么：在不等待 LLM 推理的情况下做出实时行动决策
核心思路：预定义有限状态机描述基本行为模式（如"取材料→加工→送餐"），System 2 通过生成控制代码（code-as-policy）动态修改 FSM 的状态转移规则，间接控制 System 1 的行为
设计动机：FSM 的状态转移是 O(1) 复杂度，远快于 LLM 推理。code-as-policy 让慢思考的结果可以立即被快行动系统执行
Theory of Mind (ToM) 的 System 2:
做什么：主动推断人类合作者的意图和策略
核心思路：LLM 根据观察到的人类行为轨迹，推断人类的当前目标和偏好策略，据此调整自身策略以配合——如推断"人类正在准备汤料"则自己去送上一轮的餐
设计动机：真实协作中人类不会显式告诉 AI 自己的策略——需要 AI 像人类推断合作伙伴一样推断人类
异步反思机制:
做什么：在不阻塞行动的情况下从经验中学习
核心思路：System 2 的反思过程在后台异步执行——当 System 1 按当前策略行动时，System 2 分析最近的行为序列和环境反馈，识别低效模式并更新策略代码。更新完成后自动推送到 System 1
设计动机：同步反思会阻塞行动导致延迟增加；异步设计让学习和行动并行

损失函数 / 训练策略¶

无需训练——纯推理时框架
System 1 的 FSM 预定义 + System 2 的 LLM 生成代码动态更新
支持多种 LLM 骨干（GPT-4o、Llama-3.3-70B、DeepSeek-R1 等）

实验关键数据¶

主实验（与规则代理协作，Overcooked 困难版）¶

方法	Map 1 得分	Map 2 得分	说明
FSM (上限参考)	高	高	硬编码最优
ReAct (GPT-4o)	中低	中低	延迟导致错过行动
Reflexion (GPT-4o)	中	中	反思改进但仍受延迟限制
DPT-Agent (GPT-4o)	最高	最高	快慢系统协同

与人类协作实验¶

方法	Map 1 得分	Map 2 得分	人类感知排名
ReAct	低	低	低
Reflexion	中	中低	中
DPT-Agent w/o ToM	中高	中	中高
DPT-Agent	最高	最高	最高

消融实验¶

配置	效果	说明
w/o ToM	性能下降（尤其与人类协作时）	ToM 对适应人类策略至关重要
w/o 异步反思	性能下降	无法从经验中改进
推理模型(o3-mini)在常规框架	得分极低	延迟太高，思考越久行动越少
推理模型(DeepSeek-R1) + DPT-Agent	性能显著恢复	DPT框架有效将慢思考转化为快行动

关键发现¶

DPT-Agent 是首个在 Overcooked 困难版中实现成功实时人机同步协作的智能体框架
推理模型（o3-mini、DeepSeek-R1）在独立使用时因延迟导致失败，但在 DPT-Agent 框架下性能大幅恢复——证明了 DPT 框架"将正确思考转化为有效行动"的能力
ToM 模块在与人类协作时贡献最大——推断人类意图使得 agent 能主动配合而非被动等指令
人类评估者在主观排名中一致给 DPT-Agent 最高——验证了真实协作体验的提升
FSM 作为 System 1 实现了毫秒级响应——彻底解决了延迟瓶颈

亮点与洞察¶

将双过程理论完整操作化为智能体架构是核心贡献——不是简单的"大小模型组合"，而是 FSM（非 LLM）+ LLM 的异构协同，真正实现了"快慢分离"。之前的工作用小 LLM 做 System 1 仍然受限于 LLM 推理延迟。
Code-as-policy 作为快慢系统的接口巧妙——System 2 生成代码修改 System 1 的 FSM 规则，实现了"慢思考指导快行动"的传递机制。
异步反思消除了"思考就停止行动"的问题——在实时任务中这是关键。
推理模型 + DPT-Agent 的组合揭示了推理模型的新使用范式——不让推理模型直接行动，而是让它异步提供策略指导。
ToM 的"功能性"实现（推断→决策→行动的闭环）超越了之前 LLM 的"思考性"ToM（推断了但没用于决策）。

局限性 / 可改进方向¶

FSM 需要为每个新任务手动设计状态空间——限制了通用性
目前仅在 Overcooked 环境验证——更复杂的真实世界任务需要验证
ToM 的准确性取决于 LLM 的推断能力——某些模型（如 Llama-70B）的 ToM 反而损害性能
异步反思的更新频率需要手动调节
未探索多个 AI 之间的同步协作（仅研究了人-AI 协作）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次完整操作化双过程理论，FSM+LLM 异构协同设计独特
实验充分度: ⭐⭐⭐⭐⭐ 规则代理+真人实验+主观评估+消融+多模型对比
写作质量: ⭐⭐⭐⭐ 动机分析数据驱动（Figure 2 的延迟-性能分析），框架图清晰
价值: ⭐⭐⭐⭐⭐ 对实时人机协作和 LLM Agent 架构有重大贡献