Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs¶

日期: 2026-03-09
arXiv: 2603.07972
代码: GitHub
领域: LLM Agent
关键词: 多智能体协作, 人机协同, 元认知策略, 持续学习, 强化学习

一句话总结¶

提出 HILA 框架，通过元认知策略优化让多 Agent 系统学会何时自主解题、何时求助人类专家，配合双循环策略优化（内循环 RL 优化决策 + 外循环持续学习吸收专家知识），打破纯自治多 Agent 系统的知识天花板。

研究背景与动机¶

现状：多智能体系统（MAS）通过协调多个 LLM Agent 解决复杂问题已成为前沿方向，涌现了辩论、拓扑控制、工作流图优化等框架
痛点：纯自治 MAS 本质上是"封闭世界"系统，知识边界被预训练语料限定。无论交互协议多精巧，Agent 只能重组已有信息，无法生成新知识或适应未见过的情境
矛盾：现有 human-in-the-loop 系统要么依赖启发式规则（如低置信度阈值）决定何时求助，要么将人类反馈视为一次性修补而非持续能力增长的催化剂
切入角度：关键挑战不是 Agent 能否与人类交互，而是能否"智能地、策略性地"交互——需要一个元认知策略，推理自身能力和同伴能力，指导协作
核心idea：引入元认知策略让 Agent 自主决定何时求助专家（when to ask），并通过持续学习将专家反馈转化为永久能力提升（how to grow）

方法详解¶

整体框架¶

HILA (Human-In-the-Loop Multi-Agent Collaboration) 包含三个协调组件： 1. 自主操作：Agent 首先用当前能力尝试解题 2. 元认知评估：评估自身置信度和任务难度，识别知识边界 3. 策略性延迟：在需要时调用外部专家作为精准干预

配合 DLPO (Dual-Loop Policy Optimization) 训练框架： - 内循环：GRPO + cost-aware reward 在线优化延迟行为 - 外循环：将 Defer 触发的专家反馈转化为 SFT 信号持续学习

关键设计¶

模块 1：结构化认知状态空间

做什么：构建包含任务上下文、自身上下文、对等上下文的多源信息状态表示
核心思路：\(s_t = \text{concat}(\mathbf{x}^{\text{task}}_t, \mathbf{x}^{\text{self}}_t, \mathbf{x}^{\text{peer}}_t, \mathbf{z}^{\text{soc}}_t, \mathbf{z}^{\text{mon}}_t, \mathbf{z}^{\text{ctrl}}_t)\)
设计动机：元认知决策不应仅基于局部响应，需全面考虑任务语境、自身推理状态和同伴证据。额外增加社会共识、元认知监控、元认知控制三种结构化信号

模块 2：策略性动作空间

做什么：定义三种高层认知策略——Evaluate（利用集体知识）、Create（探索新解）、Defer（求助专家）
核心思路：
Eval：从同伴已有方案中选择最优，利用集体智慧
Create：判断当前方案池不足时，从头生成新的推理路径
Defer：认识到系统能力边界，触发人类专家介入
设计动机：Defer 行为具有双重角色——即时的风险缓解（确保在不确定性下的进展）和长期的知识增强（引入高质量样本用于持续学习）

模块 3：双循环策略优化 (DLPO)

做什么：内循环用 GRPO 优化元认知决策，外循环用 SFT 吸收专家知识
核心思路：
内循环奖励：\(R(s_t, a_t) = R_{gt} - C_{action}\)，其中 \(C_{defer} > C_{create} \geq 0\)
外循环：仅在 Defer 时激活，\(\mathcal{L}_{SFT} = -\sum_i \log \pi_\theta(t_i | s_t, t_{1:i-1})\)
设计动机：RL 单独无法突破基础 LLM 的知识天花板（只改善决策策略不引入新技能），SFT 外循环通过专家示范引入全新知识

损失函数 / 训练策略¶

总优化目标：

\[\mathcal{L}_{\text{total}}(\theta) = \mathbb{E}_{(s_t, a_t)}\left[\mathcal{L}_{\text{Inner}}(\theta) + \lambda_{\text{sft}} \cdot \mathbb{I}(a_t = a^{\text{defer}}) \cdot \mathcal{L}_{\text{SFT}}(\theta)\right]\]

内循环：\(\mathcal{L}_{\text{Inner}} = \mathcal{L}_{\text{PG}} + \beta_{kl}\mathcal{L}_{\text{KL}} - \beta_{ent}\mathcal{L}_{\text{Entropy}}\)
使用 GPT-4o-mini 作为代理人类专家模拟人类干预

实验关键数据¶

主实验：LLaMA3-8B backbone (%)¶

方法	类型	GSM8K	AMC	AIME	HumanEval	MMLU
Vanilla	SA	72.76	8.03	2.96	47.56	57.99
CoT	SA	74.22	11.65	3.70	51.42	61.57
SC	SA	80.79	12.45	4.07	57.52	68.30
Debate	MA	83.52	19.28	5.56	57.72	67.59
GPTSwarm	MA	84.89	15.66	5.78	59.55	69.67
AFlow	MA	83.75	12.05	4.44	62.20	69.31
HILA	MA	89.86	35.83	9.37	72.15	73.62

跨 Backbone 泛化 (GSM8K %)¶

方法	Qwen2.5-7B	Qwen2.5-3B	LLaMA3-8B	LLaMA3-3B
Vanilla	90.71	83.25	72.76	45.26
CoT	91.13	84.36	74.22	52.49
HILA	最优	最优	89.86	最优

关键发现¶

HILA 在 LLaMA3-8B 上全面超越所有自治 MAS baseline，绝对提升 3.7 到 15.4 个百分点
在竞赛级数学 benchmark 上增益最大：AMC +24.47%，AIME +6.41%——正是最需要外部知识的场景
跨 backbone 泛化良好（Qwen 和 LLaMA 家族，3B 和 7B/8B 规模）
对弱模型增益更大，说明 HILA 能有效弥补基础推理能力的不足
Defer 行为的成本惩罚设计使 Agent 不会过度依赖专家

亮点与洞察¶

打破封闭世界范式：不同于现有 MAS 在固定知识池内重组信息，HILA 通过战略性人类介入引入真正的新知识
元认知策略的形式化：将"何时求助"从启发式规则提升为可学习的 RL 策略，建立了严谨的 Meta-MDP 形式化框架
双循环设计的巧妙解耦：内循环优化"用好现有能力"，外循环实现"获取新能力"，两者互补且互不干扰
Defer 的双重价值：既是即时的风险缓解机制，又是长期能力增长的数据来源，一举两得

局限性 / 可改进方向¶

使用 GPT-4o-mini 模拟人类专家，实际人类交互的噪声、延迟、成本等因素未考虑
Defer 的成本设置为固定超参数，实际场景中人类干预成本可能动态变化
外循环 SFT 可能存在灾难性遗忘风险，尤其在大量 Defer 场景下
实验主要在数学推理和编程任务上验证，开放式创意任务、主观任务的适用性待验证
多 Agent 之间的角色分化和专长发展未深入探索

评分¶

⭐⭐⭐⭐⭐ 新颖性：元认知策略优化 + 双循环持续学习的结合是全新的范式
⭐⭐⭐⭐ 实验充分度：多 benchmark、多 backbone 验证充分，但缺乏真实人类实验
⭐⭐⭐⭐ 写作质量：形式化严谨，框架介绍系统完整，图示清晰
⭐⭐⭐⭐⭐ 价值：为 human-agent 协作提供了原则性框架，对持续进化的 Agent 系统有重要启示