跳转至

Agentic Knowledgeable Self-Awareness

会议: ACL 2025
arXiv: 2504.03553
代码: https://github.com/zjunlp/KnowSelf
领域: LLM Agent / 智能体规划
关键词: agent planning, self-awareness, special tokens, knowledge utilization, two-stage training

一句话总结

本文提出 KnowSelf,一种数据驱动方法,通过在 agent 自探索轨迹上标注特殊 token 来标识不同思维情境(快速思考/慢速思考/知识思考),经两阶段训练(SFT + RPO)使 agent 模型学会自主判断何时需要调用外部知识,以最小知识消耗代价达到最优规划效果。

研究背景与动机

LLM-based agent 在 ALFWorld、WebShop 等交互式规划任务上取得了显著进展,但现有方法普遍采用"大水漫灌"式的训练策略——不加区分地向模型注入黄金轨迹、外部反馈和领域知识。这种做法忽略了人类决策中的一个基本认知原则:情境自我意识(situational self-awareness)——即在决策时动态评估情境需求并策略性地调配认知资源的能力。

换言之,人类在做决策时会自动判断:这个步骤是简单的、可以快速直觉完成的,还是复杂的、需要停下来仔细思考的,还是超出自身能力、需要查阅外部资料的。现有 agent 训练方法缺乏这种自适应能力——要么完全不给知识(能力受限),要么每步都灌入知识(代价高昂、引入噪声)。

核心矛盾:知识利用的粒度控制——如何让 agent 模型像人一样"知道自己什么时候需要什么"?

切入角度:提出 agentic knowledgeable self-awareness 范式,将问题转化为让模型学会生成特殊 token 来标识当前所处的思维情境,从而自主调控知识利用策略。

方法详解

整体框架

KnowSelf 的 pipeline 分为三个阶段: 1. 知识系统构建:生成步级轨迹对,通过比较分析生成并整合领域知识库 2. 训练数据构建:让模型自探索生成轨迹,用启发式准则标注特殊 token,构造三种思维模式的训练数据 3. 两阶段训练:Stage 1 用 SFT 学习特殊 token 生成;Stage 2 用 RPO 强化偏好对齐

关键设计

  1. 三种思维情境与特殊 Token(Situation Classification):

    • 功能:将 agent 的每个决策步骤分类为三种思维模式
    • 核心思路:定义三种情境及对应的特殊 token:
      • 快速思考(Fast Thinking) [FAST]:当前步骤简单,模型可直接凭已有能力快速决策,不需要额外停顿或知识
      • 慢速思考(Slow Thinking) [SLOW]:当前步骤较难,模型需要仔细反思后再行动(类似 System 2 思维),但不需要外部知识
      • 知识思考(Knowledgeable Thinking) [KNOW]:当前步骤超出模型能力,需要检索并利用外部知识库中的信息来辅助决策
    • 设计动机:这种分类直接对应人类认知的 dual process theory(快/慢系统),加上知识检索维度。通过特殊 token 实现了轻量级的行为切换,避免了复杂的路由网络或额外分类器
  2. 启发式情境判断准则(Heuristic Situation Judgement):

    • 功能:自动标注训练数据中每一步应使用哪种思维模式
    • 核心思路:让模型先自主探索任务生成轨迹,构造"步级轨迹对"——同一任务状态下的成功/失败动作对。标注逻辑如下:
      • 如果模型自主决策成功 → 标注为 [FAST]
      • 如果模型决策失败,但经过反思(reflection)后能自行纠正 → 标注为 [SLOW]
      • 如果模型决策失败,反思后仍无法纠正,但给予外部知识后能成功 → 标注为 [KNOW]
    • 设计动机:通过失败驱动的标注,精确捕获了模型的能力边界——只有在模型真正"不会"的地方才引入知识,避免无谓的知识注入
  3. 知识系统构建(Knowledge System Construction):

    • 功能:为 agent 构建可查询的领域知识库
    • 核心思路:参考 AutoManual 方法,使用 GPT-4o(2024-08-06)通过步级轨迹对比分析生成知识条目,然后进行知识整合去重。ALFWorld 限制为 24 条知识,WebShop 限制为 10 条
    • 设计动机:精炼的知识库确保每条知识都是高价值的,避免知识冗余导致的检索噪声。知识条目限制也鼓励模型更依赖自身能力而非外部知识
  4. 两阶段训练(Two-Stage Training):

    • 功能:分阶段让模型学会生成特殊 token 并优化行为
    • 核心思路:
      • Stage 1 — SFT(监督微调):在标注了特殊 token 的混合数据上进行标准因果语言建模训练。数据包含三种思维模式的样本,模型学会在适当时机生成 [FAST]/[SLOW]/[KNOW]。训练参数:Llama-3.1-8B 为例,lr=2e-5, batch_size=8, 3 epochs, max_seq_len=3072
      • Stage 2 — RPO(Rejection-sampling Policy Optimization):收集 Stage 1 模型的失败轨迹作为负样本,配对对应的黄金轨迹作为正样本,进行偏好优化。\(\beta=0.5\), lr=5e-7, 1 epoch
    • 设计动机:Stage 1 让模型学会"基本形式"(何时生成什么 token),Stage 2 通过对比训练进一步校准模型的决策质量,特别是减少关键步骤的失误率

推理流程

推理时,模型在每步决策前自动生成特殊 token: - 生成 [FAST] → 直接输出动作 - 生成 [SLOW] → 先生成内部反思,再输出动作 - 生成 [KNOW] → 用 DeepSeek-V3 从知识库中检索相关知识,将知识注入上下文后再输出动作

实验关键数据

主实验

任务 模型 方法 成功率 外部知识使用步数
ALFWorld Llama-3.1-8B ReAct ~30% 0
ALFWorld Llama-3.1-8B Reflexion ~45% 0
ALFWorld Llama-3.1-8B ETO ~55% 0
ALFWorld Llama-3.1-8B KnowAgent ~60% 全步
ALFWorld Llama-3.1-8B WKM ~62% 全步
ALFWorld Llama-3.1-8B KnowSelf ~70% 仅需少量步
WebShop Llama-3.1-8B ReAct ~25% 0
WebShop Llama-3.1-8B ETO ~40% 0
WebShop Llama-3.1-8B KnowSelf ~50% 仅需少量步

消融实验

配置 ALFWorld成功率 说明
KnowSelf(完整) ~70% 最优
去除 [KNOW](无知识) ~58% 证明知识检索的必要性
去除 [SLOW](无反思) ~63% 慢速思考有明显贡献
全步注入知识(无自主调控) ~62% 知识过量反而有害
仅 Stage 1(无 RPO) ~64% RPO 提升约6个点

关键发现

  • KnowSelf 的知识使用效率远高于基线:在约20-30%的步骤使用外部知识就超越了全步使用知识的方法
  • 全步注入知识反而比选择性使用效果差,验证了"大水漫灌"策略的弊端
  • RPO(Stage 2)主要减少了关键决策点的失误,对简单步骤影响不大
  • KnowSelf 在 Llama-3.1-8B 和 Qwen-2.5-7B 上都有效,展示了方法的通用性
  • 特殊 token 的生成分布与任务难度高度相关:简单任务 [FAST] 多,难任务 [KNOW]

亮点与洞察

  • 特殊 token 作为思维模式开关:极其轻量的设计,仅通过 3 个特殊 token 实现了复杂的自适应行为切换,避免了额外模块的引入
  • 失败驱动的标注策略:只在模型真正失败的地方引入额外计算/知识,完美捕获了能力边界
  • 双过程理论的实践:快速思考/慢速思考的设计与认知科学的 System 1/System 2 理论高度契合
  • 知识检索的按需调控:不是"用不用知识"的二元选择,而是"何时用、用多少"的精细调控

局限与展望

  • 知识系统依赖 GPT-4o 构建,成本和知识质量受限于辅助模型能力
  • 仅在 ALFWorld 和 WebShop 两个任务上验证,需更多真实世界 agent 任务的验证
  • 启发式标注准则可能非最优——模型失败不一定意味着需要知识(可能需要更好的推理策略)
  • 知识库大小(24/10条)人工设定,自适应知识库规模可能更好
  • 特殊 token 的三分类可能过于粗粒度,更细的情境划分(如"需要哪类知识")可能有帮助

相关工作与启发

  • vs KnowAgent (Zhu et al., 2024): KnowAgent 全步使用知识图谱辅助规划,不区分情境;KnowSelf 按需使用知识,效率更高效果更好
  • vs WKM (World Knowledge Model): WKM 也引入外部知识,但同样是全步注入;KnowSelf 证明了选择性注入的优越性
  • vs ETO (Exploratory Training Optimization): ETO 通过探索优化但不使用外部知识;KnowSelf 在 ETO 基础上增加了知识维度和情境意识
  • vs Self-RAG: Self-RAG 用特殊 token 控制检索时机,但针对 QA 任务;KnowSelf 将类似理念拓展到 agent 规划,且增加了慢速思考维度

评分

  • 新颖性: ⭐⭐⭐⭐ 将认知科学的情境自我意识引入agent规划,特殊token设计简洁有效
  • 实验充分度: ⭐⭐⭐⭐ 多个基线对比和消融,但仅两个任务场景略显不足
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,概念类比直观,但公式较少
  • 价值: ⭐⭐⭐⭐ 提出了有实用价值的轻量级知识调控范式,开源代码和数据

相关论文