跳转至

General Agents Contain World Models

会议: ICML 2025
arXiv: 2506.01622
代码: 无公开代码
领域: 人工智能理论 / 强化学习 / Agent
关键词: 世界模型, 目标导向智能体, 强化学习理论, Kolmogorov-Arnold 定理, 可解释性

一句话总结

本文从理论上证明:任何能在多步目标导向任务上泛化的智能体,必然隐式学到了一个其环境的预测模型(世界模型),且该模型可以从智能体的策略中提取出来——智能体越强、目标越复杂,其隐含的世界模型越准确。

研究背景与动机

领域现状:在追求通用人工智能(AGI)的过程中,"是否需要世界模型"一直是核心争论。显式 model-based 方法(如 Dreamer、MuZero)直接学习环境模型进行规划;而 model-free 方法(如 PPO、RT-2)通过端到端学习策略,试图完全绕过世界模型的学习。

现有痛点: - Model-based 方法面临世界模型学习困难——真实环境极其复杂,模型误差会累积 - Model-free 方法在许多任务上已展现出强大泛化能力(如 Gato、RT-2),但有越来越多的证据表明,这些 model-free 的 agent 实际上隐式学习了世界模型(Othello-GPT 等) - 缺乏理论框架来回答:"世界模型对通用 agent 是否必要?"

核心矛盾:Brooks 提出的 "Intelligence without representation" 观点认为,所有智能行为可以在无需显式世界表征的情况下通过感知-行动循环涌现。但这与有限代理需要泛化的事实形成张力——没有环境模型,如何在未见过的长时序目标上做出正确决策?

本文目标:给出一个形式化证明,回答: - 世界模型对通用 agent 是否必要? - 世界模型需要多精确才能支撑给定水平的能力? - 能否从 agent 的策略中提取世界模型?

切入角度:在受控马尔可夫过程(cMP)框架下,定义"有界目标条件 agent"(能以有界遗憾率完成有界深度目标序列的策略),然后作为归约证明——构造算法从 agent 策略中恢复环境转移概率。

核心 idea:任何满足遗憾界(regret bound)的目标条件策略,其自身就包含了一个有界误差的世界模型。学习这样的策略在信息论上等价于学习世界模型。

方法详解

整体框架

本文是一篇理论导向的工作,核心贡献是两个定理及配套算法:

  • 输入:一个目标条件策略 \(\pi(a_t | h_t; \psi)\)
  • 输出:环境转移函数的近似 \(\hat{P}_{ss'}(a)\)
  • 过程:通过向策略查询一系列精心设计的复合目标(either-or 决策),从策略的行为中推断转移概率

关键设计

  1. 受控马尔可夫过程(cMP):

    • 功能:定义了 agent 运行的环境框架——状态空间 \(\mathbf{S}\)、动作空间 \(\mathbf{A}\)、转移函数 \(P_{ss'}(a) = P(S_{t+1}=s'|A_t=a, S_t=s)\)
    • 核心假设(Assumption 1):环境是有限的、不可约的(irreducible,任意状态间可达)、稳态的,且 \(|\mathbf{A}| \geq 2\)
    • 设计动机:这是强化学习理论中最标准的环境假设,确保定理的适用性尽可能广泛。不可约性保证 agent 能在任意两个状态间导航,这对构造复合目标至关重要。
  2. 有界目标条件 Agent(Definition 5):

    • 功能:用最小化假设刻画"通用 agent"——能以有界的失败率完成有界复杂度的目标
    • 核心定义:策略 \(\pi\) 满足: \(P(\tau \models \psi | \pi, s_0) \geq \max_\pi P(\tau \models \psi | \pi, s_0)(1 - \delta)\) 对所有 \(\psi \in \Psi_n\),其中 \(\delta \in [0,1]\) 为最大失败率,\(n\) 为最大目标深度
    • 设计动机
    • 不假设 agent 是最优的(\(\delta > 0\) 允许次优行为)
    • 不假设理性(不要求偏好序等传统理性假设)
    • 仅要求在一定复杂度的目标上有有界的能力——这是对"通用性"最弱的要求
  3. 定理 1:通用 Agent 包含世界模型:

    • 核心结论:对于满足 Definition 5 的 agent,其策略完全确定了一个环境转移概率的近似 \(\hat{P}_{ss'}(a)\),误差满足: \(|\hat{P}_{ss'}(a) - P_{ss'}(a)| \leq 2P_{ss'}(a)\sqrt{\frac{1}{1-\delta} \cdot \frac{1}{n}}\) 对于 \(\delta \ll 1, n \gg 1\),误差缩放为 \(\mathcal{O}(\delta/n) + \mathcal{O}(1/n)\)
    • 关键含义
    • agent 越接近最优(\(\delta \to 0\))→ 世界模型越准确
    • agent 能处理的目标深度越大(\(n \to \infty\))→ 世界模型越准确
    • 即使非最优 agent(\(\delta \sim 1\)),只要能处理足够长的目标序列,就必须学到精确的世界模型
  4. 定理 2:短视 Agent 不需要世界模型:

    • 功能:证明只优化即时结果(\(n=1\))的短视 agent 不需要学习转移概率
    • 核心结论:对于最优短视 agent,从其策略可提取的转移概率界是平凡的(\(\epsilon = 1\))且是紧的
    • 设计动机:界定了世界模型必要性的边界条件——只有多步目标才需要世界模型。这与直觉一致:做单步决策只需知道 \(\arg\max_a P_{ss'}(a)\),无需知道具体概率值。
  5. 算法 1:从策略中提取世界模型:

    • 功能:给出通用无监督算法,从任意满足条件的 agent 策略中恢复转移函数
    • 核心思路:构造两难选择目标 \(\psi_{a,b}(k,n) = \psi_a(k,n) \vee \psi_b(k,n)\)
      • 目标 \(\psi_a\):先执行动作 \(a\),然后转移 \((a,s) \to s'\) 至多 \(k\) 次(共 \(n\) 次尝试)
      • 目标 \(\psi_b\):先执行动作 \(b\),然后转移 \((a,s) \to s'\) 超过 \(k\)
      • 最优 agent 达成各目标的概率由累积二项分布给出,约为 \(P_n(X \leq k)\)\(P_n(X > k)\)
      • 遍历 \(k\) 从 0 到 \(n\),找到 agent 从追求 \(\psi_b\) 切换到追求 \(\psi_a\) 的临界点 \(k^*\)
      • \(k^*\) 近似等于中位数 \(\lfloor P_{ss'}(a)(n+1) \rfloor\),从而求解 \(\hat{P}_{ss'}(a) \approx k^*/n\)
    • 设计动机:这是理论证明的构造性部分——通过设计的目标,将转移概率的估计归约为观察 agent 的行动选择。算法是通用的(对所有满足条件的 agent 和环境都适用)且无监督的(唯一输入是策略 \(\pi\))。

损失函数 / 训练策略

本文是理论工作,不涉及传统意义上的训练。实验部分使用随机生成的 cMP 环境(20 个状态、5 个动作)训练 agent,通过增加训练轨迹长度 \(N_{\text{samples}}\) 来提升 agent 能力。

实验关键数据

主实验:世界模型误差与 Agent 能力的关系

Agent 能力 (\(N_{\max}\) at \(\langle\delta\rangle=0.04\)) 平均模型误差 \(\langle\epsilon\rangle\) 说明
\(N_{\max} = 5\) ~0.25 弱 agent
\(N_{\max} = 10\) ~0.15 中等 agent
\(N_{\max} = 20\) ~0.10 较强 agent
\(N_{\max} = 50\) ~0.05 强 agent

误差缩放为 \(\mathcal{O}(n^{-1/2})\),与定理 1 一致。

消融/鲁棒性实验

实验条件 关键指标 说明
Agent 满足严格 regret bound 误差 \(\sim \mathcal{O}(n^{-1/2})\) 与理论一致
Agent 违反 regret bound(\(\delta=1\) for 部分目标) 平均误差仍然 \(\sim \mathcal{O}(n^{-1/2})\) 定理条件可以放宽
不同环境规模 误差趋势一致 算法普遍适用

关键发现

  1. 理论与实验吻合:即使 agent 在最坏情况下对某些目标完全失败(\(\delta=1\)),只要平均遗憾率足够低,Algorithm 2 仍然能准确恢复转移函数
  2. 误差缩放\(\langle\epsilon\rangle \sim \mathcal{O}(n^{-1/2})\),在 worst-case 和 average-case 下具有相同的缩放行为
  3. Agent 学到的世界模型随能力增长而变精确:增加训练数据 → agent 能处理更长时序目标 → 可提取的世界模型更准确

亮点与洞察

  • 哲学意义深远:从形式上结束了 "model-based vs model-free" 的争论——model-free agent 如果足够通用,自动成为 model-based
  • 证明与被证对象无关:不依赖具体架构(Transformer、RNN 等)或训练方法(PPO、DQN 等),只要满足 regret bound 即适用
  • 解释涌现能力:提供了一种机制——agent 在训练过程中为了最小化目标遗憾,被迫学习世界模型,而世界模型反过来支持向未见任务的泛化
  • 安全启示:可以从足够强的 agent 中提取精确的世界模型用于安全审计——agent 越危险(越强),提取的模型越精确
  • 与逆强化学习的优美对称:IRL 用(策略 + 环境模型)推断目标;规划用(目标 + 环境模型)确定策略;本文用(策略 + 目标)恢复环境模型

局限与展望

  1. 仅适用于完全可观测环境:定理 1 假设环境对 agent 完全可观测——部分可观测环境(POMDP)下是否成立尚不清楚
  2. 证明的是世界模型的存在而非使用:agent 可能包含世界模型但没有用它来规划(如 reflex agent)
  3. 可扩展性:Algorithm 1 需要对每个 \((s,a,s')\) 三元组单独查询策略,在大状态空间中计算开销大
  4. 连续状态/动作空间:当前分析限于离散且有限的状态和动作空间
  5. 提取的是"客观"世界模型:不一定反映 agent 实际使用的"主观"世界模型

相关工作与启发

  • Good Regulator 定理 (Conant & Ashby, 1970):尝试证明类似结论但存在缺陷——仅证明了确定性策略的存在,不等于学习了世界模型
  • 机械可解释性(Othello-GPT, Li et al., 2022):从激活中发现隐式世界模型。本文从更弱的假设(只需策略,不需内部激活)得出更强的结论
  • 逆强化学习(Ng & Russell, 2000):互补关系——IRL 从策略+世界模型推断奖励,本文从策略+目标推断世界模型
  • 因果世界模型 (Richens & Everitt):domain generalization 需要因果模型(比转移概率更强),task generalization 只需转移概率
  • 启发:这一理论框架可以用于:(a) 为 foundation model agent 建立能力边界;(b) 开发从 LLM agent 中提取世界知识的新方法;(c) 为 AI safety 提供从 agent 能力到世界模型精度的形式化保证

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次严格证明 "通用 agent 必须包含世界模型",解决了领域的根本问题
  • 实验充分度: ⭐⭐⭐ 主要是理论工作,实验为验证性的小规模实验
  • 写作质量: ⭐⭐⭐⭐⭐ 定义精确、定理清晰、讨论深入,哲学含义阐述到位
  • 价值: ⭐⭐⭐⭐⭐ 对 RL 理论、AI safety、可解释性都有深远影响

相关论文