General Agents Contain World Models¶

会议: ICML 2025
arXiv: 2506.01622
代码: 无公开代码
领域: 人工智能理论 / 强化学习 / Agent
关键词: 世界模型, 目标导向智能体, 强化学习理论, Kolmogorov-Arnold 定理, 可解释性

一句话总结¶

本文从理论上证明：任何能在多步目标导向任务上泛化的智能体，必然隐式学到了一个其环境的预测模型（世界模型），且该模型可以从智能体的策略中提取出来——智能体越强、目标越复杂，其隐含的世界模型越准确。

研究背景与动机¶

领域现状：在追求通用人工智能（AGI）的过程中，"是否需要世界模型"一直是核心争论。显式 model-based 方法（如 Dreamer、MuZero）直接学习环境模型进行规划；而 model-free 方法（如 PPO、RT-2）通过端到端学习策略，试图完全绕过世界模型的学习。

现有痛点： - Model-based 方法面临世界模型学习困难——真实环境极其复杂，模型误差会累积 - Model-free 方法在许多任务上已展现出强大泛化能力（如 Gato、RT-2），但有越来越多的证据表明，这些 model-free 的 agent 实际上隐式学习了世界模型（Othello-GPT 等） - 缺乏理论框架来回答："世界模型对通用 agent 是否必要？"

核心矛盾：Brooks 提出的 "Intelligence without representation" 观点认为，所有智能行为可以在无需显式世界表征的情况下通过感知-行动循环涌现。但这与有限代理需要泛化的事实形成张力——没有环境模型，如何在未见过的长时序目标上做出正确决策？

本文目标：给出一个形式化证明，回答： - 世界模型对通用 agent 是否必要？ - 世界模型需要多精确才能支撑给定水平的能力？ - 能否从 agent 的策略中提取世界模型？

切入角度：在受控马尔可夫过程（cMP）框架下，定义"有界目标条件 agent"（能以有界遗憾率完成有界深度目标序列的策略），然后作为归约证明——构造算法从 agent 策略中恢复环境转移概率。

核心 idea：任何满足遗憾界（regret bound）的目标条件策略，其自身就包含了一个有界误差的世界模型。学习这样的策略在信息论上等价于学习世界模型。

方法详解¶

整体框架¶

本文是一篇理论导向的工作，核心贡献是两个定理及配套算法：

输入：一个目标条件策略 \(\pi(a_t | h_t; \psi)\)
输出：环境转移函数的近似 \(\hat{P}_{ss'}(a)\)
过程：通过向策略查询一系列精心设计的复合目标（either-or 决策），从策略的行为中推断转移概率

关键设计¶

受控马尔可夫过程（cMP）:
- 功能：定义了 agent 运行的环境框架——状态空间 \(\mathbf{S}\)、动作空间 \(\mathbf{A}\)、转移函数 \(P_{ss'}(a) = P(S_{t+1}=s'|A_t=a, S_t=s)\)
- 核心假设（Assumption 1）：环境是有限的、不可约的（irreducible，任意状态间可达）、稳态的，且 \(|\mathbf{A}| \geq 2\)
- 设计动机：这是强化学习理论中最标准的环境假设，确保定理的适用性尽可能广泛。不可约性保证 agent 能在任意两个状态间导航，这对构造复合目标至关重要。
有界目标条件 Agent（Definition 5）:
- 功能：用最小化假设刻画"通用 agent"——能以有界的失败率完成有界复杂度的目标
- 核心定义：策略 \(\pi\) 满足： \(P(\tau \models \psi | \pi, s_0) \geq \max_\pi P(\tau \models \psi | \pi, s_0)(1 - \delta)\) 对所有 \(\psi \in \Psi_n\)，其中 \(\delta \in [0,1]\) 为最大失败率，\(n\) 为最大目标深度
- 设计动机：
- 不假设 agent 是最优的（\(\delta > 0\) 允许次优行为）
- 不假设理性（不要求偏好序等传统理性假设）
- 仅要求在一定复杂度的目标上有有界的能力——这是对"通用性"最弱的要求
定理 1：通用 Agent 包含世界模型:
- 核心结论：对于满足 Definition 5 的 agent，其策略完全确定了一个环境转移概率的近似 \(\hat{P}_{ss'}(a)\)，误差满足： \(|\hat{P}_{ss'}(a) - P_{ss'}(a)| \leq 2P_{ss'}(a)\sqrt{\frac{1}{1-\delta} \cdot \frac{1}{n}}\) 对于 \(\delta \ll 1, n \gg 1\)，误差缩放为 \(\mathcal{O}(\delta/n) + \mathcal{O}(1/n)\)
- 关键含义：
- agent 越接近最优（\(\delta \to 0\)）→ 世界模型越准确
- agent 能处理的目标深度越大（\(n \to \infty\)）→ 世界模型越准确
- 即使非最优 agent（\(\delta \sim 1\)），只要能处理足够长的目标序列，就必须学到精确的世界模型
定理 2：短视 Agent 不需要世界模型:
- 功能：证明只优化即时结果（\(n=1\)）的短视 agent 不需要学习转移概率
- 核心结论：对于最优短视 agent，从其策略可提取的转移概率界是平凡的（\(\epsilon = 1\)）且是紧的
- 设计动机：界定了世界模型必要性的边界条件——只有多步目标才需要世界模型。这与直觉一致：做单步决策只需知道 \(\arg\max_a P_{ss'}(a)\)，无需知道具体概率值。
算法 1：从策略中提取世界模型:
- 功能：给出通用无监督算法，从任意满足条件的 agent 策略中恢复转移函数
- 核心思路：构造两难选择目标 \(\psi_{a,b}(k,n) = \psi_a(k,n) \vee \psi_b(k,n)\)：
  - 目标 \(\psi_a\)：先执行动作 \(a\)，然后转移 \((a,s) \to s'\) 至多 \(k\) 次（共 \(n\) 次尝试）
  - 目标 \(\psi_b\)：先执行动作 \(b\)，然后转移 \((a,s) \to s'\) 超过 \(k\) 次
  - 最优 agent 达成各目标的概率由累积二项分布给出，约为 \(P_n(X \leq k)\) 和 \(P_n(X > k)\)
  - 遍历 \(k\) 从 0 到 \(n\)，找到 agent 从追求 \(\psi_b\) 切换到追求 \(\psi_a\) 的临界点 \(k^*\)
  - \(k^*\) 近似等于中位数 \(\lfloor P_{ss'}(a)(n+1) \rfloor\)，从而求解 \(\hat{P}_{ss'}(a) \approx k^*/n\)
- 设计动机：这是理论证明的构造性部分——通过设计的目标，将转移概率的估计归约为观察 agent 的行动选择。算法是通用的（对所有满足条件的 agent 和环境都适用）且无监督的（唯一输入是策略 \(\pi\)）。

损失函数 / 训练策略¶

本文是理论工作，不涉及传统意义上的训练。实验部分使用随机生成的 cMP 环境（20 个状态、5 个动作）训练 agent，通过增加训练轨迹长度 \(N_{\text{samples}}\) 来提升 agent 能力。

实验关键数据¶

主实验：世界模型误差与 Agent 能力的关系¶

Agent 能力 (\(N_{\max}\) at \(\langle\delta\rangle=0.04\))	平均模型误差 \(\langle\epsilon\rangle\)	说明
\(N_{\max} = 5\)	~0.25	弱 agent
\(N_{\max} = 10\)	~0.15	中等 agent
\(N_{\max} = 20\)	~0.10	较强 agent
\(N_{\max} = 50\)	~0.05	强 agent

误差缩放为 \(\mathcal{O}(n^{-1/2})\)，与定理 1 一致。

消融/鲁棒性实验¶

实验条件	关键指标	说明
Agent 满足严格 regret bound	误差 \(\sim \mathcal{O}(n^{-1/2})\)	与理论一致
Agent 违反 regret bound（\(\delta=1\) for 部分目标）	平均误差仍然 \(\sim \mathcal{O}(n^{-1/2})\)	定理条件可以放宽
不同环境规模	误差趋势一致	算法普遍适用

关键发现¶

理论与实验吻合：即使 agent 在最坏情况下对某些目标完全失败（\(\delta=1\)），只要平均遗憾率足够低，Algorithm 2 仍然能准确恢复转移函数
误差缩放：\(\langle\epsilon\rangle \sim \mathcal{O}(n^{-1/2})\)，在 worst-case 和 average-case 下具有相同的缩放行为
Agent 学到的世界模型随能力增长而变精确：增加训练数据 → agent 能处理更长时序目标 → 可提取的世界模型更准确

亮点与洞察¶

哲学意义深远：从形式上结束了 "model-based vs model-free" 的争论——model-free agent 如果足够通用，自动成为 model-based
证明与被证对象无关：不依赖具体架构（Transformer、RNN 等）或训练方法（PPO、DQN 等），只要满足 regret bound 即适用
解释涌现能力：提供了一种机制——agent 在训练过程中为了最小化目标遗憾，被迫学习世界模型，而世界模型反过来支持向未见任务的泛化
安全启示：可以从足够强的 agent 中提取精确的世界模型用于安全审计——agent 越危险（越强），提取的模型越精确
与逆强化学习的优美对称：IRL 用（策略 + 环境模型）推断目标；规划用（目标 + 环境模型）确定策略；本文用（策略 + 目标）恢复环境模型

局限与展望¶

仅适用于完全可观测环境：定理 1 假设环境对 agent 完全可观测——部分可观测环境（POMDP）下是否成立尚不清楚
证明的是世界模型的存在而非使用：agent 可能包含世界模型但没有用它来规划（如 reflex agent）
可扩展性：Algorithm 1 需要对每个 \((s,a,s')\) 三元组单独查询策略，在大状态空间中计算开销大
连续状态/动作空间：当前分析限于离散且有限的状态和动作空间
提取的是"客观"世界模型：不一定反映 agent 实际使用的"主观"世界模型

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次严格证明 "通用 agent 必须包含世界模型"，解决了领域的根本问题
实验充分度: ⭐⭐⭐ 主要是理论工作，实验为验证性的小规模实验
写作质量: ⭐⭐⭐⭐⭐ 定义精确、定理清晰、讨论深入，哲学含义阐述到位
价值: ⭐⭐⭐⭐⭐ 对 RL 理论、AI safety、可解释性都有深远影响