跳转至

See and Think: Embodied Agent in Virtual Environment

会议: ECCV 2024
arXiv: 2311.15209
代码: 无
领域: Agent
关键词: Embodied Agent, Minecraft, Multi-modal LLM, Open-world, Skill Retrieval

一句话总结

提出 STEVE,一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体,通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库,在科技树解锁和方块搜索任务上大幅超越现有方法。

研究背景与动机

  1. 领域现状:开放世界具身智能体研究(如 Minecraft 环境)已成为 AI 重要测试平台,近期 LLM 驱动的智能体(如 Voyager、DEPS)展现了强大的规划能力。
  2. 现有痛点:当前 LLM 驱动的 Minecraft 智能体主要依赖文本交互,缺乏视觉感知能力;生成不可预测输出,依赖精心设计的 prompt 工程;文本难以自然传达合成配方等视觉信息。
  3. 核心矛盾:需要一个多模态框架,能同时处理视觉输入和文本推理,并将高层规划转化为可执行代码。
  4. 本文要解决什么:构建一个结合视觉、语言和代码的综合性 Minecraft 具身智能体。
  5. 切入角度:将问题分解为三个模块——视觉感知(看到什么)、语言指令(如何规划)、代码动作(如何执行),并构建专用数据集 STEVE-21K 支持训练。
  6. 核心 idea 一句话:通过视觉编码器感知环境 + Minecraft 领域微调的 LLM 进行推理分解 + 技能数据库检索执行代码,构建完整的开放世界具身智能体。

方法详解

整体框架

STEVE 是一个基于 LLM 的多模态自主系统,接收视觉状态 \(X^v\)、智能体状态 \(X^s\) 和任务 \(X^t\),输出可执行代码动作 \(\mathbf{a}^c\)。整体公式为:\(\mathbf{a}^c = \mathcal{F}(X^v, X^s, X^t) = \mathcal{A}^c(\mathcal{I}^l(\mathcal{P}^v(X^v, X^s, X^t)))\)

关键设计

  1. Vision Perception 视觉感知 \(\mathcal{P}^v\)
  2. 做什么:将视觉状态(图片/视频)、智能体状态(血量/背包)和任务描述编码为统一 token 表示。
  3. 核心思路:使用 EfficientFormerV2-S0 作为视觉编码器,将图片编码为 \(n\)\(d\) 维视觉 token,与文本 tokenizer 处理的状态和任务 token 拼接。
  4. 设计动机:Minecraft 的文本背景信息不足以传达方块和实体的视觉特征,需要直接的视觉感知。

  5. Language Instruction 语言指令 \(\mathcal{I}^l\)

  6. 做什么:负责迭代推理和将复杂任务分解为可管理的步骤。
  7. 核心思路:包含四个独立 LLM 子模块——Planner(高层规划)、Critic(评估反馈)、Curriculum(渐进学习)、Describer(信息摘要)。基于 STEVE-7B/13B(从 LLaMA-2 微调),具备 Minecraft 专业知识。
  8. 设计动机:单一 LLM 难以同时胜任规划、评估、学习等多种功能,分角色协作更有效。

  9. Code Action 代码动作 \(\mathcal{A}^c\)

  10. 做什么:将语言指令转换为 Minecraft 中可执行的代码。
  11. 核心思路:基于技能数据库检索。将指令编码为 query 向量,通过余弦相似度匹配数据库中的技能-代码对,210 个技能覆盖 8 种类型。
  12. 设计动机:代码执行比直接控制更可靠,技能数据库检索比让 LLM 生成代码更稳定。

  13. Curriculum Learning with Memory(带记忆的课程学习)

  14. 做什么:从简单到复杂逐步学习任务,积累经验到记忆中。
  15. 核心思路:先创建任务课程让智能体探索,存储成功经验。使用 Chain of Summarization 方法压缩过长记忆,实现无需梯度更新的上下文终身学习。
  16. 设计动机:开放世界任务需要渐进式学习,记忆可以复用经验提高效率。

损失函数 / 训练策略

  • 两阶段训练
  • Stage 1 (Offline Warm-up):在 STEVE-21K 的 QA 对上微调 LLaMA-2,使用 LoRA,20K 对单轮 QA 数据
  • Stage 2 (Online Fine-tuning):在 Minecraft 模拟环境中同时训练视觉编码器和微调 LLM,用 Expert LLM (GPT-4) 生成的指令作为 ground truth
  • 视觉编码器训练:通过 Ray Tracing 获取视野内方块/实体标签,经 5000 次模拟后收集成功运行的上下文数据
  • 损失函数:负对数似然目标 \(\mathcal{L}(\theta) = -\sum_{j=1}^{L} \log \mathcal{F}_\theta(Y_j | X^v, \hat{Y}_{1:j-1})\)

实验关键数据

主实验

科技树解锁任务对比(迭代次数越低越好,3/3 表示三次全成功):

方法 Wooden Tool Stone Tool Iron Tool Diamond Tool
AutoGPT 92±72 (3/3) 94±72 (3/3) 135±103 (3/3) N/A (0/3)
Voyager 6±2 (3/3) 11±2 (3/3) 21±7 (3/3) 102 (1/3)
STEVE 4±1 (3/3) 8±1 (3/3) 15±2 (3/3) 106±12 (3/3)

连续方块搜索任务:

方法 平均迭代次数↓ 平均找到钻石数↑
AutoGPT N/A 7
Voyager 35 26
STEVE 14 67

消融实验

消融研究(科技树任务):

方法 Wooden Tool Stone Tool Iron Tool Diamond Tool
w/o vision unit 11±5 (3/3) 27±5 (3/3) 46±11 (3/3) 158 (1/3)
STEVE (GPT-4) 6±2 (3/3) 10±1 (3/3) 14±3 (3/3) 89±9 (3/3)
STEVE (Ours-13B) 4±1 (3/3) 8±1 (3/3) 15±2 (3/3) 106±12 (3/3)

关键发现

  • STEVE 在简单任务上(木质/石质工具)比包括 GPT-4 版本在内的所有方法都快
  • 视觉单元对 Diamond Tool 等复杂任务至关重要(移除后成功率从 3/3 降至 1/3)
  • STEVE-13B 在知识问答上得分 8.12,超越 GPT-4 的 8.04,说明领域微调的价值
  • 视觉感知使搜索效率提升 2.5 倍(vs Voyager)

亮点与洞察

  • 完整的三位一体框架:看-想-做的流程设计清晰自然,各模块分工明确
  • 数据集构建:STEVE-21K 包含视觉-环境对、QA 对和技能-代码对,是完整的 Minecraft AI 训练资源
  • 小模型胜大模型:领域微调的 STEVE-13B 在 Minecraft 知识上超越通用 GPT-4
  • 课程学习 + 记忆:无需梯度更新的上下文终身学习方案实用性强

局限性 / 可改进方向

  • 仅在 Minecraft 环境中验证,迁移到其他开放世界场景未知
  • 技能数据库基于人工编码的 210 个技能,扩展性有限
  • 视觉编码器较简单(EfficientFormerV2-S0),未使用更强的视觉基础模型
  • Diamond Tool 任务上仍不如 Voyager+GPT-4 组合高效
  • 依赖 GPT-4 生成在线微调的 ground truth,成本较高

相关工作与启发

  • 与 Voyager 定位类似但强调多模态输入,填补了 Minecraft AI 中视觉感知的空白
  • Code Action 的技能检索思路类似 HuggingGPT 的工具调用,但更聚焦于 Minecraft
  • DEPS 的多步推理 + GITM 的结构化动作的思路在 STEVE 中都有体现
  • 启发:领域特定微调 + 视觉感知 + 结构化执行的组合是构建具身智能体的有效范式

评分

  • ⭐⭐⭐ 新颖性:框架是已有组件的整合,各模块技术新颖性有限
  • ⭐⭐⭐ 实验充分度:baseline 数量偏少(仅 AutoGPT 和 Voyager),缺少更多消融
  • ⭐⭐⭐ 写作质量:整体可读但符号定义有些冗余
  • ⭐⭐⭐⭐ 价值:STEVE-21K 数据集和完整框架设计对 Minecraft AI 社区有参考价值