See and Think: Embodied Agent in Virtual Environment¶
会议: ECCV 2024
arXiv: 2311.15209
代码: 无
领域: Agent
关键词: Embodied Agent, Minecraft, Multi-modal LLM, Open-world, Skill Retrieval
一句话总结¶
提出 STEVE,一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体,通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库,在科技树解锁和方块搜索任务上大幅超越现有方法。
研究背景与动机¶
- 领域现状:开放世界具身智能体研究(如 Minecraft 环境)已成为 AI 重要测试平台,近期 LLM 驱动的智能体(如 Voyager、DEPS)展现了强大的规划能力。
- 现有痛点:当前 LLM 驱动的 Minecraft 智能体主要依赖文本交互,缺乏视觉感知能力;生成不可预测输出,依赖精心设计的 prompt 工程;文本难以自然传达合成配方等视觉信息。
- 核心矛盾:需要一个多模态框架,能同时处理视觉输入和文本推理,并将高层规划转化为可执行代码。
- 本文要解决什么:构建一个结合视觉、语言和代码的综合性 Minecraft 具身智能体。
- 切入角度:将问题分解为三个模块——视觉感知(看到什么)、语言指令(如何规划)、代码动作(如何执行),并构建专用数据集 STEVE-21K 支持训练。
- 核心 idea 一句话:通过视觉编码器感知环境 + Minecraft 领域微调的 LLM 进行推理分解 + 技能数据库检索执行代码,构建完整的开放世界具身智能体。
方法详解¶
整体框架¶
STEVE 是一个基于 LLM 的多模态自主系统,接收视觉状态 \(X^v\)、智能体状态 \(X^s\) 和任务 \(X^t\),输出可执行代码动作 \(\mathbf{a}^c\)。整体公式为:\(\mathbf{a}^c = \mathcal{F}(X^v, X^s, X^t) = \mathcal{A}^c(\mathcal{I}^l(\mathcal{P}^v(X^v, X^s, X^t)))\)。
关键设计¶
- Vision Perception 视觉感知 \(\mathcal{P}^v\)
- 做什么:将视觉状态(图片/视频)、智能体状态(血量/背包)和任务描述编码为统一 token 表示。
- 核心思路:使用 EfficientFormerV2-S0 作为视觉编码器,将图片编码为 \(n\) 个 \(d\) 维视觉 token,与文本 tokenizer 处理的状态和任务 token 拼接。
-
设计动机:Minecraft 的文本背景信息不足以传达方块和实体的视觉特征,需要直接的视觉感知。
-
Language Instruction 语言指令 \(\mathcal{I}^l\)
- 做什么:负责迭代推理和将复杂任务分解为可管理的步骤。
- 核心思路:包含四个独立 LLM 子模块——Planner(高层规划)、Critic(评估反馈)、Curriculum(渐进学习)、Describer(信息摘要)。基于 STEVE-7B/13B(从 LLaMA-2 微调),具备 Minecraft 专业知识。
-
设计动机:单一 LLM 难以同时胜任规划、评估、学习等多种功能,分角色协作更有效。
-
Code Action 代码动作 \(\mathcal{A}^c\)
- 做什么:将语言指令转换为 Minecraft 中可执行的代码。
- 核心思路:基于技能数据库检索。将指令编码为 query 向量,通过余弦相似度匹配数据库中的技能-代码对,210 个技能覆盖 8 种类型。
-
设计动机:代码执行比直接控制更可靠,技能数据库检索比让 LLM 生成代码更稳定。
-
Curriculum Learning with Memory(带记忆的课程学习)
- 做什么:从简单到复杂逐步学习任务,积累经验到记忆中。
- 核心思路:先创建任务课程让智能体探索,存储成功经验。使用 Chain of Summarization 方法压缩过长记忆,实现无需梯度更新的上下文终身学习。
- 设计动机:开放世界任务需要渐进式学习,记忆可以复用经验提高效率。
损失函数 / 训练策略¶
- 两阶段训练:
- Stage 1 (Offline Warm-up):在 STEVE-21K 的 QA 对上微调 LLaMA-2,使用 LoRA,20K 对单轮 QA 数据
- Stage 2 (Online Fine-tuning):在 Minecraft 模拟环境中同时训练视觉编码器和微调 LLM,用 Expert LLM (GPT-4) 生成的指令作为 ground truth
- 视觉编码器训练:通过 Ray Tracing 获取视野内方块/实体标签,经 5000 次模拟后收集成功运行的上下文数据
- 损失函数:负对数似然目标 \(\mathcal{L}(\theta) = -\sum_{j=1}^{L} \log \mathcal{F}_\theta(Y_j | X^v, \hat{Y}_{1:j-1})\)
实验关键数据¶
主实验¶
科技树解锁任务对比(迭代次数越低越好,3/3 表示三次全成功):
| 方法 | Wooden Tool | Stone Tool | Iron Tool | Diamond Tool |
|---|---|---|---|---|
| AutoGPT | 92±72 (3/3) | 94±72 (3/3) | 135±103 (3/3) | N/A (0/3) |
| Voyager | 6±2 (3/3) | 11±2 (3/3) | 21±7 (3/3) | 102 (1/3) |
| STEVE | 4±1 (3/3) | 8±1 (3/3) | 15±2 (3/3) | 106±12 (3/3) |
连续方块搜索任务:
| 方法 | 平均迭代次数↓ | 平均找到钻石数↑ |
|---|---|---|
| AutoGPT | N/A | 7 |
| Voyager | 35 | 26 |
| STEVE | 14 | 67 |
消融实验¶
消融研究(科技树任务):
| 方法 | Wooden Tool | Stone Tool | Iron Tool | Diamond Tool |
|---|---|---|---|---|
| w/o vision unit | 11±5 (3/3) | 27±5 (3/3) | 46±11 (3/3) | 158 (1/3) |
| STEVE (GPT-4) | 6±2 (3/3) | 10±1 (3/3) | 14±3 (3/3) | 89±9 (3/3) |
| STEVE (Ours-13B) | 4±1 (3/3) | 8±1 (3/3) | 15±2 (3/3) | 106±12 (3/3) |
关键发现¶
- STEVE 在简单任务上(木质/石质工具)比包括 GPT-4 版本在内的所有方法都快
- 视觉单元对 Diamond Tool 等复杂任务至关重要(移除后成功率从 3/3 降至 1/3)
- STEVE-13B 在知识问答上得分 8.12,超越 GPT-4 的 8.04,说明领域微调的价值
- 视觉感知使搜索效率提升 2.5 倍(vs Voyager)
亮点与洞察¶
- 完整的三位一体框架:看-想-做的流程设计清晰自然,各模块分工明确
- 数据集构建:STEVE-21K 包含视觉-环境对、QA 对和技能-代码对,是完整的 Minecraft AI 训练资源
- 小模型胜大模型:领域微调的 STEVE-13B 在 Minecraft 知识上超越通用 GPT-4
- 课程学习 + 记忆:无需梯度更新的上下文终身学习方案实用性强
局限性 / 可改进方向¶
- 仅在 Minecraft 环境中验证,迁移到其他开放世界场景未知
- 技能数据库基于人工编码的 210 个技能,扩展性有限
- 视觉编码器较简单(EfficientFormerV2-S0),未使用更强的视觉基础模型
- Diamond Tool 任务上仍不如 Voyager+GPT-4 组合高效
- 依赖 GPT-4 生成在线微调的 ground truth,成本较高
相关工作与启发¶
- 与 Voyager 定位类似但强调多模态输入,填补了 Minecraft AI 中视觉感知的空白
- Code Action 的技能检索思路类似 HuggingGPT 的工具调用,但更聚焦于 Minecraft
- DEPS 的多步推理 + GITM 的结构化动作的思路在 STEVE 中都有体现
- 启发:领域特定微调 + 视觉感知 + 结构化执行的组合是构建具身智能体的有效范式
评分¶
- ⭐⭐⭐ 新颖性:框架是已有组件的整合,各模块技术新颖性有限
- ⭐⭐⭐ 实验充分度:baseline 数量偏少(仅 AutoGPT 和 Voyager),缺少更多消融
- ⭐⭐⭐ 写作质量:整体可读但符号定义有些冗余
- ⭐⭐⭐⭐ 价值:STEVE-21K 数据集和完整框架设计对 Minecraft AI 社区有参考价值