See and Think: Embodied Agent in Virtual Environment¶

会议: ECCV 2024
arXiv: 2311.15209
代码: 无
领域: Agent
关键词: Embodied Agent, Minecraft, Multi-modal LLM, Open-world, Skill Retrieval

一句话总结¶

提出 STEVE，一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体，通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库，在科技树解锁和方块搜索任务上大幅超越现有方法。

研究背景与动机¶

领域现状：开放世界具身智能体研究（如 Minecraft 环境）已成为 AI 重要测试平台，近期 LLM 驱动的智能体（如 Voyager、DEPS）展现了强大的规划能力。
现有痛点：当前 LLM 驱动的 Minecraft 智能体主要依赖文本交互，缺乏视觉感知能力；生成不可预测输出，依赖精心设计的 prompt 工程；文本难以自然传达合成配方等视觉信息。
核心矛盾：需要一个多模态框架，能同时处理视觉输入和文本推理，并将高层规划转化为可执行代码。
本文要解决什么：构建一个结合视觉、语言和代码的综合性 Minecraft 具身智能体。
切入角度：将问题分解为三个模块——视觉感知（看到什么）、语言指令（如何规划）、代码动作（如何执行），并构建专用数据集 STEVE-21K 支持训练。
核心 idea 一句话：通过视觉编码器感知环境 + Minecraft 领域微调的 LLM 进行推理分解 + 技能数据库检索执行代码，构建完整的开放世界具身智能体。

方法详解¶

整体框架¶

STEVE 是一个基于 LLM 的多模态自主系统，接收视觉状态 \(X^v\)、智能体状态 \(X^s\) 和任务 \(X^t\)，输出可执行代码动作 \(\mathbf{a}^c\)。整体公式为：\(\mathbf{a}^c = \mathcal{F}(X^v, X^s, X^t) = \mathcal{A}^c(\mathcal{I}^l(\mathcal{P}^v(X^v, X^s, X^t)))\)。

关键设计¶

Vision Perception 视觉感知 \(\mathcal{P}^v\)
做什么：将视觉状态（图片/视频）、智能体状态（血量/背包）和任务描述编码为统一 token 表示。
核心思路：使用 EfficientFormerV2-S0 作为视觉编码器，将图片编码为 \(n\) 个 \(d\) 维视觉 token，与文本 tokenizer 处理的状态和任务 token 拼接。
设计动机：Minecraft 的文本背景信息不足以传达方块和实体的视觉特征，需要直接的视觉感知。
Language Instruction 语言指令 \(\mathcal{I}^l\)
做什么：负责迭代推理和将复杂任务分解为可管理的步骤。
核心思路：包含四个独立 LLM 子模块——Planner（高层规划）、Critic（评估反馈）、Curriculum（渐进学习）、Describer（信息摘要）。基于 STEVE-7B/13B（从 LLaMA-2 微调），具备 Minecraft 专业知识。
设计动机：单一 LLM 难以同时胜任规划、评估、学习等多种功能，分角色协作更有效。
Code Action 代码动作 \(\mathcal{A}^c\)
做什么：将语言指令转换为 Minecraft 中可执行的代码。
核心思路：基于技能数据库检索。将指令编码为 query 向量，通过余弦相似度匹配数据库中的技能-代码对，210 个技能覆盖 8 种类型。
设计动机：代码执行比直接控制更可靠，技能数据库检索比让 LLM 生成代码更稳定。
Curriculum Learning with Memory（带记忆的课程学习）
做什么：从简单到复杂逐步学习任务，积累经验到记忆中。
核心思路：先创建任务课程让智能体探索，存储成功经验。使用 Chain of Summarization 方法压缩过长记忆，实现无需梯度更新的上下文终身学习。
设计动机：开放世界任务需要渐进式学习，记忆可以复用经验提高效率。

损失函数 / 训练策略¶

两阶段训练：
Stage 1 (Offline Warm-up)：在 STEVE-21K 的 QA 对上微调 LLaMA-2，使用 LoRA，20K 对单轮 QA 数据
Stage 2 (Online Fine-tuning)：在 Minecraft 模拟环境中同时训练视觉编码器和微调 LLM，用 Expert LLM (GPT-4) 生成的指令作为 ground truth
视觉编码器训练：通过 Ray Tracing 获取视野内方块/实体标签，经 5000 次模拟后收集成功运行的上下文数据
损失函数：负对数似然目标 \(\mathcal{L}(\theta) = -\sum_{j=1}^{L} \log \mathcal{F}_\theta(Y_j | X^v, \hat{Y}_{1:j-1})\)

实验关键数据¶

主实验¶

科技树解锁任务对比（迭代次数越低越好，3/3 表示三次全成功）：

方法	Wooden Tool	Stone Tool	Iron Tool	Diamond Tool
AutoGPT	92±72 (3/3)	94±72 (3/3)	135±103 (3/3)	N/A (0/3)
Voyager	6±2 (3/3)	11±2 (3/3)	21±7 (3/3)	102 (1/3)
STEVE	4±1 (3/3)	8±1 (3/3)	15±2 (3/3)	106±12 (3/3)

连续方块搜索任务：

方法	平均迭代次数↓	平均找到钻石数↑
AutoGPT	N/A	7
Voyager	35	26
STEVE	14	67

消融实验¶

消融研究（科技树任务）：

方法	Wooden Tool	Stone Tool	Iron Tool	Diamond Tool
w/o vision unit	11±5 (3/3)	27±5 (3/3)	46±11 (3/3)	158 (1/3)
STEVE (GPT-4)	6±2 (3/3)	10±1 (3/3)	14±3 (3/3)	89±9 (3/3)
STEVE (Ours-13B)	4±1 (3/3)	8±1 (3/3)	15±2 (3/3)	106±12 (3/3)

关键发现¶

STEVE 在简单任务上（木质/石质工具）比包括 GPT-4 版本在内的所有方法都快
视觉单元对 Diamond Tool 等复杂任务至关重要（移除后成功率从 3/3 降至 1/3）
STEVE-13B 在知识问答上得分 8.12，超越 GPT-4 的 8.04，说明领域微调的价值
视觉感知使搜索效率提升 2.5 倍（vs Voyager）

亮点与洞察¶

完整的三位一体框架：看-想-做的流程设计清晰自然，各模块分工明确
数据集构建：STEVE-21K 包含视觉-环境对、QA 对和技能-代码对，是完整的 Minecraft AI 训练资源
小模型胜大模型：领域微调的 STEVE-13B 在 Minecraft 知识上超越通用 GPT-4
课程学习 + 记忆：无需梯度更新的上下文终身学习方案实用性强

局限性 / 可改进方向¶

仅在 Minecraft 环境中验证，迁移到其他开放世界场景未知
技能数据库基于人工编码的 210 个技能，扩展性有限
视觉编码器较简单（EfficientFormerV2-S0），未使用更强的视觉基础模型
Diamond Tool 任务上仍不如 Voyager+GPT-4 组合高效
依赖 GPT-4 生成在线微调的 ground truth，成本较高

评分¶

⭐⭐⭐ 新颖性：框架是已有组件的整合，各模块技术新颖性有限
⭐⭐⭐ 实验充分度：baseline 数量偏少（仅 AutoGPT 和 Voyager），缺少更多消融
⭐⭐⭐ 写作质量：整体可读但符号定义有些冗余
⭐⭐⭐⭐ 价值：STEVE-21K 数据集和完整框架设计对 Minecraft AI 社区有参考价值