LLMscape¶
会议: NeurIPS 2025
arXiv: 2511.07161
代码: 无
领域: 人机交互 / LLM Agent / 交互艺术
关键词: 交互装置, LLM代理, 具身认知, 多模态感知, 协作意义构建
一句话总结¶
LLMscape 是一个投影映射沙盘交互装置,让多个独立 LLM 代理在共享的可变物理环境中接收多模态输入、相互对话和推测,探索人类与 AI 在认知不确定性下的共同意义构建过程。
研究背景与动机¶
领域现状:当前具身 AI 研究多关注功能性问题求解——操作物体、导航环境、优化性能。LLM 已展现强大的语言交互和推理能力,但多被视为确定性工具来使用。
现有痛点:当 AI 系统被置于社会和物质情境中,它们面临的感知和认知挑战远超物理参数,涉及意义、因果和目的等更深层问题。然而,大多数人机交互研究将 AI 定位为执行预设任务的代理,忽略了 AI 在面对不完整、模糊信号时可能涌现的知识构建、误解和推测性推理。
核心矛盾:如果 AI 代理暴露在与人类相同的不完整、模糊、噪声信号下,会发生什么?这些过程如何映射、挑战或重构人类的理解模式?现有研究缺乏一个真正让 AI"共居"于不稳定世界的实验平台。
本文目标 设计一个物理交互装置作为实验平台,让人类和多个 AI 代理共享同一不确定环境,观察 AI 在无完整世界模型条件下的集体推理和意义构建行为。
切入角度:从 MIT Media Lab 的有形界面研究出发,结合 Generative Agents 框架和 LLM 多代理架构,构建投影映射沙盘作为共享世界。
核心 idea:将 LLM 代理从确定性工具重新定位为"共同见证者",通过交互式沙盘装置让人类和 AI 在共享的不确定世界中共同进行意义建构。
方法详解¶
整体框架¶
LLMscape 是一个投影映射沙盘装置,参与者通过物理方式改变地形(如重塑沙子),同时与多个 AI 代理互动。每个代理是独立的 LLM 实例(最新版本使用 GPT-4),有独立的性格、记忆和对话风格。代理接收多模态输入(地形变化、空间关系、语音转录),相互对话,并试图推断"岛屿世界"的规则。系统经历了三次迭代逐步演进。
关键设计¶
-
第一次迭代:简单多轮 LLM 交互
- 功能:探索性原型,验证 LLM 与物理环境交互的可行性
- 核心思路:使用 p5.js 教育工具实现原始的多轮 LLM 交互。沙盘由访客物理操纵,沙子的重排等有形变化会影响模拟实体的行为
- 设计动机:作为最小可行实验,验证 LLM 能否对物理环境变化产生有意义的响应
-
第二次迭代:Generative Agents 框架
- 功能:在 Chronus Art Center 公开展出的完整系统,包含三个具有完整认知架构的代理(一个女人、一个男孩、一只火烈鸟)
- 核心思路:参考 Generative Agents 和 Concordia 项目的设计原则,每个代理配备 Associative Memory(联想记忆)、周期性 Reflection and Planning(反思与规划)、以及内部 Somatic States(如疲劳度追踪)。代理集成在 Unity 环境中,可执行多种动作(交谈、堆沙、休息、散步、跳舞、制定目标、自我反思等)
- 设计动机:赋予代理更丰富的认知能力,使其行为更接近真实的意义构建过程而非简单应答
-
第三次迭代:工具调用与上下文工程
- 功能:在 Generative Agents 基础上集成 Model Context Protocol (MCP) 和 MCP-游戏引擎适配器
- 核心思路:受 context engineering 最新研究启发,让代理动态调用工具并根据实时上下文调整行为。利用现代模型的长上下文和多模态能力扩展前版的静态架构
- 设计动机:前两版架构相对静态,新一代模型的多模态和长上下文能力为更灵活的代理-环境交互提供了可能
多模态感知管线¶
代理接收的输入包括:时间信息、附近实体检测、物理效应(如访客造成的地震、手的阴影)、语音转录。这些多模态信号被组合为代理的"感知",驱动其推理和行为生成。
实验关键数据¶
展览反馈¶
本文为交互艺术/Demo 论文,无传统量化实验。核心数据来自三次展览的观察和反馈:
| 展览地点 | 展出时长 | 参与规模 | 关键观察 |
|---|---|---|---|
| Futurelab (Shanghai) | 首展 | 数十人 | 原型验证 |
| NYU Shanghai | 第二次 | 数百人 | 模型能力提升 |
| Chronus Art Center | 一个月 | 数百人 | 完整系统公开展出 |
定性发现¶
| 发现维度 | 具体描述 |
|---|---|
| 参与引导 | 多模态交互需要明确引导才能激发主动参与,否则访客倾向被动观看 |
| 情感连接 | 参与者对 AI 实体产生"连接、操控甚至破坏"的冲动 |
| 主观体验 | 有人描述"手势、思想和岛屿回应是同一连续流"的体验 |
| 代理局限 | 尽管长时间交互,代理始终无法产生环境的确定性描述——映射人类认知局限 |
关键发现¶
- 没有指导时访客易采取被动旁观态度,适当引导后会形成独特的人机关系
- 代理间出现涌现性的集体推理模式,但始终保持"知识的不完整性"
- 三次迭代中,模型能力增强使代理解读策略更加细腻,但认知不确定性本质不变
- 系统的月度运行产生了大量人机交互日志语料,为后续分析提供基础
亮点与洞察¶
- AI 定位的范式转换:不将 AI 视为执行任务的工具,而是"共同见证不稳定世界的伙伴"。这一视角超越了功能性 AI 研究,触及认识论层面,让人思考 AI 与人类在面对不确定性时的共通局限
- 三次迭代的演进设计:从 p5.js 原型到 Generative Agents 到 MCP 工具调用,完整记录了交互式 AI 装置的技术演化路径,每次升级都对应 LLM 生态的重大进展
- 具身多代理交互:三个代理拥有不同性格和记忆,可以相互对话和协作推理。这种设计让"集体智能涌现"成为可观察的艺术现象
- 可迁移思路:Generative Agents + 物理环境交互 + MCP 工具调用的架构可迁移到教育、治疗、游戏等场景中的多代理系统设计
局限与展望¶
- 缺乏量化评估:作为艺术/Demo 作品,没有标准化的实验设计和量化指标,难以系统性地评估 AI 代理的推理质量
- 代理行为可控性:LLM 代理的输出随机性使得实验可复现性较低
- 展览环境限制:公共展览场景中的噪声、多人同时操作等因素难以控制
- 规模有限:仅三个代理,未探索更大规模多代理系统的涌现行为
- 未来方向:可以引入更系统的行为分析框架,对日志数据进行主题分析;可以探索不同 LLM(如开源模型)对代理行为的影响
相关工作与启发¶
- vs Generative Agents (Park et al., 2023):Generative Agents 在虚拟 2D 世界中模拟代理行为,LLMscape 将其扩展到真实物理环境,增加了有形交互维度和人类参与者的不可预测性
- vs Concordia (Vezhnevets et al., 2023):Concordia 提供了代理架构的设计原则(联想记忆、反思、规划),LLMscape 借鉴并将其适配到艺术装置的实时交互需求
- vs 传统 HCI 有形交互:MIT Media Lab 的 Tangible Bits 等工作关注物理-数字交互,LLMscape 将 LLM 代理引入有形界面研究,开辟了新的人机交互范式
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 LLM 代理置于共享物理环境中探索意义建构的视角独特
- 实验充分度: ⭐⭐ 作为艺术/Demo 论文缺乏量化实验
- 写作质量: ⭐⭐⭐⭐ 叙述流畅,概念清晰,三次迭代的演进描述详细
- 价值: ⭐⭐⭐ 提供了有趣的 AI-人类共存视角,但实际技术贡献有限
相关论文¶
- [NeurIPS 2025] NeSyPr: Neurosymbolic Proceduralization For Efficient Embodied Reasoning
- [NeurIPS 2025] RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation
- [NeurIPS 2025] UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Task Planning
- [NeurIPS 2025] ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
- [NeurIPS 2025] SITCOM: Scaling Inference-Time COMpute for VLAs