跳转至

LLMscape

会议: NeurIPS 2025
arXiv: 2511.07161
代码: 无
领域: 人机交互 / LLM Agent / 交互艺术
关键词: 交互装置, LLM代理, 具身认知, 多模态感知, 协作意义构建

一句话总结

LLMscape 是一个投影映射沙盘交互装置,让多个独立 LLM 代理在共享的可变物理环境中接收多模态输入、相互对话和推测,探索人类与 AI 在认知不确定性下的共同意义构建过程。

研究背景与动机

领域现状:当前具身 AI 研究多关注功能性问题求解——操作物体、导航环境、优化性能。LLM 已展现强大的语言交互和推理能力,但多被视为确定性工具来使用。

现有痛点:当 AI 系统被置于社会和物质情境中,它们面临的感知和认知挑战远超物理参数,涉及意义、因果和目的等更深层问题。然而,大多数人机交互研究将 AI 定位为执行预设任务的代理,忽略了 AI 在面对不完整、模糊信号时可能涌现的知识构建、误解和推测性推理。

核心矛盾:如果 AI 代理暴露在与人类相同的不完整、模糊、噪声信号下,会发生什么?这些过程如何映射、挑战或重构人类的理解模式?现有研究缺乏一个真正让 AI"共居"于不稳定世界的实验平台。

本文目标 设计一个物理交互装置作为实验平台,让人类和多个 AI 代理共享同一不确定环境,观察 AI 在无完整世界模型条件下的集体推理和意义构建行为。

切入角度:从 MIT Media Lab 的有形界面研究出发,结合 Generative Agents 框架和 LLM 多代理架构,构建投影映射沙盘作为共享世界。

核心 idea:将 LLM 代理从确定性工具重新定位为"共同见证者",通过交互式沙盘装置让人类和 AI 在共享的不确定世界中共同进行意义建构。

方法详解

整体框架

LLMscape 是一个投影映射沙盘装置,参与者通过物理方式改变地形(如重塑沙子),同时与多个 AI 代理互动。每个代理是独立的 LLM 实例(最新版本使用 GPT-4),有独立的性格、记忆和对话风格。代理接收多模态输入(地形变化、空间关系、语音转录),相互对话,并试图推断"岛屿世界"的规则。系统经历了三次迭代逐步演进。

关键设计

  1. 第一次迭代:简单多轮 LLM 交互

    • 功能:探索性原型,验证 LLM 与物理环境交互的可行性
    • 核心思路:使用 p5.js 教育工具实现原始的多轮 LLM 交互。沙盘由访客物理操纵,沙子的重排等有形变化会影响模拟实体的行为
    • 设计动机:作为最小可行实验,验证 LLM 能否对物理环境变化产生有意义的响应
  2. 第二次迭代:Generative Agents 框架

    • 功能:在 Chronus Art Center 公开展出的完整系统,包含三个具有完整认知架构的代理(一个女人、一个男孩、一只火烈鸟)
    • 核心思路:参考 Generative Agents 和 Concordia 项目的设计原则,每个代理配备 Associative Memory(联想记忆)、周期性 Reflection and Planning(反思与规划)、以及内部 Somatic States(如疲劳度追踪)。代理集成在 Unity 环境中,可执行多种动作(交谈、堆沙、休息、散步、跳舞、制定目标、自我反思等)
    • 设计动机:赋予代理更丰富的认知能力,使其行为更接近真实的意义构建过程而非简单应答
  3. 第三次迭代:工具调用与上下文工程

    • 功能:在 Generative Agents 基础上集成 Model Context Protocol (MCP) 和 MCP-游戏引擎适配器
    • 核心思路:受 context engineering 最新研究启发,让代理动态调用工具并根据实时上下文调整行为。利用现代模型的长上下文和多模态能力扩展前版的静态架构
    • 设计动机:前两版架构相对静态,新一代模型的多模态和长上下文能力为更灵活的代理-环境交互提供了可能

多模态感知管线

代理接收的输入包括:时间信息、附近实体检测、物理效应(如访客造成的地震、手的阴影)、语音转录。这些多模态信号被组合为代理的"感知",驱动其推理和行为生成。

实验关键数据

展览反馈

本文为交互艺术/Demo 论文,无传统量化实验。核心数据来自三次展览的观察和反馈:

展览地点 展出时长 参与规模 关键观察
Futurelab (Shanghai) 首展 数十人 原型验证
NYU Shanghai 第二次 数百人 模型能力提升
Chronus Art Center 一个月 数百人 完整系统公开展出

定性发现

发现维度 具体描述
参与引导 多模态交互需要明确引导才能激发主动参与,否则访客倾向被动观看
情感连接 参与者对 AI 实体产生"连接、操控甚至破坏"的冲动
主观体验 有人描述"手势、思想和岛屿回应是同一连续流"的体验
代理局限 尽管长时间交互,代理始终无法产生环境的确定性描述——映射人类认知局限

关键发现

  • 没有指导时访客易采取被动旁观态度,适当引导后会形成独特的人机关系
  • 代理间出现涌现性的集体推理模式,但始终保持"知识的不完整性"
  • 三次迭代中,模型能力增强使代理解读策略更加细腻,但认知不确定性本质不变
  • 系统的月度运行产生了大量人机交互日志语料,为后续分析提供基础

亮点与洞察

  • AI 定位的范式转换:不将 AI 视为执行任务的工具,而是"共同见证不稳定世界的伙伴"。这一视角超越了功能性 AI 研究,触及认识论层面,让人思考 AI 与人类在面对不确定性时的共通局限
  • 三次迭代的演进设计:从 p5.js 原型到 Generative Agents 到 MCP 工具调用,完整记录了交互式 AI 装置的技术演化路径,每次升级都对应 LLM 生态的重大进展
  • 具身多代理交互:三个代理拥有不同性格和记忆,可以相互对话和协作推理。这种设计让"集体智能涌现"成为可观察的艺术现象
  • 可迁移思路:Generative Agents + 物理环境交互 + MCP 工具调用的架构可迁移到教育、治疗、游戏等场景中的多代理系统设计

局限与展望

  • 缺乏量化评估:作为艺术/Demo 作品,没有标准化的实验设计和量化指标,难以系统性地评估 AI 代理的推理质量
  • 代理行为可控性:LLM 代理的输出随机性使得实验可复现性较低
  • 展览环境限制:公共展览场景中的噪声、多人同时操作等因素难以控制
  • 规模有限:仅三个代理,未探索更大规模多代理系统的涌现行为
  • 未来方向:可以引入更系统的行为分析框架,对日志数据进行主题分析;可以探索不同 LLM(如开源模型)对代理行为的影响

相关工作与启发

  • vs Generative Agents (Park et al., 2023):Generative Agents 在虚拟 2D 世界中模拟代理行为,LLMscape 将其扩展到真实物理环境,增加了有形交互维度和人类参与者的不可预测性
  • vs Concordia (Vezhnevets et al., 2023):Concordia 提供了代理架构的设计原则(联想记忆、反思、规划),LLMscape 借鉴并将其适配到艺术装置的实时交互需求
  • vs 传统 HCI 有形交互:MIT Media Lab 的 Tangible Bits 等工作关注物理-数字交互,LLMscape 将 LLM 代理引入有形界面研究,开辟了新的人机交互范式

评分

  • 新颖性: ⭐⭐⭐⭐ 将 LLM 代理置于共享物理环境中探索意义建构的视角独特
  • 实验充分度: ⭐⭐ 作为艺术/Demo 论文缺乏量化实验
  • 写作质量: ⭐⭐⭐⭐ 叙述流畅,概念清晰,三次迭代的演进描述详细
  • 价值: ⭐⭐⭐ 提供了有趣的 AI-人类共存视角,但实际技术贡献有限

相关论文