跳转至

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as Unifying Representation

日期: 2026-03-17
arXiv: 2603.16871
领域: 图像生成 / 世界模型
关键词: 交互式3D世界, 视频扩散Transformer, 相机位姿, 6-DoF, Lie代数, 长序列生成, 游戏世界

一句话总结

以相机位姿为统一几何表示,在李代数 \(\mathfrak{se}(3)\) 上严格建模用户动作 → 6-DoF 相机位姿,通过 Plücker 嵌入注入视频 DiT + 位姿索引的长期记忆池实现 3D 一致性,配合渐进式自回归推理和 attention sink 支持长序列生成,在 3000 分钟游戏数据上超越 SOTA。

研究背景与动机

  1. 领域现状: 视频扩散 Transformer 已能生成逼真视频,近期工作开始探索交互式游戏世界模型——但精确动作控制和长程 3D 一致性仍是难题。

  2. 现有痛点: (a) 先前方法将用户动作作为抽象条件信号注入,忽略动作与 3D 世界的几何耦合;(b) GameCraft 用线性近似将动作转为位姿,但解耦了平移和旋转——无法处理螺旋运动等耦合动力学;(c) 缺乏大规模、开放许可的游戏数据集。

  3. 核心洞察: 在游戏中,用户动作本质上是相对相机运动——动作控制和 3D 一致性通过相机位姿统一。

方法详解

1. Action-to-Camera Mapping(李代数建模)

  • 用户动作表示为 twist vector \(A_i = [\mathbf{v}_i; \boldsymbol{\omega}_i] \in \mathbb{R}^6\)(线速度 + 角速度)
  • 通过矩阵指数映射得到精确的相对位姿:\(\Delta P_i = \exp(\hat{A}_i) \in SE(3)\)
  • vs 线性近似: 在 SE(3) 流形上联合积分平移和旋转——处理键盘+鼠标耦合输入时几何精确

2. Camera-Controlled Video Generation

  • 相对位姿累积为全局位姿 → 转换为 Plücker 嵌入 \(\hat{P} \in \mathbb{R}^{F \times 6}\)
  • 轻量 MLP 相机嵌入模块 \(c_\phi\),在每个自注意力层后注入 DiT 特征
  • 基座模型: Wan2.1-1.3B-T2V

3. Pose-Anchored Long-Term Memory(3D 一致性)

  • 记忆池: 存储所有历史生成 latent 及其全局相机位姿
  • 分层检索: 先按位置距离选 top-K → 再按朝向对齐度选 top-L
  • 检索到的 latent 拼接到当前序列,其相机位姿嵌入建立几何对应 → 重访相同位置时保持一致

4. Progressive Autoregressive Inference

  • 渐进噪声调度: 窗口内各帧分配单调递增的噪声等级——前帧是可靠锚点,后帧可修正
  • Attention Sink: 固定全局初始帧作为注意力锚点——防止长序列的色彩饱和/UI 失真
  • 短期记忆: 最近生成的 latent 作为短期上下文减少误差漂移

数据集: WorldCam-50h

  • 规模: 3000 分钟真人游戏视频(Counter-Strike + Xonotic + Unvanquished)
  • 标注: Qwen2.5-VL-7B 生成文本描述 + ViPE 估计伪真值相机位姿
  • 多样性: 涵盖导航、快速 360° 旋转、反向穿越等复杂行为

实验关键数据

方法 RPE_trans ↓ RPE_rot ↓ RPE_camera ↓ 视觉 Avg ↑
Yume 0.111 2.222 0.137 0.774
Matrix-Game 2.0 0.098 1.656 0.119 0.766
GameCraft 0.086 1.146 0.100 0.781
WorldCam 0.080 0.696 0.086 0.844
  • 旋转误差 RPE_rot 仅 0.696°(GameCraft 1.146°),精确动作控制
  • 背景一致性 0.959 vs GameCraft 0.850——长程 3D 一致性显著提升
  • 三阶段训练:相机控制 → 渐进 AR → 长期记忆

亮点与洞察

  • 李代数建模的必要性: 键盘前进 + 鼠标旋转产生螺旋运动——线性解耦近似几何不正确
  • 相机位姿的双重作用: 既是动作控制信号(局部),又是 3D 一致性索引(全局)
  • 渐进噪声 + Attention Sink: 两个工程技巧缓解 AR 长序列生成的误差累积和风格漂移
  • 开放数据集: Xonotic 和 Unvanquished 开放许可——促进可复现研究

局限性 / 可改进方向

  • 静态场景: 不处理动态物体(NPC、物理交互)
  • 伪真值位姿: ViPE 估计的相机轨迹有误差,需要额外过滤
  • 1.3B 模型: 视觉质量受基座模型规模限制
  • 单人探索: 不支持多 agent 交互

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 李代数动作建模 + 位姿统一的双重角色,设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 多基线对比 + 3D 一致性 + 消融
  • 写作质量: ⭐⭐⭐⭐⭐ 几何推导严谨,整体架构清晰
  • 价值: ⭐⭐⭐⭐⭐ 交互式世界模型的重要进展