WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as Unifying Representation¶
日期: 2026-03-17
arXiv: 2603.16871
领域: 图像生成 / 世界模型
关键词: 交互式3D世界, 视频扩散Transformer, 相机位姿, 6-DoF, Lie代数, 长序列生成, 游戏世界
一句话总结¶
以相机位姿为统一几何表示,在李代数 \(\mathfrak{se}(3)\) 上严格建模用户动作 → 6-DoF 相机位姿,通过 Plücker 嵌入注入视频 DiT + 位姿索引的长期记忆池实现 3D 一致性,配合渐进式自回归推理和 attention sink 支持长序列生成,在 3000 分钟游戏数据上超越 SOTA。
研究背景与动机¶
-
领域现状: 视频扩散 Transformer 已能生成逼真视频,近期工作开始探索交互式游戏世界模型——但精确动作控制和长程 3D 一致性仍是难题。
-
现有痛点: (a) 先前方法将用户动作作为抽象条件信号注入,忽略动作与 3D 世界的几何耦合;(b) GameCraft 用线性近似将动作转为位姿,但解耦了平移和旋转——无法处理螺旋运动等耦合动力学;(c) 缺乏大规模、开放许可的游戏数据集。
-
核心洞察: 在游戏中,用户动作本质上是相对相机运动——动作控制和 3D 一致性通过相机位姿统一。
方法详解¶
1. Action-to-Camera Mapping(李代数建模)¶
- 用户动作表示为 twist vector \(A_i = [\mathbf{v}_i; \boldsymbol{\omega}_i] \in \mathbb{R}^6\)(线速度 + 角速度)
- 通过矩阵指数映射得到精确的相对位姿:\(\Delta P_i = \exp(\hat{A}_i) \in SE(3)\)
- vs 线性近似: 在 SE(3) 流形上联合积分平移和旋转——处理键盘+鼠标耦合输入时几何精确
2. Camera-Controlled Video Generation¶
- 相对位姿累积为全局位姿 → 转换为 Plücker 嵌入 \(\hat{P} \in \mathbb{R}^{F \times 6}\)
- 轻量 MLP 相机嵌入模块 \(c_\phi\),在每个自注意力层后注入 DiT 特征
- 基座模型: Wan2.1-1.3B-T2V
3. Pose-Anchored Long-Term Memory(3D 一致性)¶
- 记忆池: 存储所有历史生成 latent 及其全局相机位姿
- 分层检索: 先按位置距离选 top-K → 再按朝向对齐度选 top-L
- 检索到的 latent 拼接到当前序列,其相机位姿嵌入建立几何对应 → 重访相同位置时保持一致
4. Progressive Autoregressive Inference¶
- 渐进噪声调度: 窗口内各帧分配单调递增的噪声等级——前帧是可靠锚点,后帧可修正
- Attention Sink: 固定全局初始帧作为注意力锚点——防止长序列的色彩饱和/UI 失真
- 短期记忆: 最近生成的 latent 作为短期上下文减少误差漂移
数据集: WorldCam-50h¶
- 规模: 3000 分钟真人游戏视频(Counter-Strike + Xonotic + Unvanquished)
- 标注: Qwen2.5-VL-7B 生成文本描述 + ViPE 估计伪真值相机位姿
- 多样性: 涵盖导航、快速 360° 旋转、反向穿越等复杂行为
实验关键数据¶
| 方法 | RPE_trans ↓ | RPE_rot ↓ | RPE_camera ↓ | 视觉 Avg ↑ |
|---|---|---|---|---|
| Yume | 0.111 | 2.222 | 0.137 | 0.774 |
| Matrix-Game 2.0 | 0.098 | 1.656 | 0.119 | 0.766 |
| GameCraft | 0.086 | 1.146 | 0.100 | 0.781 |
| WorldCam | 0.080 | 0.696 | 0.086 | 0.844 |
- 旋转误差 RPE_rot 仅 0.696°(GameCraft 1.146°),精确动作控制
- 背景一致性 0.959 vs GameCraft 0.850——长程 3D 一致性显著提升
- 三阶段训练:相机控制 → 渐进 AR → 长期记忆
亮点与洞察¶
- 李代数建模的必要性: 键盘前进 + 鼠标旋转产生螺旋运动——线性解耦近似几何不正确
- 相机位姿的双重作用: 既是动作控制信号(局部),又是 3D 一致性索引(全局)
- 渐进噪声 + Attention Sink: 两个工程技巧缓解 AR 长序列生成的误差累积和风格漂移
- 开放数据集: Xonotic 和 Unvanquished 开放许可——促进可复现研究
局限性 / 可改进方向¶
- 静态场景: 不处理动态物体(NPC、物理交互)
- 伪真值位姿: ViPE 估计的相机轨迹有误差,需要额外过滤
- 1.3B 模型: 视觉质量受基座模型规模限制
- 单人探索: 不支持多 agent 交互
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 李代数动作建模 + 位姿统一的双重角色,设计优雅
- 实验充分度: ⭐⭐⭐⭐ 多基线对比 + 3D 一致性 + 消融
- 写作质量: ⭐⭐⭐⭐⭐ 几何推导严谨,整体架构清晰
- 价值: ⭐⭐⭐⭐⭐ 交互式世界模型的重要进展