WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as Unifying Representation¶

日期: 2026-03-17
arXiv: 2603.16871
领域: 图像生成 / 世界模型
关键词: 交互式3D世界, 视频扩散Transformer, 相机位姿, 6-DoF, Lie代数, 长序列生成, 游戏世界

一句话总结¶

以相机位姿为统一几何表示，在李代数 \(\mathfrak{se}(3)\) 上严格建模用户动作 → 6-DoF 相机位姿，通过 Plücker 嵌入注入视频 DiT + 位姿索引的长期记忆池实现 3D 一致性，配合渐进式自回归推理和 attention sink 支持长序列生成，在 3000 分钟游戏数据上超越 SOTA。

研究背景与动机¶

领域现状: 视频扩散 Transformer 已能生成逼真视频，近期工作开始探索交互式游戏世界模型——但精确动作控制和长程 3D 一致性仍是难题。
现有痛点: (a) 先前方法将用户动作作为抽象条件信号注入，忽略动作与 3D 世界的几何耦合；(b) GameCraft 用线性近似将动作转为位姿，但解耦了平移和旋转——无法处理螺旋运动等耦合动力学；(c) 缺乏大规模、开放许可的游戏数据集。
核心洞察: 在游戏中，用户动作本质上是相对相机运动——动作控制和 3D 一致性通过相机位姿统一。

方法详解¶

1. Action-to-Camera Mapping（李代数建模）¶

用户动作表示为 twist vector \(A_i = [\mathbf{v}_i; \boldsymbol{\omega}_i] \in \mathbb{R}^6\)（线速度 + 角速度）
通过矩阵指数映射得到精确的相对位姿：\(\Delta P_i = \exp(\hat{A}_i) \in SE(3)\)
vs 线性近似: 在 SE(3) 流形上联合积分平移和旋转——处理键盘+鼠标耦合输入时几何精确

2. Camera-Controlled Video Generation¶

相对位姿累积为全局位姿 → 转换为 Plücker 嵌入 \(\hat{P} \in \mathbb{R}^{F \times 6}\)
轻量 MLP 相机嵌入模块 \(c_\phi\)，在每个自注意力层后注入 DiT 特征
基座模型: Wan2.1-1.3B-T2V

3. Pose-Anchored Long-Term Memory（3D 一致性）¶

记忆池: 存储所有历史生成 latent 及其全局相机位姿
分层检索: 先按位置距离选 top-K → 再按朝向对齐度选 top-L
检索到的 latent 拼接到当前序列，其相机位姿嵌入建立几何对应 → 重访相同位置时保持一致

4. Progressive Autoregressive Inference¶

渐进噪声调度: 窗口内各帧分配单调递增的噪声等级——前帧是可靠锚点，后帧可修正
Attention Sink: 固定全局初始帧作为注意力锚点——防止长序列的色彩饱和/UI 失真
短期记忆: 最近生成的 latent 作为短期上下文减少误差漂移

数据集: WorldCam-50h¶

规模: 3000 分钟真人游戏视频（Counter-Strike + Xonotic + Unvanquished）
标注: Qwen2.5-VL-7B 生成文本描述 + ViPE 估计伪真值相机位姿
多样性: 涵盖导航、快速 360° 旋转、反向穿越等复杂行为

实验关键数据¶

方法	RPE_trans ↓	RPE_rot ↓	RPE_camera ↓	视觉 Avg ↑
Yume	0.111	2.222	0.137	0.774
Matrix-Game 2.0	0.098	1.656	0.119	0.766
GameCraft	0.086	1.146	0.100	0.781
WorldCam	0.080	0.696	0.086	0.844

旋转误差 RPE_rot 仅 0.696°（GameCraft 1.146°），精确动作控制
背景一致性 0.959 vs GameCraft 0.850——长程 3D 一致性显著提升
三阶段训练：相机控制 → 渐进 AR → 长期记忆

亮点与洞察¶

李代数建模的必要性: 键盘前进 + 鼠标旋转产生螺旋运动——线性解耦近似几何不正确
相机位姿的双重作用: 既是动作控制信号（局部），又是 3D 一致性索引（全局）
渐进噪声 + Attention Sink: 两个工程技巧缓解 AR 长序列生成的误差累积和风格漂移
开放数据集: Xonotic 和 Unvanquished 开放许可——促进可复现研究

局限性 / 可改进方向¶

静态场景: 不处理动态物体（NPC、物理交互）
伪真值位姿: ViPE 估计的相机轨迹有误差，需要额外过滤
1.3B 模型: 视觉质量受基座模型规模限制
单人探索: 不支持多 agent 交互

评分¶

新颖性: ⭐⭐⭐⭐⭐ 李代数动作建模 + 位姿统一的双重角色，设计优雅
实验充分度: ⭐⭐⭐⭐ 多基线对比 + 3D 一致性 + 消融
写作质量: ⭐⭐⭐⭐⭐ 几何推导严谨，整体架构清晰
价值: ⭐⭐⭐⭐⭐ 交互式世界模型的重要进展