SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation¶

会议: CVPR 2026
arXiv: 2512.03350
代码: https://yuyuanspace.com/SeeU/ (数据和代码公开)
领域: 视频理解 / 4D生成 / 动态场景重建
关键词: 4D动态建模、连续动力学、时空生成、B样条、物理一致性

一句话总结¶

提出 SeeU，一个 2D→4D→2D 的学习框架：从稀疏单目 2D 帧重建 4D 世界表示，在低秩表示上学习连续且物理一致的 4D 动力学（B 样条参数化 + 物理约束），最后将 4D 世界重投影回 2D 并用时空上下文感知的视频生成器补全未知区域，实现跨时间和空间的未见视觉内容生成。

研究背景与动机¶

领域现状：视频生成、帧插值、帧预测等任务主要在 2D 像素或隐空间中通过端到端学习建模动态。大规模视频扩散模型（如 Sora、Wan）在分布内场景表现良好。World model 相关工作在低维隐空间中学习动态以提高效率。
现有痛点：直接在 2D 帧上建模动态存在三大根本局限：(a) 图像和视频是 4D 世界（3D 空间 + 时间）在 2D 上的离散投影，直接在 2D 上学会丢失重要的 3D 结构和时间相关性；(b) 观测混合了相机运动和场景动态，不断变化的相机位姿增加了运动的复杂性和不规则性；(c) 在复杂分布外场景（遮挡、非刚性形变等）中，缺乏 3D 或物理监督的 2D 模型经常无法捕捉真实的几何和物理动态。
核心矛盾：真实世界的运动在 4D 空间中通常是简单且有结构的（受生物/机械约束、经典力学、对称性等约束），但投影到 2D 后变得复杂且病态。在 4D 中建模动态可以自然地利用这些物理先验，但现有方法要么停留在 2D，要么在 4D 重建中缺乏连续动力学建模。
本文目标 (1) 如何从稀疏单目帧重建 4D 动态场景？(2) 如何学习连续且物理一致的 4D 动力学？(3) 如何从 4D 世界生成任意时间和视角的 2D 内容？
切入角度：在原生 4D 空间中建模连续动力学的三大优势——3D 感知（显式 3D 表示处理遮挡/视角变化）、物理一致性（4D 中运动更简单，可用物理先验约束）、运动解耦（统一 4D 坐标系中相机/前景/背景可以被显式分离）。
核心 idea：通过 2D→4D→2D 的信息流动——先从 2D 提升到 4D 世界表示，在 4D 中用 B 样条学习连续物理一致动力学，再投影回 2D 并上下文补全——实现对未见时间和空间的生成。

方法详解¶

整体框架¶

SeeU 是一个三阶段管线： - Stage 1 (2D→4D)：从稀疏单目帧重建动态 4D 场景，得到一组带有逐帧变换的 3D 高斯基元和相机位姿。 - Stage 2 (离散4D→连续4D)：在低秩运动基上用 B 样条参数化学习连续时间动力学函数，施加物理正则化确保平滑和物理一致。 - Stage 3 (4D→2D)：将 4D 世界演化到任意时间/视角，渲染 2D 支架帧（可能不完整），用时空上下文感知视频生成器补全缺失区域。

关键设计¶

动态场景重建 (2D→4D)：
- 功能：从稀疏单目帧构建统一的 4D 表示
- 核心思路：基于 Shape-of-Motion 框架。用一组 canonical 3D 高斯 \(\{g_0^i\}_{i=1}^N\)（含位置 \(\mu_0^i\)、朝向 \(R_0^i\)、尺度 \(s^i\)、不透明度 \(o^i\)、颜色 \(c^i\)）表示场景。每个高斯通过逐帧刚性变换 \(T_{0 \to t} \in SE(3)\) 从 canonical 帧演化到帧 \(t\)：\(\mu_t^i = R_{0 \to t} \mu_0^i + t_{0 \to t}\)。预处理使用 MegaSaM 估计相机参数和深度、Track-Anything 分割前景、TAPIR 提取 2D 点轨迹。
- 设计动机：选择 Shape-of-Motion 因为它兼容弱视差的普通输入，并能显式分离静态和动态区域。
连续 4D 动力学模型 (C4DD)：
- 功能：将离散帧级运动基和相机位姿拟合为连续时间函数，支持任意时间的插值和外推
- 核心思路：解决两个挑战。效率：前景高斯数量大（~80K），不可能为每个学独立轨迹。采用低秩运动参数化：\(P_t^i = P_0^i + B(t) w_i\)，其中 \(B(t) \in \mathbb{R}^{m \times K}\) 是全局共享的运动基函数（\(K \ll N\)），\(w_i\) 是每个高斯的时不变系数。物理一致性：观察到运动基轨迹在 \(SE(3)\) 中呈现简单平滑的时间趋势（尽管原始视频中运动可能复杂），因此用三次 B 样条参数化：\(\hat{B}_t = \sum_{j=1}^M N_{j,d}(t) q_j\)。训练时联合优化相机和运动基，用数据损失 \(\mathcal{L}_{data}\) 贴合离散观测，加物理损失 \(\mathcal{L}_{phys}\) 惩罚运动基和相机轨迹的平移/旋转加速度，且对外推区域权重更大。
- 设计动机：B 样条相比 MLP 具有天然的平滑归纳偏置（消融实验中 MLP 变体产生噪声大、不平滑的轨迹）。控制点数 \(M\) 控制容量-平滑权衡。物理损失防止非物理的突变。
时空上下文视频生成 (4D→2D)：
- 功能：将 4D 世界投影为可能不完整的 2D 支架帧，用生成模型补全未见区域
- 核心思路：利用 C4DD 学到的连续动力学，将场景演化到任意时间戳和相机位姿，渲染 2D 投影作为视频"骨架"。骨架中三类区域需要补全：(1) 从未观测的区域（新视角/遮挡区域），(2) 投影高斯低置信度区域，(3) 深度不连续处的投影伪影。利用 VACE 视频生成模型，注入三种上下文先验：VLM 生成的结构化文本提示（全局语义+修复指示）、投影帧（几何和光度参考）、逐帧修复掩码（标记不确定区域）。
- 设计动机：纯重建方法在未见区域会产生空洞或伪影，需要生成模型利用时空上下文补全细节。三种先验提供了从语义、结构到空间的完整引导信息。

损失函数 / 训练策略¶

Stage 1：80K 前景 + 80K 背景高斯，10 个运动基，4000 迭代，典型 10 帧 960×540 约 1 小时
Stage 2：三次 B 样条（degree=3），8 个控制点，\(\lambda_{phy} = 1 \times 10^{-4}\)，lr=1e-5，batch=64，1000 epoch 约 10 分钟
Stage 3：在多语义掩码分布上微调 VACE，约 2 小时
所有阶段在单块 A100 80GB 上完成

实验关键数据¶

主实验¶

时间域未见生成（SeeU45 数据集）：

方法	Past PSNR↑	Interp PSNR↑	Future PSNR↑	Past LPIPS↓	Interp LPIPS↓	Future LPIPS↓
SoM	15.55	16.37	15.43	0.388	0.356	0.389
InterpAny	-	20.54	-	-	0.242	-
VACE	17.14	18.16	17.71	0.367	0.359	0.354
SeeU	20.47	21.07	20.54	0.248	0.227	0.243

空间域未见生成（EE↓越低越好，EIR↑越高越好）：

方法	Dolly Out EE↓	EIR↑	CLIP-V↑
ReCamMaster	0.238	0.674	0.937
SeeU	0.200	0.785	0.969

消融实验¶

配置	PSNR↑	LPIPS↓	EE↓	CLIP-V↑
C4DD w/ MLP	17.54	0.427	0.313	0.739
w/o physics loss	19.36	0.274	0.224	0.920
5 frames input	18.36	0.305	0.285	0.928
10 frames input	20.16	0.251	0.204	0.955
15 frames input	20.39	0.241	0.200	0.958
20 frames input	21.08	0.239	0.197	0.960

关键发现¶

B 样条 >> MLP：MLP 变体 PSNR 降低 3.5 个点，LPIPS 增加 0.19，说明 B 样条的平滑归纳偏置对连续动力学建模至关重要——MLP 虽然能拟合趋势但轨迹噪声大。
物理损失很重要：去掉 \(\mathcal{L}_{phys}\) 后帧间一致性显著下降，尤其在外推区域。
对稀疏输入鲁棒：从 20 帧减到 5 帧时 PSNR 仅下降约 2.7，C4DD 能在极稀疏观测下保持合理的时间连续性。
时间预测误差近似线性增长：外推精度与时间距离大致线性衰减，符合物理直觉。
SeeU 在三个时间子任务（过去推断、动态插值、未来预测）上全面超越各专项模型。

亮点与洞察¶

2D→4D→2D 的信息流设计理念：不直接在 2D 上做端到端学习，而是先提升到 4D 理解世界再回到 2D 生成，这种"理解优先"的范式与单纯数据驱动的生成形成鲜明对比。可迁移思路：对于任何涉及物理规律的生成任务，先在物理空间建模再投影到观测空间可能更好。
低秩运动参数化 + B 样条：两层简化——先用低秩分解将 80K 个高斯的运动压缩到 10 个基函数，再用 B 样条将离散基函数连续化。这种逐层简化复杂动力学的策略优雅高效。
未见区域补全的三重先验注入：文本语义 + 投影结构 + 空间掩码的组合为视频生成器提供了从"应该生成什么"到"在哪里生成"的完整指导链。

局限与展望¶

受限于底层模块（跟踪、相机估计、4D 重建）的质量——小目标、缺乏纹理的前景会导致失败
当前聚焦于具有显著、平滑、时间稳定前景运动的场景，对高度非刚性或突变运动支持有限
Stage 1 的 4D 重建（~1 小时）是效率瓶颈，难以实时应用
SeeU45 数据集仅 45 个场景，虽然覆盖多样但规模较小
外推精度随时间线性衰减，长程预测的物理一致性仍需改进

评分¶

新颖性: ⭐⭐⭐⭐⭐ 2D→4D→2D 的信息流设计理念创新，在原生 4D 空间中学习连续动力学是全新思路
实验充分度: ⭐⭐⭐⭐ 覆盖时间和空间两大维度、消融充分，但数据集规模较小（45 场景）
写作质量: ⭐⭐⭐⭐⭐ 动机论述深刻（Section 2 单独分析为何要在 4D 中建模），图表清晰
价值: ⭐⭐⭐⭐ 为物理一致的视频生成和 world model 开辟了新方向，但实用性受限于效率和场景限制