SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation¶
会议: CVPR 2026
arXiv: 2512.03350
代码: https://yuyuanspace.com/SeeU/ (数据和代码公开)
领域: 视频理解 / 4D生成 / 动态场景重建
关键词: 4D动态建模、连续动力学、时空生成、B样条、物理一致性
一句话总结¶
提出 SeeU,一个 2D→4D→2D 的学习框架:从稀疏单目 2D 帧重建 4D 世界表示,在低秩表示上学习连续且物理一致的 4D 动力学(B 样条参数化 + 物理约束),最后将 4D 世界重投影回 2D 并用时空上下文感知的视频生成器补全未知区域,实现跨时间和空间的未见视觉内容生成。
研究背景与动机¶
- 领域现状:视频生成、帧插值、帧预测等任务主要在 2D 像素或隐空间中通过端到端学习建模动态。大规模视频扩散模型(如 Sora、Wan)在分布内场景表现良好。World model 相关工作在低维隐空间中学习动态以提高效率。
- 现有痛点:直接在 2D 帧上建模动态存在三大根本局限:(a) 图像和视频是 4D 世界(3D 空间 + 时间)在 2D 上的离散投影,直接在 2D 上学会丢失重要的 3D 结构和时间相关性;(b) 观测混合了相机运动和场景动态,不断变化的相机位姿增加了运动的复杂性和不规则性;(c) 在复杂分布外场景(遮挡、非刚性形变等)中,缺乏 3D 或物理监督的 2D 模型经常无法捕捉真实的几何和物理动态。
- 核心矛盾:真实世界的运动在 4D 空间中通常是简单且有结构的(受生物/机械约束、经典力学、对称性等约束),但投影到 2D 后变得复杂且病态。在 4D 中建模动态可以自然地利用这些物理先验,但现有方法要么停留在 2D,要么在 4D 重建中缺乏连续动力学建模。
- 本文目标 (1) 如何从稀疏单目帧重建 4D 动态场景?(2) 如何学习连续且物理一致的 4D 动力学?(3) 如何从 4D 世界生成任意时间和视角的 2D 内容?
- 切入角度:在原生 4D 空间中建模连续动力学的三大优势——3D 感知(显式 3D 表示处理遮挡/视角变化)、物理一致性(4D 中运动更简单,可用物理先验约束)、运动解耦(统一 4D 坐标系中相机/前景/背景可以被显式分离)。
- 核心 idea:通过 2D→4D→2D 的信息流动——先从 2D 提升到 4D 世界表示,在 4D 中用 B 样条学习连续物理一致动力学,再投影回 2D 并上下文补全——实现对未见时间和空间的生成。
方法详解¶
整体框架¶
SeeU 是一个三阶段管线: - Stage 1 (2D→4D):从稀疏单目帧重建动态 4D 场景,得到一组带有逐帧变换的 3D 高斯基元和相机位姿。 - Stage 2 (离散4D→连续4D):在低秩运动基上用 B 样条参数化学习连续时间动力学函数,施加物理正则化确保平滑和物理一致。 - Stage 3 (4D→2D):将 4D 世界演化到任意时间/视角,渲染 2D 支架帧(可能不完整),用时空上下文感知视频生成器补全缺失区域。
关键设计¶
-
动态场景重建 (2D→4D):
- 功能:从稀疏单目帧构建统一的 4D 表示
- 核心思路:基于 Shape-of-Motion 框架。用一组 canonical 3D 高斯 \(\{g_0^i\}_{i=1}^N\)(含位置 \(\mu_0^i\)、朝向 \(R_0^i\)、尺度 \(s^i\)、不透明度 \(o^i\)、颜色 \(c^i\))表示场景。每个高斯通过逐帧刚性变换 \(T_{0 \to t} \in SE(3)\) 从 canonical 帧演化到帧 \(t\):\(\mu_t^i = R_{0 \to t} \mu_0^i + t_{0 \to t}\)。预处理使用 MegaSaM 估计相机参数和深度、Track-Anything 分割前景、TAPIR 提取 2D 点轨迹。
- 设计动机:选择 Shape-of-Motion 因为它兼容弱视差的普通输入,并能显式分离静态和动态区域。
-
连续 4D 动力学模型 (C4DD):
- 功能:将离散帧级运动基和相机位姿拟合为连续时间函数,支持任意时间的插值和外推
- 核心思路:解决两个挑战。效率:前景高斯数量大(~80K),不可能为每个学独立轨迹。采用低秩运动参数化:\(P_t^i = P_0^i + B(t) w_i\),其中 \(B(t) \in \mathbb{R}^{m \times K}\) 是全局共享的运动基函数(\(K \ll N\)),\(w_i\) 是每个高斯的时不变系数。物理一致性:观察到运动基轨迹在 \(SE(3)\) 中呈现简单平滑的时间趋势(尽管原始视频中运动可能复杂),因此用三次 B 样条参数化:\(\hat{B}_t = \sum_{j=1}^M N_{j,d}(t) q_j\)。训练时联合优化相机和运动基,用数据损失 \(\mathcal{L}_{data}\) 贴合离散观测,加物理损失 \(\mathcal{L}_{phys}\) 惩罚运动基和相机轨迹的平移/旋转加速度,且对外推区域权重更大。
- 设计动机:B 样条相比 MLP 具有天然的平滑归纳偏置(消融实验中 MLP 变体产生噪声大、不平滑的轨迹)。控制点数 \(M\) 控制容量-平滑权衡。物理损失防止非物理的突变。
-
时空上下文视频生成 (4D→2D):
- 功能:将 4D 世界投影为可能不完整的 2D 支架帧,用生成模型补全未见区域
- 核心思路:利用 C4DD 学到的连续动力学,将场景演化到任意时间戳和相机位姿,渲染 2D 投影作为视频"骨架"。骨架中三类区域需要补全:(1) 从未观测的区域(新视角/遮挡区域),(2) 投影高斯低置信度区域,(3) 深度不连续处的投影伪影。利用 VACE 视频生成模型,注入三种上下文先验:VLM 生成的结构化文本提示(全局语义+修复指示)、投影帧(几何和光度参考)、逐帧修复掩码(标记不确定区域)。
- 设计动机:纯重建方法在未见区域会产生空洞或伪影,需要生成模型利用时空上下文补全细节。三种先验提供了从语义、结构到空间的完整引导信息。
损失函数 / 训练策略¶
- Stage 1:80K 前景 + 80K 背景高斯,10 个运动基,4000 迭代,典型 10 帧 960×540 约 1 小时
- Stage 2:三次 B 样条(degree=3),8 个控制点,\(\lambda_{phy} = 1 \times 10^{-4}\),lr=1e-5,batch=64,1000 epoch 约 10 分钟
- Stage 3:在多语义掩码分布上微调 VACE,约 2 小时
- 所有阶段在单块 A100 80GB 上完成
实验关键数据¶
主实验¶
时间域未见生成(SeeU45 数据集):
| 方法 | Past PSNR↑ | Interp PSNR↑ | Future PSNR↑ | Past LPIPS↓ | Interp LPIPS↓ | Future LPIPS↓ |
|---|---|---|---|---|---|---|
| SoM | 15.55 | 16.37 | 15.43 | 0.388 | 0.356 | 0.389 |
| InterpAny | - | 20.54 | - | - | 0.242 | - |
| VACE | 17.14 | 18.16 | 17.71 | 0.367 | 0.359 | 0.354 |
| SeeU | 20.47 | 21.07 | 20.54 | 0.248 | 0.227 | 0.243 |
空间域未见生成(EE↓越低越好,EIR↑越高越好):
| 方法 | Dolly Out EE↓ | EIR↑ | CLIP-V↑ |
|---|---|---|---|
| ReCamMaster | 0.238 | 0.674 | 0.937 |
| SeeU | 0.200 | 0.785 | 0.969 |
消融实验¶
| 配置 | PSNR↑ | LPIPS↓ | EE↓ | CLIP-V↑ |
|---|---|---|---|---|
| C4DD w/ MLP | 17.54 | 0.427 | 0.313 | 0.739 |
| w/o physics loss | 19.36 | 0.274 | 0.224 | 0.920 |
| 5 frames input | 18.36 | 0.305 | 0.285 | 0.928 |
| 10 frames input | 20.16 | 0.251 | 0.204 | 0.955 |
| 15 frames input | 20.39 | 0.241 | 0.200 | 0.958 |
| 20 frames input | 21.08 | 0.239 | 0.197 | 0.960 |
关键发现¶
- B 样条 >> MLP:MLP 变体 PSNR 降低 3.5 个点,LPIPS 增加 0.19,说明 B 样条的平滑归纳偏置对连续动力学建模至关重要——MLP 虽然能拟合趋势但轨迹噪声大。
- 物理损失很重要:去掉 \(\mathcal{L}_{phys}\) 后帧间一致性显著下降,尤其在外推区域。
- 对稀疏输入鲁棒:从 20 帧减到 5 帧时 PSNR 仅下降约 2.7,C4DD 能在极稀疏观测下保持合理的时间连续性。
- 时间预测误差近似线性增长:外推精度与时间距离大致线性衰减,符合物理直觉。
- SeeU 在三个时间子任务(过去推断、动态插值、未来预测)上全面超越各专项模型。
亮点与洞察¶
- 2D→4D→2D 的信息流设计理念:不直接在 2D 上做端到端学习,而是先提升到 4D 理解世界再回到 2D 生成,这种"理解优先"的范式与单纯数据驱动的生成形成鲜明对比。可迁移思路:对于任何涉及物理规律的生成任务,先在物理空间建模再投影到观测空间可能更好。
- 低秩运动参数化 + B 样条:两层简化——先用低秩分解将 80K 个高斯的运动压缩到 10 个基函数,再用 B 样条将离散基函数连续化。这种逐层简化复杂动力学的策略优雅高效。
- 未见区域补全的三重先验注入:文本语义 + 投影结构 + 空间掩码的组合为视频生成器提供了从"应该生成什么"到"在哪里生成"的完整指导链。
局限与展望¶
- 受限于底层模块(跟踪、相机估计、4D 重建)的质量——小目标、缺乏纹理的前景会导致失败
- 当前聚焦于具有显著、平滑、时间稳定前景运动的场景,对高度非刚性或突变运动支持有限
- Stage 1 的 4D 重建(~1 小时)是效率瓶颈,难以实时应用
- SeeU45 数据集仅 45 个场景,虽然覆盖多样但规模较小
- 外推精度随时间线性衰减,长程预测的物理一致性仍需改进
相关工作与启发¶
- vs Shape-of-Motion (SoM): SeeU 的 Stage 1 基于 SoM,但 SoM 仅提供离散帧级重建,时间外推只能线性插值/外推,效果差(PSNR 15.5)。SeeU 在 SoM 基础上加了连续动力学建模和上下文补全,PSNR 提升到 20.5。
- vs VACE: VACE 是纯 2D 的视频帧修复方法,没有 3D 感知。SeeU 为 VACE 提供了 4D 投影的支架帧和精确掩码,让 VACE 不再需要猜测几何结构。
- vs ReCamMaster: 相机可控视频生成模型,但缺乏显式 3D 重建。SeeU 在几何一致性(EE/EIR)和场景连贯性(CLIP-V)上全面超越。
- vs 物理感知视频生成: 之前的方法要么先生成后物理模拟、要么先模拟后生成、要么用蒸馏的物理先验引导生成。SeeU 直接从多帧观测推断确定性动力学并作为生成的物理骨架,是一种新范式。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 2D→4D→2D 的信息流设计理念创新,在原生 4D 空间中学习连续动力学是全新思路
- 实验充分度: ⭐⭐⭐⭐ 覆盖时间和空间两大维度、消融充分,但数据集规模较小(45 场景)
- 写作质量: ⭐⭐⭐⭐⭐ 动机论述深刻(Section 2 单独分析为何要在 4D 中建模),图表清晰
- 价值: ⭐⭐⭐⭐ 为物理一致的视频生成和 world model 开辟了新方向,但实用性受限于效率和场景限制
相关论文¶
- [AAAI 2026] Seeing the Unseen: Zooming in the Dark with Event Cameras
- [CVPR 2026] NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
- [ICLR 2026] Geometry-aware 4D Video Generation for Robot Manipulation
- [CVPR 2026] SymphoMotion: Joint Control of Camera Motion and Object Dynamics for Coherent Video Generation
- [CVPR 2026] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics