跳转至

Flux4D: Flow-based Unsupervised 4D Reconstruction

会议: NeurIPS 2025
arXiv: 2512.03210
代码: https://waabi.ai/flux4d
领域: 3D视觉 / 自动驾驶 / 4D重建
关键词: 4D重建, 无监督, 3D高斯, 场景流, 自动驾驶

一句话总结

提出 Flux4D,一个无监督且可泛化的 4D 动态驾驶场景重建框架,通过前馈网络直接预测 3D 高斯及其运动速度,仅用光度损失和静态偏好正则化实现大规模场景重建,在 PandaSet 和 Waymo 上超越所有无监督方法并接近有监督方法的性能。

研究背景与动机

  1. 领域现状:从视觉观测重建 4D 动态场景是计算机视觉的核心问题。当前方法主要基于 NeRF 或 3DGS 的可微渲染,通过将场景分解为静态背景和动态物体来建模,但需要人工标注的 3D tracklets 或动态 mask 来区分静动态。
  2. 现有痛点:(a) 人工标注成本高且难以扩展到大量未标注数据;(b) 使用预训练感知模型自动标注会引入噪声和伪影;(c) 现有无监督方法依赖复杂正则化(几何约束、循环一致性、多阶段训练),对超参敏感且训练慢(需数小时/场景);(d) 已有泛化方法仅能处理少量低分辨率输入(≤12 帧,≤360px)。
  3. 核心矛盾:标注昂贵 + 逐场景优化耗时 = 难以扩展到大规模数据。
  4. 本文要解决什么:如何在不使用任何标注的前提下,实现快速(秒级)、可扩展且可泛化的 4D 场景重建?
  5. 切入角度:跨大量场景训练让网络自动学会静/动分解(数据驱动先验);结合 LiDAR 处理高分辨率(≥1080p)密集多视角(≥60 帧)输入。
  6. 核心idea一句话:极简设计(仅光度损失 + 静态偏好正则),通过跨场景学习让前馈网络自动实现静动态分解和 4D 重建。

方法详解

整体框架

输入:多时间步的相机图像 \(\mathcal{I} = \{\mathbf{I}_k\}\) 和 LiDAR 点云 \(\mathcal{P} = \{\mathbf{P}_k\}\)。输出:带几何、外观和 3D 流的场景表示。流程分三步:(1) 从每帧传感器数据初始化 3D 高斯;(2) 用网络预测 3D 流和精细化属性;(3) 仅通过重建损失和静态偏好损失训练。

关键设计

  1. LiDAR 引导的场景初始化:
  2. 做什么:从 LiDAR 点云初始化 3D 高斯的位置、尺度和颜色
  3. 核心思路:高斯位置从 LiDAR 点 \(\mathbf{P}_k\) 初始化,尺度由邻近点平均距离决定,颜色通过将点投影到对应相机图像 \(\mathbf{I}_k\) 获取。每个高斯附加时间戳 \(t_i\) 和初始速度 \(\mathbf{v}_i = 0\)。额外在远距离球面上放置随机点来建模天空
  4. 设计动机:利用自动驾驶场景中常见的 LiDAR 数据,避免从头学习几何,使系统能处理高分辨率(≥1920×1080)密集输入

  5. 前馈流预测网络:

  6. 做什么:用 3D 稀疏卷积 U-Net 从初始高斯预测精细化属性和运动速度
  7. 核心思路:\(\mathcal{G}, \mathcal{V} = f_\theta(\mathcal{G}_{\mathrm{init}}, \mathcal{T})\),其中 \(\mathcal{V} = \{\mathbf{v}_i\}\) 为每个高斯的 3D 速度。利用线性运动模型将高斯从源时间步传播到目标时间步:\(\mathbf{p}_i^{t'} = \mathbf{p}_i^{t_i} + \mathbf{v}_i \cdot (t' - t_i)\)
  8. 设计动机:前馈推理(秒级)替代逐场景优化(小时级);3D 空间设计保证跨视角几何一致性,减少外观-运动歧义

  9. "尽可能静态"正则化与无监督学习:

  10. 做什么:仅用重建损失和速度正则化训练,无需复杂正则化方案
  11. 核心思路:总损失 \(\mathcal{L} = \mathcal{L}_{\text{recon}} + \lambda_{\text{vel}} \mathcal{L}_{\text{vel}}\),其中重建损失 \(\mathcal{L}_{\text{recon}} = \lambda_{\text{rgb}} \mathcal{L}_{\text{rgb}} + \lambda_{\text{SSIM}} \mathcal{L}_{\text{SSIM}} + \lambda_{\text{depth}} \mathcal{L}_{\text{depth}}\),速度正则化 \(\mathcal{L}_{\text{vel}} = \frac{1}{M}\sum_i \|\mathbf{v}_i\|_2\) 鼓励高斯尽量不动
  12. 设计动机:跨大量场景训练使网络自动学会静/动分解,数据驱动先验替代手工正则化。这是本文最关键的发现

  13. 迭代精细化与运动增强(Flux4D-full):

  14. 做什么:通过 3D 梯度反馈迭代精细化外观,用多项式运动模型替代线性模型
  15. 核心思路:前向传播后计算 3D 梯度作为反馈输入到精细化网络 \(f_\phi\),2 次迭代即可修正颜色不一致和细节缺失。渲染 2D 流对运动区域加权,让高速运动区域获得更大损失权重
  16. 设计动机:单次前馈容量有限,迭代反馈提升细节;像素级流重加权解决动态物体占比少导致的损失贡献不平衡

损失函数 / 训练策略

  • 损失权重:\(\lambda_{\text{rgb}}=0.8, \lambda_{\text{SSIM}}=0.2, \lambda_{\text{depth}}=0.01, \lambda_{\text{vel}}=5\times10^{-3}\)
  • 训练在 4×L40S GPU 上进行 30,000 次迭代(约 2 天),跨 PandaSet 93 个训练场景
  • 处理全分辨率图像(≥1920×1080),推理每个 1s 片段约 1.8 秒

实验关键数据

主实验(PandaSet 新视角合成,1s 片段)

方法 无监督? 泛化? Dynamic PSNR↑ Full PSNR↑ D_RMSE↓ V_RMSE↓ 速度
NeuRAD (有标注) 23.01 24.61 2.30 ~60min
StreetGS (有标注) 20.06 23.38 0.84 ~28min
G3R (有标注) 21.85 24.35 1.96 17s
EmerNeRF† 17.79 22.80 4.24 0.432 ~100min
DeSiRe-GS† 19.08 22.25 24.89 0.322 ~120min
STORM† 17.65 20.79 4.80 0.238 0.07s
Flux4D (Ours) 21.99 23.84 1.07 0.157 1.8s

在 Waymo 数据集上,Flux4D 比 DrivingRecon 提升 +5.99 dB PSNR,SSIM +0.21。

消融 / 分析

配置 Dynamic PSNR↑ Full PSNR↑ 说明
Flux4D-base(线性运动) 21.43 23.52 基础版本
+ 迭代精细化 21.75 23.72 细节提升
+ 运动增强 21.99 23.84 完整模型
1 场景训练 较低 较低 单场景过拟合
93 场景训练 21.99 23.84 数据越多越好

关键发现

  • 跨场景训练是关键:在更多场景上训练显著提升静动态分解质量,数据驱动先验比手工正则化更有效
  • 无监督 Flux4D 的动态区域 PSNR(21.99)已接近有标注的 G3R(21.85)
  • 在未来帧预测任务上,Flux4D 甚至超越了有标注的有监督方法(PSNR 19.07 vs G3R 18.93)
  • 场景流估计虽非主要目标,但 Flux4D 在多数指标上超越专门的场景流方法

亮点与洞察

  • 极简主义设计哲学:仅用光度损失+速度正则化,靠跨场景训练的数据先验实现静动态分解。对复杂系统设计有普遍启发——简单方法+大数据可能优于复杂方法+小数据
  • 3D 空间设计 vs 2D 像素空间:在 3D 空间预测高斯和流,天然保证跨视角一致性,且能处理更多高分辨率输入帧
  • LiDAR 初始化的巧妙利用:将 LiDAR 点云作为初始化而非监督信号,保持无监督性质的同时提供良好几何先验

局限性 / 可改进方向

  • 线性/多项式运动模型对非刚体运动(行人关节)建模能力有限
  • 依赖 LiDAR 数据,限制了向纯视觉自动驾驶的迁移
  • 短时间窗口(约 1s)内的恒速假设,长时间预测可能累积误差
  • 训练需 4 块 48GB GPU 共 2 天,计算成本仍然较高

相关工作与启发

  • vs EmerNeRF/DeSiRe-GS:逐场景优化的无监督方法,需预训练视觉模型辅助,训练需 1-2 小时/场景。Flux4D 推理仅 1.8 秒且不需要外部模型
  • vs STORM/DrivingRecon:同为前馈无监督方法,但仅能处理 ≤12 帧低分辨率(≤360px)输入,且依赖预训练视觉模型。Flux4D 处理 ≥60 帧全高清输入
  • vs G3R:有标注的泛化方法,需 3D tracklets。Flux4D 无需标注即达到可比性能
  • 核心思路可迁移:在其他需要动态场景理解的任务中(视频编辑、机器人仿真),跨场景训练+极简损失的范式值得探索

评分

  • 新颖性: ⭐⭐⭐⭐ 极简设计+跨场景数据先验的核心洞察有新意,但技术组件(3DGS、稀疏卷积UNet)均为已有
  • 实验充分度: ⭐⭐⭐⭐⭐ PandaSet+Waymo两个数据集、NVS/流估计/未来预测/可控仿真四个任务、有监督/无监督多种基线
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,图表高质量,范式对比图非常直观
  • 价值: ⭐⭐⭐⭐⭐ 首次将无监督泛化 4D 重建做到接近有监督方法的水平,对自动驾驶仿真有实际意义

与相关工作的对比

启发与关联

评分