Flux4D: Flow-based Unsupervised 4D Reconstruction¶
会议: NeurIPS 2025
arXiv: 2512.03210
代码: https://waabi.ai/flux4d
领域: 3D视觉 / 自动驾驶 / 4D重建
关键词: 4D重建, 无监督, 3D高斯, 场景流, 自动驾驶
一句话总结¶
提出 Flux4D,一个无监督且可泛化的 4D 动态驾驶场景重建框架,通过前馈网络直接预测 3D 高斯及其运动速度,仅用光度损失和静态偏好正则化实现大规模场景重建,在 PandaSet 和 Waymo 上超越所有无监督方法并接近有监督方法的性能。
研究背景与动机¶
- 领域现状:从视觉观测重建 4D 动态场景是计算机视觉的核心问题。当前方法主要基于 NeRF 或 3DGS 的可微渲染,通过将场景分解为静态背景和动态物体来建模,但需要人工标注的 3D tracklets 或动态 mask 来区分静动态。
- 现有痛点:(a) 人工标注成本高且难以扩展到大量未标注数据;(b) 使用预训练感知模型自动标注会引入噪声和伪影;(c) 现有无监督方法依赖复杂正则化(几何约束、循环一致性、多阶段训练),对超参敏感且训练慢(需数小时/场景);(d) 已有泛化方法仅能处理少量低分辨率输入(≤12 帧,≤360px)。
- 核心矛盾:标注昂贵 + 逐场景优化耗时 = 难以扩展到大规模数据。
- 本文要解决什么:如何在不使用任何标注的前提下,实现快速(秒级)、可扩展且可泛化的 4D 场景重建?
- 切入角度:跨大量场景训练让网络自动学会静/动分解(数据驱动先验);结合 LiDAR 处理高分辨率(≥1080p)密集多视角(≥60 帧)输入。
- 核心idea一句话:极简设计(仅光度损失 + 静态偏好正则),通过跨场景学习让前馈网络自动实现静动态分解和 4D 重建。
方法详解¶
整体框架¶
输入:多时间步的相机图像 \(\mathcal{I} = \{\mathbf{I}_k\}\) 和 LiDAR 点云 \(\mathcal{P} = \{\mathbf{P}_k\}\)。输出:带几何、外观和 3D 流的场景表示。流程分三步:(1) 从每帧传感器数据初始化 3D 高斯;(2) 用网络预测 3D 流和精细化属性;(3) 仅通过重建损失和静态偏好损失训练。
关键设计¶
- LiDAR 引导的场景初始化:
- 做什么:从 LiDAR 点云初始化 3D 高斯的位置、尺度和颜色
- 核心思路:高斯位置从 LiDAR 点 \(\mathbf{P}_k\) 初始化,尺度由邻近点平均距离决定,颜色通过将点投影到对应相机图像 \(\mathbf{I}_k\) 获取。每个高斯附加时间戳 \(t_i\) 和初始速度 \(\mathbf{v}_i = 0\)。额外在远距离球面上放置随机点来建模天空
-
设计动机:利用自动驾驶场景中常见的 LiDAR 数据,避免从头学习几何,使系统能处理高分辨率(≥1920×1080)密集输入
-
前馈流预测网络:
- 做什么:用 3D 稀疏卷积 U-Net 从初始高斯预测精细化属性和运动速度
- 核心思路:\(\mathcal{G}, \mathcal{V} = f_\theta(\mathcal{G}_{\mathrm{init}}, \mathcal{T})\),其中 \(\mathcal{V} = \{\mathbf{v}_i\}\) 为每个高斯的 3D 速度。利用线性运动模型将高斯从源时间步传播到目标时间步:\(\mathbf{p}_i^{t'} = \mathbf{p}_i^{t_i} + \mathbf{v}_i \cdot (t' - t_i)\)
-
设计动机:前馈推理(秒级)替代逐场景优化(小时级);3D 空间设计保证跨视角几何一致性,减少外观-运动歧义
-
"尽可能静态"正则化与无监督学习:
- 做什么:仅用重建损失和速度正则化训练,无需复杂正则化方案
- 核心思路:总损失 \(\mathcal{L} = \mathcal{L}_{\text{recon}} + \lambda_{\text{vel}} \mathcal{L}_{\text{vel}}\),其中重建损失 \(\mathcal{L}_{\text{recon}} = \lambda_{\text{rgb}} \mathcal{L}_{\text{rgb}} + \lambda_{\text{SSIM}} \mathcal{L}_{\text{SSIM}} + \lambda_{\text{depth}} \mathcal{L}_{\text{depth}}\),速度正则化 \(\mathcal{L}_{\text{vel}} = \frac{1}{M}\sum_i \|\mathbf{v}_i\|_2\) 鼓励高斯尽量不动
-
设计动机:跨大量场景训练使网络自动学会静/动分解,数据驱动先验替代手工正则化。这是本文最关键的发现
-
迭代精细化与运动增强(Flux4D-full):
- 做什么:通过 3D 梯度反馈迭代精细化外观,用多项式运动模型替代线性模型
- 核心思路:前向传播后计算 3D 梯度作为反馈输入到精细化网络 \(f_\phi\),2 次迭代即可修正颜色不一致和细节缺失。渲染 2D 流对运动区域加权,让高速运动区域获得更大损失权重
- 设计动机:单次前馈容量有限,迭代反馈提升细节;像素级流重加权解决动态物体占比少导致的损失贡献不平衡
损失函数 / 训练策略¶
- 损失权重:\(\lambda_{\text{rgb}}=0.8, \lambda_{\text{SSIM}}=0.2, \lambda_{\text{depth}}=0.01, \lambda_{\text{vel}}=5\times10^{-3}\)
- 训练在 4×L40S GPU 上进行 30,000 次迭代(约 2 天),跨 PandaSet 93 个训练场景
- 处理全分辨率图像(≥1920×1080),推理每个 1s 片段约 1.8 秒
实验关键数据¶
主实验(PandaSet 新视角合成,1s 片段)¶
| 方法 | 无监督? | 泛化? | Dynamic PSNR↑ | Full PSNR↑ | D_RMSE↓ | V_RMSE↓ | 速度 |
|---|---|---|---|---|---|---|---|
| NeuRAD (有标注) | ✗ | ✗ | 23.01 | 24.61 | 2.30 | — | ~60min |
| StreetGS (有标注) | ✗ | ✗ | 20.06 | 23.38 | 0.84 | — | ~28min |
| G3R (有标注) | ✗ | ✓ | 21.85 | 24.35 | 1.96 | — | 17s |
| EmerNeRF† | ✓ | ✗ | 17.79 | 22.80 | 4.24 | 0.432 | ~100min |
| DeSiRe-GS† | ✓ | ✗ | 19.08 | 22.25 | 24.89 | 0.322 | ~120min |
| STORM† | ✓ | ✓ | 17.65 | 20.79 | 4.80 | 0.238 | 0.07s |
| Flux4D (Ours) | ✓ | ✓ | 21.99 | 23.84 | 1.07 | 0.157 | 1.8s |
在 Waymo 数据集上,Flux4D 比 DrivingRecon 提升 +5.99 dB PSNR,SSIM +0.21。
消融 / 分析¶
| 配置 | Dynamic PSNR↑ | Full PSNR↑ | 说明 |
|---|---|---|---|
| Flux4D-base(线性运动) | 21.43 | 23.52 | 基础版本 |
| + 迭代精细化 | 21.75 | 23.72 | 细节提升 |
| + 运动增强 | 21.99 | 23.84 | 完整模型 |
| 1 场景训练 | 较低 | 较低 | 单场景过拟合 |
| 93 场景训练 | 21.99 | 23.84 | 数据越多越好 |
关键发现¶
- 跨场景训练是关键:在更多场景上训练显著提升静动态分解质量,数据驱动先验比手工正则化更有效
- 无监督 Flux4D 的动态区域 PSNR(21.99)已接近有标注的 G3R(21.85)
- 在未来帧预测任务上,Flux4D 甚至超越了有标注的有监督方法(PSNR 19.07 vs G3R 18.93)
- 场景流估计虽非主要目标,但 Flux4D 在多数指标上超越专门的场景流方法
亮点与洞察¶
- 极简主义设计哲学:仅用光度损失+速度正则化,靠跨场景训练的数据先验实现静动态分解。对复杂系统设计有普遍启发——简单方法+大数据可能优于复杂方法+小数据
- 3D 空间设计 vs 2D 像素空间:在 3D 空间预测高斯和流,天然保证跨视角一致性,且能处理更多高分辨率输入帧
- LiDAR 初始化的巧妙利用:将 LiDAR 点云作为初始化而非监督信号,保持无监督性质的同时提供良好几何先验
局限性 / 可改进方向¶
- 线性/多项式运动模型对非刚体运动(行人关节)建模能力有限
- 依赖 LiDAR 数据,限制了向纯视觉自动驾驶的迁移
- 短时间窗口(约 1s)内的恒速假设,长时间预测可能累积误差
- 训练需 4 块 48GB GPU 共 2 天,计算成本仍然较高
相关工作与启发¶
- vs EmerNeRF/DeSiRe-GS:逐场景优化的无监督方法,需预训练视觉模型辅助,训练需 1-2 小时/场景。Flux4D 推理仅 1.8 秒且不需要外部模型
- vs STORM/DrivingRecon:同为前馈无监督方法,但仅能处理 ≤12 帧低分辨率(≤360px)输入,且依赖预训练视觉模型。Flux4D 处理 ≥60 帧全高清输入
- vs G3R:有标注的泛化方法,需 3D tracklets。Flux4D 无需标注即达到可比性能
- 核心思路可迁移:在其他需要动态场景理解的任务中(视频编辑、机器人仿真),跨场景训练+极简损失的范式值得探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 极简设计+跨场景数据先验的核心洞察有新意,但技术组件(3DGS、稀疏卷积UNet)均为已有
- 实验充分度: ⭐⭐⭐⭐⭐ PandaSet+Waymo两个数据集、NVS/流估计/未来预测/可控仿真四个任务、有监督/无监督多种基线
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,图表高质量,范式对比图非常直观
- 价值: ⭐⭐⭐⭐⭐ 首次将无监督泛化 4D 重建做到接近有监督方法的水平,对自动驾驶仿真有实际意义