FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views¶

会议: CVPR 2025
arXiv: 2502.12138
代码: https://zhanghe3z.github.io/FLARE/
领域: 3D视觉 / 稀疏视角重建
关键词: 稀疏视角重建, 相机估计, 3D高斯, 前馈, 点图

一句话总结¶

提出 FLARE，一个前馈可微系统，从未标定的稀疏视角图像（2-8 张）在 0.5 秒内同时推断高质量的相机位姿、3D 几何和外观，通过级联学习范式将相机位姿作为桥梁逐步简化复杂的 3D 学习任务。

领域现状：SfM+MVS 是经典的两阶段重建方案，但在稀疏视角下特征匹配困难；DUSt3R/MASt3R 预测点图但依赖后优化全局配准。

现有痛点：DUSt3R 仅支持两两配对+全局优化，耗时且结果次优；PF-LRM 的三平面表示限制了大场景性能；现有方法无法同时高效地解决相机估计、几何重建和外观建模。

核心矛盾：直接从图像联合优化位姿+几何+外观极易陷入局部最优。

本文目标：设计级联学习范式，用相机位姿作为中间代理逐步降低学习难度。

核心 idea：先估计粗糙位姿 → 指导相机坐标系下的局部几何 → 投影到全局坐标系 → 生成 3D 高斯做渲染。

四步级联：(1) Neural Pose Predictor 估计粗糙位姿；(2) Camera-centric 几何估计在各相机坐标系下预测局部点图；(3) Global Geometry Projector 将局部点图统一到全局坐标系；(4) 3D Gaussian 回归头用于新视角合成。

神经位姿预测器:
- 功能：从稀疏视角图像直接回归相机位姿
- 核心思路：将图像 patch 和可学习相机 latent 拼接成 1D 序列，送入小型 decoder-only transformer 预测 7D 位姿（平移+归一化四元数）
- 设计动机：跳过特征匹配，直接回归位姿；即使不完美的位姿也提供有价值的空间初始化
两阶段几何估计:
- 功能：从局部到全局渐进式学习几何
- 核心思路：先在各相机坐标系下预测局部点图（与成像过程一致，简化学习），再用 learnable geometry projector 将局部点图转换到全局坐标系。训练时加噪声扰动位姿增强鲁棒性
- 设计动机：局部预测避免了直接推理复杂的全局空间关系，分解了学习难度
3D 高斯外观建模:
- 功能：从估计几何生成可渲染的 3D 高斯
- 核心思路：用全局点图作为高斯中心，VGG 特征和外观特征融合后预测 opacity、rotation、scale 和球谐系数。对尺度不一致问题，预测和 GT 点图都归一化到单位空间
- 设计动机：将几何和外观解耦，几何作为 3D 高斯的几何支撑

总损失 = 位姿损失（Huber）+ 几何损失（confidence-aware L2）+ 高斯渲染损失（L2 + VGG perceptual + depth）。在大规模公开数据集混合训练。

在 RealEstate10K 和多个数据集上： - 位姿估计：超越 DUSt3R、MASt3R - 新视角合成：超越现有 pose-free 方法 - 推理速度：< 0.5 秒