FF3R: Feedforward Feature 3D Reconstruction from Unconstrained Views¶
会议: CVPR 2026
arXiv: 2604.09862
代码: https://chaoyizh.github.io/ff3r_project
领域: 3D视觉
关键词: 3D重建, 语义理解, 前馈架构, 3D高斯, 无标注训练
一句话总结¶
FF3R是首个完全无标注的前馈框架,能从无约束多视角图像序列中同时进行几何重建和开放词汇语义理解,处理64+张图像的速度比优化方法快180倍。
研究背景与动机¶
领域现状:几何重建和语义理解是3D视觉的两大支柱,但将两者分割为独立框架导致冗余流水线和累积误差。
现有痛点:(1) 依赖语义标注的方法受限于固定类别数和标注成本;(2) 无标注方法面临全局语义不一致(2D基础模型缺乏多视角几何先验)和局部结构不一致(高斯融合跨越语义边界)两个核心挑战。
核心矛盾:几何基础模型通过光度损失自监督训练,语义基础模型需要标注或知识蒸馏——两种训练范式的差异使统一系统的构建非常困难。
本文目标:构建仅依赖RGB和特征图渲染监督的全自监督前馈框架。
切入角度:通过Token级融合注入语义上下文到几何token,通过语义-几何互促机制解决一致性问题。
核心idea:几何引导语义对齐(解决全局不一致)+语义感知体素化(解决局部不一致)。
方法详解¶
整体框架¶
无约束多视角图像 → 预训练几何/语义编码器提取token → Token-wise融合模块(cross-attention)→ 解码pixel-aligned特征 → 预测特征-RGB 3DGS、深度和相机参数 → 语义-几何互促机制实现无标注训练。
关键设计¶
-
Token-wise融合模块:
- 功能:将语义上下文注入几何token
- 核心思路:使用cross-attention机制让几何token查询语义token,在token级别建立几何-语义的信息交流。输出语义感知的几何token用于后续3D解码
- 设计动机:简单拼接或后处理融合无法在表征层面建立深层交互
-
几何引导特征Warping损失:
- 功能:解决全局语义不一致
- 核心思路:利用几何先验(通过3DGS重投影)将语义特征跨视角对齐。如果两个视角观察同一3D点,其语义特征应该一致。通过渲染特征图在新视角上的损失强制跨视角语义对齐
- 设计动机:2D基础模型(CLIP/DINO)在单张图像上训练,不同视角的同一物体可能产生不一致的特征
-
语义感知体素化:
- 功能:解决局部结构不一致
- 核心思路:在稠密视角下融合冗余高斯基元时,同时考虑几何置信度和语义一致性。传统仅基于几何的融合会合并跨语义边界的高斯,导致语义模糊。语义感知权重避免跨类别合并
- 设计动机:长图像序列中高斯数量爆炸需要融合,但语义无关的融合破坏结构
损失函数 / 训练策略¶
完全无标注训练:RGB渲染损失(光度一致性)+ 特征图渲染损失(语义一致性)。无需相机位姿、深度图或语义标签。
实验关键数据¶
主实验¶
| 任务/数据集 | 指标 | FF3R | 之前SOTA | 提升 |
|---|---|---|---|---|
| ScanNet NVS | PSNR/SSIM | SOTA | - | 显著 |
| ScanNet语义分割 | mIoU | SOTA | - | 显著 |
| DL3DV-10K深度估计 | 误差 | SOTA | - | 显著 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无Token融合 | 语义质量下降 | 几何-语义交互缺失 |
| 无几何引导Warping | 跨视角不一致 | 全局语义对齐失败 |
| 无语义感知体素化 | 局部边界模糊 | 跨类别高斯合并 |
| 完整FF3R | 最优 | 两个设计互补 |
关键发现¶
- FF3R能处理64+张图像,而之前SOTA方法仅能处理6张——可扩展性提升10倍以上
- 运行速度比优化方法快180倍,前馈架构的效率优势在长序列上更为显著
- 在野外场景中的泛化能力强,证明了无标注训练范式的可扩展性
亮点与洞察¶
- 完全无标注的训练范式:仅依赖RGB和特征图渲染监督,真正实现了从任意野外图像中学习
- 可扩展到64+图像的前馈处理:打破了之前方法的输入限制,为实际应用铺平道路
- 语义-几何互促的双向增益:几何帮助语义对齐,语义帮助几何融合——两者的交互产生了超越单向传递的效果
局限与展望¶
- 依赖2D基础模型(CLIP/DINO)的特征质量
- 体素化可能引入量化误差
- 未在动态场景中验证
相关工作与启发¶
- vs LSM: LSM是首个无标注前馈方法但缺乏几何-语义深层交互,无法扩展到长序列
- vs SceneSplat: SceneSplat依赖大规模SAM2标注数据,FF3R完全无标注
评分¶
- 新颖性: ⭐⭐⭐⭐ 完全无标注+长序列前馈的首次实现
- 实验充分度: ⭐⭐⭐⭐ ScanNet和DL3DV上全面评估
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰
- 价值: ⭐⭐⭐⭐⭐ 为统一3D理解开辟了可扩展路径
相关论文¶
- [ICLR 2026] UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images
- [CVPR 2025] Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors
- [ICML 2025] PhysicsNeRF: Physics-Guided 3D Reconstruction from Sparse Views
- [ECCV 2024] TrackNeRF: Bundle Adjusting NeRF from Sparse and Noisy Views via Feature Tracks
- [CVPR 2026] Learning 3D Reconstruction with Priors in Test Time