FF3R: Feedforward Feature 3D Reconstruction from Unconstrained Views¶

会议: CVPR 2026
arXiv: 2604.09862
代码: https://chaoyizh.github.io/ff3r_project
领域: 3D视觉
关键词: 3D重建, 语义理解, 前馈架构, 3D高斯, 无标注训练

一句话总结¶

FF3R是首个完全无标注的前馈框架，能从无约束多视角图像序列中同时进行几何重建和开放词汇语义理解，处理64+张图像的速度比优化方法快180倍。

领域现状：几何重建和语义理解是3D视觉的两大支柱，但将两者分割为独立框架导致冗余流水线和累积误差。

现有痛点：(1) 依赖语义标注的方法受限于固定类别数和标注成本；(2) 无标注方法面临全局语义不一致（2D基础模型缺乏多视角几何先验）和局部结构不一致（高斯融合跨越语义边界）两个核心挑战。

核心矛盾：几何基础模型通过光度损失自监督训练，语义基础模型需要标注或知识蒸馏——两种训练范式的差异使统一系统的构建非常困难。

本文目标：构建仅依赖RGB和特征图渲染监督的全自监督前馈框架。

切入角度：通过Token级融合注入语义上下文到几何token，通过语义-几何互促机制解决一致性问题。

核心idea：几何引导语义对齐（解决全局不一致）+语义感知体素化（解决局部不一致）。

无约束多视角图像 → 预训练几何/语义编码器提取token → Token-wise融合模块（cross-attention）→ 解码pixel-aligned特征 → 预测特征-RGB 3DGS、深度和相机参数 → 语义-几何互促机制实现无标注训练。

Token-wise融合模块:
- 功能：将语义上下文注入几何token
- 核心思路：使用cross-attention机制让几何token查询语义token，在token级别建立几何-语义的信息交流。输出语义感知的几何token用于后续3D解码
- 设计动机：简单拼接或后处理融合无法在表征层面建立深层交互
几何引导特征Warping损失:
- 功能：解决全局语义不一致
- 核心思路：利用几何先验（通过3DGS重投影）将语义特征跨视角对齐。如果两个视角观察同一3D点，其语义特征应该一致。通过渲染特征图在新视角上的损失强制跨视角语义对齐
- 设计动机：2D基础模型（CLIP/DINO）在单张图像上训练，不同视角的同一物体可能产生不一致的特征
语义感知体素化:
- 功能：解决局部结构不一致
- 核心思路：在稠密视角下融合冗余高斯基元时，同时考虑几何置信度和语义一致性。传统仅基于几何的融合会合并跨语义边界的高斯，导致语义模糊。语义感知权重避免跨类别合并
- 设计动机：长图像序列中高斯数量爆炸需要融合，但语义无关的融合破坏结构

完全无标注训练：RGB渲染损失（光度一致性）+ 特征图渲染损失（语义一致性）。无需相机位姿、深度图或语义标签。

任务/数据集	指标	FF3R	之前SOTA	提升
ScanNet NVS	PSNR/SSIM	SOTA	-	显著
ScanNet语义分割	mIoU	SOTA	-	显著
DL3DV-10K深度估计	误差	SOTA	-	显著