Improving 2D Feature Representations by 3D-Aware Fine-Tuning¶

会议: ECCV 2024
arXiv: 2407.20229
代码: https://ywyue.github.io/FiT3D (有项目页)
领域: 3D视觉
关键词: 表征学习, 3D Gaussian Splatting, 基础模型微调, 特征蒸馏, 多视角一致性

一句话总结¶

通过将2D基础模型特征提升到3D Gaussian表示中实现多视角融合，再用渲染的3D感知特征反向微调2D模型，以线性探测即可提升语义分割和深度估计性能。

研究背景与动机¶

领域现状: 视觉基础模型（DINOv2、CLIP、MAE等）纯粹在无结构的2D图像上训练，已展现出强大的通用特征提取能力，被广泛用于分割、深度估计、对应关系匹配等下游任务。

现有痛点: 这些模型的训练数据以散乱2D图像呈现，没有多视角或视频对应关系，导致模型缺乏3D理解能力——不同视角观察同一物体产生的特征不一致，在纹理缺乏区域或细粒度结构上表现不佳。

核心矛盾: 图像作为3D世界的简单投影，丢弃了显式3D几何信息。纯2D训练的模型无法充分利用多视角一致性和多视角互补等3D世界的有利属性来消解单视角歧义。

本文目标: 如何以轻量级的方式将3D理解能力注入已有的2D基础模型，且不需要从头预训练。

切入角度: 利用3D Gaussian Splatting将多视角2D特征融合到3D表示中获得多视角一致的"3D感知特征"，然后用这些特征作为监督信号微调原始2D模型。

核心 idea: 用3D Gaussian表示作为中间桥梁，将多视角融合后的3D感知特征蒸馏回2D基础模型，一个epoch的微调即可显著提升下游任务表现。

方法详解¶

整体框架¶

两阶段流水线：阶段一——对K个场景分别训练带特征向量的3D Gaussian表示，将2D基础模型特征提升到3D中；阶段二——使用渲染出的3D感知特征作为GT，微调原始2D基础模型。下游评估时，将原始特征与微调后特征拼接，通过简单线性探测完成语义分割或深度估计。

关键设计¶

3D特征Gaussian表示 (3D Feature Gaussians): 在标准3D Gaussian Splatting的基础上，为每个高斯体额外添加一个低维特征向量 $\mathbf{f} \in \mathbb{R}^D$（$D=64$，远小于DINOv2的384维）。特征通过 $\alpha$-blending 光栅化为2D特征图：

\[\mathbf{F}^{\text{low}} = \sum_{i \in \mathcal{N}} \mathbf{f}_i \alpha_i \prod_{j=1}^{i-1}(1-\alpha_i)\]

然后通过一个场景特定的CNN解码器（单层3×3卷积）将低维特征上投影到高维空间 $d: \mathbf{F}^{\text{low}} \mapsto \mathbf{F}^{\text{high}}$。

设计动机：百万级高斯体若直接存储384维特征内存不可承受，低维特征+CNN上投影在效率和质量间取得平衡。

优化：联合优化高斯参数和特征：

\[\hat{\mathcal{G}} = \arg\min \sum_{i=1}^{N} \mathcal{L}^c(r^{\text{rgb}}(\mathcal{G}, \mathbf{P}_i), \mathbf{I}_i) + \mathcal{L}^f(d(r^{\text{feat}}(\mathcal{G}, \mathbf{P}_i)), \mathbf{F}_i)\]

关键设计：特征向量 $\mathbf{f}$ 仅从特征损失 $\mathcal{L}^f$ 接收梯度，其余参数（位置、协方差、不透明度）仅从RGB损失 $\mathcal{L}^c$ 接收梯度。这确保了3D几何由RGB监督（多视角一致的），而特征在正确几何上学习——正是这种分离使得2D特征的不一致性通过强制3D一致表示得以修复。

3D感知微调 (3D-Aware Fine-Tuning): 预训练K个场景的Feature Gaussians后，将所有高斯表示预加载到CPU内存中。每步训练中：随机采样一个视角 → 检索对应的Feature Gaussian和CNN解码器 → 渲染3D感知特征 $\mathbf{F}^{\text{high}}$ → 以 $l_1$ 损失微调2D特征提取器：

\[\mathcal{L} = \|\varepsilon_\theta^{2D}(\mathbf{I}_i) - \mathbf{F}^{\text{high}}\|_1\]

设计动机：训练对在运行时在线生成（渲染），避免保存大量特征图；仅需1个epoch即可转移3D感知能力，学习率很小（1e-5），不引入额外网络组件。ScanNet++ 230个场景、14万视角，在单A100上仅需8.5小时。

特征组装策略 (Feature Assembly): 下游评估时将原始DINOv2特征与微调后特征拼接（而非相加或线性融合），这是保持原始模型泛化能力同时引入3D感知的关键。

设计动机：微调后的特征包含3D感知，但可能丢失部分原始泛化能力；拼接策略让线性探测头自主决定权重分配。

损失函数 / 训练策略¶

阶段一：每个场景训练3万次迭代；$\mathcal{L}^c = l_1 + $ D-SSIM，$\mathcal{L}^f = l_1$
阶段二：batch size=2，lr=1e-5，AdamW(weight_decay=1e-4)，水平翻转增强，1 epoch
线性探测：语义分割4万次迭代(8 GPU)，深度估计38400次迭代(8 GPU)

实验关键数据¶

主实验¶

室内语义分割 (mIoU↑):

方法	ScanNet++	NYUv2	ScanNet
DINOv2	30.19	65.55	43.60
+ Ours	32.76 (+2.6)	67.50 (+2.0)	44.84 (+1.2)

室内深度估计 (RMSE↓):

方法	ScanNet++	NYUv2	ScanNet
DINOv2	0.374	0.442	0.309
+ Ours	0.336	0.420	0.292

跨域泛化 (仅在ScanNet++上微调):

数据集	任务	DINOv2	+ Ours	提升
ADE20k	mIoU↑	44.28	45.93	+1.6
Pascal VOC	mIoU↑	81.14	82.35	+1.2
KITTI (outdoor)	RMSE↓	3.03	2.91	-0.12

消融实验¶

不同视觉模型的泛化 (ScanNet++):

模型	原始 mIoU	+ Ours mIoU	原始 RMSE	+ Ours RMSE
DINOv2-reg	30.92	33.39	0.419	0.382
CLIP	25.61	28.82	0.432	0.396
MAE	17.19	20.27	0.486	0.480
DeiT-III	18.62	22.98	0.435	0.382

特征组装策略 (NYUv2):

策略	mAcc	mIoU	aAcc
相加	77.97	66.00	82.85
线性融合	78.22	66.39	82.89
拼接	80.52	67.50	83.37

关键发现¶

仅在一个室内数据集(ScanNet++)微调，增益可泛化到室外场景(KITTI)和通用场景(ADE20k)
1个epoch即足够，更多epoch反而损害泛化能力（2 epoch mIoU 67.25 vs 1 epoch 67.50）
拼接原始+微调特征是关键策略，比相加高1.5 mIoU
改善主要体现在：(1) 无纹理区域更干净的分割/深度估计，(2) 细粒度结构（桌椅腿等）更准确的预测
RGB监督确保正确的3D几何，特征损失独立学习语义——分离梯度是实现多视角一致3D特征的关键

亮点与洞察¶

"提升-蒸馏"范式：2D→3D→2D的信息回路，让3D表示成为桥梁而非最终目标，思路新颖
极高的训练效率：1 epoch + 8.5小时微调即可，对比Pri3D等需要从头预训练的方法极为轻量
通用性强：适用于DINOv2、CLIP、MAE、DeiT-III等多种视觉基础模型，均有一致提升
梯度分离设计（RGB→几何，特征→语义）的物理直觉很好：2D特征本身不具备3D一致性，需要通过RGB提供的几何锚定来"纠正"

局限与展望¶

仍需保留原始特征（拼接）以维持泛化能力，说明微调可能引入训练数据的bias
仅在单一室内数据集上训练，若扩展到更大规模、更多样化的3D数据，效果可期
3D Gaussian表示的内存消耗限制了特征维度（最高64维），128维已不可行
未尝试更大规模模型（仅用DINOv2-small/384维），对large/giant模型的效果未验证
当前仅处理静态场景，扩展到动态场景（视频）可能带来额外的时序一致性收益

评分¶

新颖性: ⭐⭐⭐⭐ — "2D→3D→2D"范式首次提出，简洁有效
实验充分度: ⭐⭐⭐⭐⭐ — 6个数据集(3室内+3跨域)、5种视觉模型、多组消融实验
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，可视化丰富，Algorithm 1简明扼要
实用价值: ⭐⭐⭐⭐ — 轻量微调即可提升现有基础模型，实用性高