跳转至

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

会议: ECCV 2024
arXiv: 2407.20229
代码: https://ywyue.github.io/FiT3D (有项目页)
领域: 3D视觉
关键词: 表征学习, 3D Gaussian Splatting, 基础模型微调, 特征蒸馏, 多视角一致性

一句话总结

通过将2D基础模型特征提升到3D Gaussian表示中实现多视角融合,再用渲染的3D感知特征反向微调2D模型,以线性探测即可提升语义分割和深度估计性能。

研究背景与动机

领域现状: 视觉基础模型(DINOv2、CLIP、MAE等)纯粹在无结构的2D图像上训练,已展现出强大的通用特征提取能力,被广泛用于分割、深度估计、对应关系匹配等下游任务。

现有痛点: 这些模型的训练数据以散乱2D图像呈现,没有多视角或视频对应关系,导致模型缺乏3D理解能力——不同视角观察同一物体产生的特征不一致,在纹理缺乏区域或细粒度结构上表现不佳。

核心矛盾: 图像作为3D世界的简单投影,丢弃了显式3D几何信息。纯2D训练的模型无法充分利用多视角一致性和多视角互补等3D世界的有利属性来消解单视角歧义。

本文目标: 如何以轻量级的方式将3D理解能力注入已有的2D基础模型,且不需要从头预训练。

切入角度: 利用3D Gaussian Splatting将多视角2D特征融合到3D表示中获得多视角一致的"3D感知特征",然后用这些特征作为监督信号微调原始2D模型。

核心 idea: 用3D Gaussian表示作为中间桥梁,将多视角融合后的3D感知特征蒸馏回2D基础模型,一个epoch的微调即可显著提升下游任务表现。

方法详解

整体框架

两阶段流水线:阶段一——对K个场景分别训练带特征向量的3D Gaussian表示,将2D基础模型特征提升到3D中;阶段二——使用渲染出的3D感知特征作为GT,微调原始2D基础模型。下游评估时,将原始特征与微调后特征拼接,通过简单线性探测完成语义分割或深度估计。

关键设计

  1. 3D特征Gaussian表示 (3D Feature Gaussians): 在标准3D Gaussian Splatting的基础上,为每个高斯体额外添加一个低维特征向量 \(\mathbf{f} \in \mathbb{R}^D\)\(D=64\),远小于DINOv2的384维)。特征通过 \(\alpha\)-blending 光栅化为2D特征图:
\[\mathbf{F}^{\text{low}} = \sum_{i \in \mathcal{N}} \mathbf{f}_i \alpha_i \prod_{j=1}^{i-1}(1-\alpha_i)\]

然后通过一个场景特定的CNN解码器(单层3×3卷积)将低维特征上投影到高维空间 \(d: \mathbf{F}^{\text{low}} \mapsto \mathbf{F}^{\text{high}}\)

设计动机:百万级高斯体若直接存储384维特征内存不可承受,低维特征+CNN上投影在效率和质量间取得平衡。

优化:联合优化高斯参数和特征:

\[\hat{\mathcal{G}} = \arg\min \sum_{i=1}^{N} \mathcal{L}^c(r^{\text{rgb}}(\mathcal{G}, \mathbf{P}_i), \mathbf{I}_i) + \mathcal{L}^f(d(r^{\text{feat}}(\mathcal{G}, \mathbf{P}_i)), \mathbf{F}_i)\]

关键设计:特征向量 \(\mathbf{f}\) 仅从特征损失 \(\mathcal{L}^f\) 接收梯度,其余参数(位置、协方差、不透明度)仅从RGB损失 \(\mathcal{L}^c\) 接收梯度。这确保了3D几何由RGB监督(多视角一致的),而特征在正确几何上学习——正是这种分离使得2D特征的不一致性通过强制3D一致表示得以修复。

  1. 3D感知微调 (3D-Aware Fine-Tuning): 预训练K个场景的Feature Gaussians后,将所有高斯表示预加载到CPU内存中。每步训练中:随机采样一个视角 → 检索对应的Feature Gaussian和CNN解码器 → 渲染3D感知特征 \(\mathbf{F}^{\text{high}}\) → 以 \(l_1\) 损失微调2D特征提取器:
\[\mathcal{L} = \|\varepsilon_\theta^{2D}(\mathbf{I}_i) - \mathbf{F}^{\text{high}}\|_1\]

设计动机:训练对在运行时在线生成(渲染),避免保存大量特征图;仅需1个epoch即可转移3D感知能力,学习率很小(1e-5),不引入额外网络组件。ScanNet++ 230个场景、14万视角,在单A100上仅需8.5小时。

  1. 特征组装策略 (Feature Assembly): 下游评估时将原始DINOv2特征与微调后特征拼接(而非相加或线性融合),这是保持原始模型泛化能力同时引入3D感知的关键。

设计动机:微调后的特征包含3D感知,但可能丢失部分原始泛化能力;拼接策略让线性探测头自主决定权重分配。

损失函数 / 训练策略

  • 阶段一:每个场景训练3万次迭代;$\mathcal{L}^c = l_1 + $ D-SSIM,\(\mathcal{L}^f = l_1\)
  • 阶段二:batch size=2,lr=1e-5,AdamW(weight_decay=1e-4),水平翻转增强,1 epoch
  • 线性探测:语义分割4万次迭代(8 GPU),深度估计38400次迭代(8 GPU)

实验关键数据

主实验

室内语义分割 (mIoU↑):

方法 ScanNet++ NYUv2 ScanNet
DINOv2 30.19 65.55 43.60
+ Ours 32.76 (+2.6) 67.50 (+2.0) 44.84 (+1.2)

室内深度估计 (RMSE↓):

方法 ScanNet++ NYUv2 ScanNet
DINOv2 0.374 0.442 0.309
+ Ours 0.336 0.420 0.292

跨域泛化 (仅在ScanNet++上微调):

数据集 任务 DINOv2 + Ours 提升
ADE20k mIoU↑ 44.28 45.93 +1.6
Pascal VOC mIoU↑ 81.14 82.35 +1.2
KITTI (outdoor) RMSE↓ 3.03 2.91 -0.12

消融实验

不同视觉模型的泛化 (ScanNet++):

模型 原始 mIoU + Ours mIoU 原始 RMSE + Ours RMSE
DINOv2-reg 30.92 33.39 0.419 0.382
CLIP 25.61 28.82 0.432 0.396
MAE 17.19 20.27 0.486 0.480
DeiT-III 18.62 22.98 0.435 0.382

特征组装策略 (NYUv2):

策略 mAcc mIoU aAcc
相加 77.97 66.00 82.85
线性融合 78.22 66.39 82.89
拼接 80.52 67.50 83.37

关键发现

  • 仅在一个室内数据集(ScanNet++)微调,增益可泛化到室外场景(KITTI)和通用场景(ADE20k)
  • 1个epoch即足够,更多epoch反而损害泛化能力(2 epoch mIoU 67.25 vs 1 epoch 67.50)
  • 拼接原始+微调特征是关键策略,比相加高1.5 mIoU
  • 改善主要体现在:(1) 无纹理区域更干净的分割/深度估计,(2) 细粒度结构(桌椅腿等)更准确的预测
  • RGB监督确保正确的3D几何,特征损失独立学习语义——分离梯度是实现多视角一致3D特征的关键

亮点与洞察

  • "提升-蒸馏"范式:2D→3D→2D的信息回路,让3D表示成为桥梁而非最终目标,思路新颖
  • 极高的训练效率:1 epoch + 8.5小时微调即可,对比Pri3D等需要从头预训练的方法极为轻量
  • 通用性强:适用于DINOv2、CLIP、MAE、DeiT-III等多种视觉基础模型,均有一致提升
  • 梯度分离设计(RGB→几何,特征→语义)的物理直觉很好:2D特征本身不具备3D一致性,需要通过RGB提供的几何锚定来"纠正"

局限与展望

  • 仍需保留原始特征(拼接)以维持泛化能力,说明微调可能引入训练数据的bias
  • 仅在单一室内数据集上训练,若扩展到更大规模、更多样化的3D数据,效果可期
  • 3D Gaussian表示的内存消耗限制了特征维度(最高64维),128维已不可行
  • 未尝试更大规模模型(仅用DINOv2-small/384维),对large/giant模型的效果未验证
  • 当前仅处理静态场景,扩展到动态场景(视频)可能带来额外的时序一致性收益

相关工作与启发

  • 与Pri3D(利用多视角一致性+2D-3D对应关系做对比学习预训练)不同,本文无需从头训练,只做轻量微调
  • 与LangSplat、LEGaussians等并行工作相比,它们将语义特征蒸馏到3D高斯中用于3D感知任务,本文是首次反向蒸馏回2D模型
  • 启发:3D Gaussian Splatting不仅是渲染工具,也是特征融合和增强的强大中间表示

评分

  • 新颖性: ⭐⭐⭐⭐ — "2D→3D→2D"范式首次提出,简洁有效
  • 实验充分度: ⭐⭐⭐⭐⭐ — 6个数据集(3室内+3跨域)、5种视觉模型、多组消融实验
  • 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,可视化丰富,Algorithm 1简明扼要
  • 实用价值: ⭐⭐⭐⭐ — 轻量微调即可提升现有基础模型,实用性高

相关论文