Improving 2D Feature Representations by 3D-Aware Fine-Tuning¶
会议: ECCV 2024
arXiv: 2407.20229
代码: https://ywyue.github.io/FiT3D (有项目页)
领域: 3D视觉
关键词: 表征学习, 3D Gaussian Splatting, 基础模型微调, 特征蒸馏, 多视角一致性
一句话总结¶
通过将2D基础模型特征提升到3D Gaussian表示中实现多视角融合,再用渲染的3D感知特征反向微调2D模型,以线性探测即可提升语义分割和深度估计性能。
研究背景与动机¶
领域现状: 视觉基础模型(DINOv2、CLIP、MAE等)纯粹在无结构的2D图像上训练,已展现出强大的通用特征提取能力,被广泛用于分割、深度估计、对应关系匹配等下游任务。
现有痛点: 这些模型的训练数据以散乱2D图像呈现,没有多视角或视频对应关系,导致模型缺乏3D理解能力——不同视角观察同一物体产生的特征不一致,在纹理缺乏区域或细粒度结构上表现不佳。
核心矛盾: 图像作为3D世界的简单投影,丢弃了显式3D几何信息。纯2D训练的模型无法充分利用多视角一致性和多视角互补等3D世界的有利属性来消解单视角歧义。
本文目标: 如何以轻量级的方式将3D理解能力注入已有的2D基础模型,且不需要从头预训练。
切入角度: 利用3D Gaussian Splatting将多视角2D特征融合到3D表示中获得多视角一致的"3D感知特征",然后用这些特征作为监督信号微调原始2D模型。
核心 idea: 用3D Gaussian表示作为中间桥梁,将多视角融合后的3D感知特征蒸馏回2D基础模型,一个epoch的微调即可显著提升下游任务表现。
方法详解¶
整体框架¶
两阶段流水线:阶段一——对K个场景分别训练带特征向量的3D Gaussian表示,将2D基础模型特征提升到3D中;阶段二——使用渲染出的3D感知特征作为GT,微调原始2D基础模型。下游评估时,将原始特征与微调后特征拼接,通过简单线性探测完成语义分割或深度估计。
关键设计¶
- 3D特征Gaussian表示 (3D Feature Gaussians): 在标准3D Gaussian Splatting的基础上,为每个高斯体额外添加一个低维特征向量 \(\mathbf{f} \in \mathbb{R}^D\)(\(D=64\),远小于DINOv2的384维)。特征通过 \(\alpha\)-blending 光栅化为2D特征图:
然后通过一个场景特定的CNN解码器(单层3×3卷积)将低维特征上投影到高维空间 \(d: \mathbf{F}^{\text{low}} \mapsto \mathbf{F}^{\text{high}}\)。
设计动机:百万级高斯体若直接存储384维特征内存不可承受,低维特征+CNN上投影在效率和质量间取得平衡。
优化:联合优化高斯参数和特征:
关键设计:特征向量 \(\mathbf{f}\) 仅从特征损失 \(\mathcal{L}^f\) 接收梯度,其余参数(位置、协方差、不透明度)仅从RGB损失 \(\mathcal{L}^c\) 接收梯度。这确保了3D几何由RGB监督(多视角一致的),而特征在正确几何上学习——正是这种分离使得2D特征的不一致性通过强制3D一致表示得以修复。
- 3D感知微调 (3D-Aware Fine-Tuning): 预训练K个场景的Feature Gaussians后,将所有高斯表示预加载到CPU内存中。每步训练中:随机采样一个视角 → 检索对应的Feature Gaussian和CNN解码器 → 渲染3D感知特征 \(\mathbf{F}^{\text{high}}\) → 以 \(l_1\) 损失微调2D特征提取器:
设计动机:训练对在运行时在线生成(渲染),避免保存大量特征图;仅需1个epoch即可转移3D感知能力,学习率很小(1e-5),不引入额外网络组件。ScanNet++ 230个场景、14万视角,在单A100上仅需8.5小时。
- 特征组装策略 (Feature Assembly): 下游评估时将原始DINOv2特征与微调后特征拼接(而非相加或线性融合),这是保持原始模型泛化能力同时引入3D感知的关键。
设计动机:微调后的特征包含3D感知,但可能丢失部分原始泛化能力;拼接策略让线性探测头自主决定权重分配。
损失函数 / 训练策略¶
- 阶段一:每个场景训练3万次迭代;$\mathcal{L}^c = l_1 + $ D-SSIM,\(\mathcal{L}^f = l_1\)
- 阶段二:batch size=2,lr=1e-5,AdamW(weight_decay=1e-4),水平翻转增强,1 epoch
- 线性探测:语义分割4万次迭代(8 GPU),深度估计38400次迭代(8 GPU)
实验关键数据¶
主实验¶
室内语义分割 (mIoU↑):
| 方法 | ScanNet++ | NYUv2 | ScanNet |
|---|---|---|---|
| DINOv2 | 30.19 | 65.55 | 43.60 |
| + Ours | 32.76 (+2.6) | 67.50 (+2.0) | 44.84 (+1.2) |
室内深度估计 (RMSE↓):
| 方法 | ScanNet++ | NYUv2 | ScanNet |
|---|---|---|---|
| DINOv2 | 0.374 | 0.442 | 0.309 |
| + Ours | 0.336 | 0.420 | 0.292 |
跨域泛化 (仅在ScanNet++上微调):
| 数据集 | 任务 | DINOv2 | + Ours | 提升 |
|---|---|---|---|---|
| ADE20k | mIoU↑ | 44.28 | 45.93 | +1.6 |
| Pascal VOC | mIoU↑ | 81.14 | 82.35 | +1.2 |
| KITTI (outdoor) | RMSE↓ | 3.03 | 2.91 | -0.12 |
消融实验¶
不同视觉模型的泛化 (ScanNet++):
| 模型 | 原始 mIoU | + Ours mIoU | 原始 RMSE | + Ours RMSE |
|---|---|---|---|---|
| DINOv2-reg | 30.92 | 33.39 | 0.419 | 0.382 |
| CLIP | 25.61 | 28.82 | 0.432 | 0.396 |
| MAE | 17.19 | 20.27 | 0.486 | 0.480 |
| DeiT-III | 18.62 | 22.98 | 0.435 | 0.382 |
特征组装策略 (NYUv2):
| 策略 | mAcc | mIoU | aAcc |
|---|---|---|---|
| 相加 | 77.97 | 66.00 | 82.85 |
| 线性融合 | 78.22 | 66.39 | 82.89 |
| 拼接 | 80.52 | 67.50 | 83.37 |
关键发现¶
- 仅在一个室内数据集(ScanNet++)微调,增益可泛化到室外场景(KITTI)和通用场景(ADE20k)
- 1个epoch即足够,更多epoch反而损害泛化能力(2 epoch mIoU 67.25 vs 1 epoch 67.50)
- 拼接原始+微调特征是关键策略,比相加高1.5 mIoU
- 改善主要体现在:(1) 无纹理区域更干净的分割/深度估计,(2) 细粒度结构(桌椅腿等)更准确的预测
- RGB监督确保正确的3D几何,特征损失独立学习语义——分离梯度是实现多视角一致3D特征的关键
亮点与洞察¶
- "提升-蒸馏"范式:2D→3D→2D的信息回路,让3D表示成为桥梁而非最终目标,思路新颖
- 极高的训练效率:1 epoch + 8.5小时微调即可,对比Pri3D等需要从头预训练的方法极为轻量
- 通用性强:适用于DINOv2、CLIP、MAE、DeiT-III等多种视觉基础模型,均有一致提升
- 梯度分离设计(RGB→几何,特征→语义)的物理直觉很好:2D特征本身不具备3D一致性,需要通过RGB提供的几何锚定来"纠正"
局限与展望¶
- 仍需保留原始特征(拼接)以维持泛化能力,说明微调可能引入训练数据的bias
- 仅在单一室内数据集上训练,若扩展到更大规模、更多样化的3D数据,效果可期
- 3D Gaussian表示的内存消耗限制了特征维度(最高64维),128维已不可行
- 未尝试更大规模模型(仅用DINOv2-small/384维),对large/giant模型的效果未验证
- 当前仅处理静态场景,扩展到动态场景(视频)可能带来额外的时序一致性收益
相关工作与启发¶
- 与Pri3D(利用多视角一致性+2D-3D对应关系做对比学习预训练)不同,本文无需从头训练,只做轻量微调
- 与LangSplat、LEGaussians等并行工作相比,它们将语义特征蒸馏到3D高斯中用于3D感知任务,本文是首次反向蒸馏回2D模型
- 启发:3D Gaussian Splatting不仅是渲染工具,也是特征融合和增强的强大中间表示
评分¶
- 新颖性: ⭐⭐⭐⭐ — "2D→3D→2D"范式首次提出,简洁有效
- 实验充分度: ⭐⭐⭐⭐⭐ — 6个数据集(3室内+3跨域)、5种视觉模型、多组消融实验
- 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,可视化丰富,Algorithm 1简明扼要
- 实用价值: ⭐⭐⭐⭐ — 轻量微调即可提升现有基础模型,实用性高
相关论文¶
- [ECCV 2024] Learning 3D-Aware GANs from Unposed Images with Template Feature Field
- [ECCV 2024] Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal
- [NeurIPS 2025] Mesh-RFT: Enhancing Mesh Generation via Fine-Grained Reinforcement Fine-Tuning
- [ECCV 2024] VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing
- [ECCV 2024] TrackNeRF: Bundle Adjusting NeRF from Sparse and Noisy Views via Feature Tracks