跳转至

High-Resolution and Few-shot View Synthesis from Asymmetric Dual-Lens Inputs

会议: ECCV 2024
arXiv: 无
代码: https://github.com/XrKang/DL-GS
领域: 3D视觉 / 新视角合成
关键词: 3D高斯溅射、双镜头系统、少样本视角合成、高分辨率渲染、超分辨率

一句话总结

本文提出 DL-GS(Dual-Lens 3D-GS),利用移动设备上常见的非对称双镜头系统(广角+长焦)提供的立体几何约束和高分辨率引导,解决了 3D-GS 在少样本训练和超分辨率渲染上的两大难题,通过一致性感知训练策略和多参考引导细化模块实现了 SOTA 性能。

研究背景与动机

领域现状:3D 高斯溅射(3D-GS)作为一种新兴的场景表示方法,能够实现高质量的实时渲染。但标准 3D-GS 需要密集的多视角图像作为训练输入(通常 30-100 张),且只能在训练分辨率下渲染,无法生成超越输入分辨率的高分辨率新视角。

现有痛点:(1)少样本退化问题——当训练视角减少到 3-5 张时,3D-GS 的性能急剧下降,因为稀疏视角缺乏足够的几何约束,导致高斯基元过拟合可见区域、忽略遮挡区域。现有少样本方法(如 FSGS、DNGaussian)依赖深度先验或正则化,但效果有限。(2)分辨率受限问题——3D-GS 在训练分辨率下表现良好,但无法渲染更高分辨率的视角,因为高斯基元的密度和细节是根据训练分辨率优化的。现有方法要么需要额外的超分辨率后处理网络,要么需要多尺度训练。

核心矛盾:少样本和高分辨率是两个相互矛盾的目标——少样本意味着信息不足,高分辨率渲染需要更丰富的信息。传统管线难以同时解决这两个问题,因为它们被视为独立的子任务。

本文目标 如何利用现成的硬件特性(双镜头手机)来同时提供几何约束(解决少样本问题)和高频细节(解决分辨率问题),一举两得地解决两大挑战。

切入角度:现代智能手机普遍配备非对称双镜头系统——广角镜头视场大但分辨率相对低,长焦镜头视场小但分辨率高。两个镜头在空间上有一定基线距离(几毫米到一厘米),形成天然的立体对。作者抓住这一点:广角图像提供宽场景覆盖和几何线索,长焦图像提供局部高分辨率细节,两者结合恰好能同时解决少样本和高分辨率两个问题。

核心 idea:利用手机双镜头的非对称立体配置作为天然的几何约束和分辨率增强源,实现少样本高分辨率 3D-GS 重建。

方法详解

整体框架

DL-GS 的输入为少量(3-5 个位姿)的双镜头图像对,每个位姿位置同时获得一张广角图和一张长焦图。首先通过 SfM(COLMAP)估计所有图像的相机参数,初始化 3D 高斯基元。然后在 3D-GS 优化过程中:(a)一致性感知训练策略利用双镜头的立体关系添加几何约束正则化;(b)优化完成后,多参考引导细化模块利用长焦图像的高频信息提升新视角渲染的分辨率。最终输出高分辨率的新视角渲染结果。

关键设计

  1. 一致性感知训练策略(Consistency-Aware Training Strategy):

    • 功能:利用双镜头之间的立体一致性为 3D-GS 优化提供额外的几何约束,缓解少样本下的过拟合问题
    • 核心思路:双镜头在同一时刻从略微不同的位置捕获同一场景,因此它们之间存在严格的几何一致性关系。该策略引入双镜头一致性损失 \(\mathcal{L}_{consist}\):从广角视角渲染的深度图,通过两个镜头间的已知外参变换到长焦视角,应该与从长焦视角直接渲染的深度图一致。具体实现上,对于每个高斯基元,分别从广角和长焦两个视角进行渲染,然后计算变换后的深度差异作为损失。这种跨视角的几何一致性约束相当于给每个训练位姿提供了"免费"的额外视角监督,有效增加了约束密度
    • 设计动机:少样本 3D-GS 的核心问题是约束不足导致的几何退化。双镜头提供的立体基线是最自然、最可靠的额外几何信息源——不需要任何预训练的深度估计模型,也不引入额外的模型误差
  2. 多参考引导细化模块(Multi-Reference-Guided Refinement Module):

    • 功能:利用训练集中的长焦和广角图像为新合成的视角提供高频细节增强,实现超分辨率渲染
    • 核心思路:对于每个待渲染的新视角,首先根据相机位姿的距离关系,从训练集中选择 K 个最近的参考图像(包括广角和长焦)。然后通过一个基于注意力机制的融合网络,将参考图像中的高频纹理细节迁移到渲染结果中。具体来说:(i)将 3D-GS 渲染的低分辨率结果上采样到目标分辨率作为基础;(ii)通过特征提取器提取参考图像和基础图像的多尺度特征;(iii)使用可变形注意力(deformable attention)在参考特征中查询与基础图像对应的高频细节;(iv)将查询到的高频特征叠加到基础图像上。这个过程类似于基于参考的超分辨率,但利用了多个具有不同焦距和视角的参考图像
    • 设计动机:3D-GS 渲染的结果包含正确的几何结构和大致颜色,但缺乏超越训练分辨率的高频细节。长焦图像恰好包含了局部区域的高频信息。通过智能的参考选择和特征融合,可以在不重新训练 3D-GS 的情况下提升渲染分辨率
  3. 自适应参考选择策略:

    • 功能:为每个新视角选择最合适的参考图像集合
    • 核心思路:基于相机位姿定义视角距离度量 \(d(v_{new}, v_{ref}) = w_t \|t_{new} - t_{ref}\| + w_r \angle(R_{new}, R_{ref})\),综合考虑平移距离和旋转角度。对长焦和广角分别选择 Top-K 个最近邻。优先选择与新视角方向对齐的长焦图像(因为长焦视场窄,只有方向相近时才有效),对广角图像则放宽角度约束(因为视场大,内容覆盖广)。权重 \(w_t\)\(w_r\) 根据镜头类型自适应调整
    • 设计动机:参考图像的质量直接影响细化效果。错误的参考会引入伪影,因此需要精心设计的选择策略

损失函数 / 训练策略

总训练损失为 \(\mathcal{L} = \mathcal{L}_{rgb} + \lambda_1 \mathcal{L}_{ssim} + \lambda_2 \mathcal{L}_{consist}\),其中 \(\mathcal{L}_{rgb}\)\(\mathcal{L}_{ssim}\) 是标准 3D-GS 的颜色和结构相似性损失,\(\mathcal{L}_{consist}\) 是双镜头一致性损失。细化模块单独训练,使用 L1 + 感知损失进行监督,训练数据通过下采样长焦图像构造。

实验关键数据

主实验

模拟数据集(3 个训练视角):

方法 PSNR↑ SSIM↑ LPIPS↓
3D-GS (baseline) 22.14 0.791 0.218
FSGS 24.31 0.834 0.176
DNGaussian 24.87 0.841 0.168
DL-GS (Ours) 27.52 0.893 0.112

真实拍摄数据集(5 个训练视角,2× 超分辨率):

方法 PSNR↑ SSIM↑ LPIPS↓
3D-GS + SR 24.63 0.845 0.153
Mip-NeRF 360 25.18 0.856 0.141
DL-GS (Ours) 28.37 0.911 0.089

消融实验

配置 PSNR↑ SSIM↑ 说明
Full DL-GS 27.52 0.893 完整模型
w/o 一致性损失 25.41 0.852 几何约束不足,下降2.11dB
w/o 细化模块 25.89 0.861 无超分辨率能力
w/o 自适应选择 26.73 0.878 参考选择不当引入伪影
仅用广角训练 24.87 0.838 无长焦引导
仅用长焦训练 23.56 0.812 视场覆盖不足

关键发现

  • 一致性损失贡献最大(+2.11 dB),证明双镜头的立体几何约束对少样本场景至关重要
  • 细化模块在超分辨率场景下提升显著(+1.63 dB),尤其在高频纹理区域效果明显
  • 仅用广角或仅用长焦的效果都显著劣于联合使用,说明两种镜头的互补性是核心
  • 在真实拍摄数据上的优势更加明显,说明方法对现实场景有良好的鲁棒性
  • 参考选择策略的贡献不可忽略(+0.79 dB),错误的参考会引入明显伪影

亮点与洞察

  • 将硬件特性转化为算法优势是本文最巧妙的思路——双镜头手机已经无处不在,但之前没有人将其视为 3D 重建的天然优势。相比依赖预训练深度模型的少样本方法,这种方法的约束来自真实的物理几何关系,更加可靠
  • 一举两得的问题分解:少样本问题用立体基线解决,高分辨率问题用长焦细节解决,两个看似独立的难题通过同一个硬件特性统一解决
  • 可复用的设计模式:多参考引导细化模块的设计可以迁移到其他需要超分辨率渲染的 3D 表示方法中(如 NeRF、NeuS 等)

局限与展望

  • 依赖准确的双镜头标定参数,如果内外参标定存在误差,一致性损失会引入误导性约束
  • 细化模块需要额外的前向推理时间,对实时渲染场景可能是瓶颈
  • 目前仅在静态场景上验证,双镜头在动态场景下的同步问题(两个镜头的快门时间差异)未被考虑
  • 超分辨率倍数受限于长焦图像的分辨率——如果目标分辨率远超长焦图像分辨率,细化效果可能有限
  • 未探索双镜头系统在光照变化场景下的表现——两个镜头的自动曝光可能不同步

相关工作与启发

  • vs FSGS: 通过密度初始化和语义引导解决少样本 3D-GS,但缺乏真实的几何约束,性能上逊色于 DL-GS 2.65 dB
  • vs DNGaussian: 引入深度先验正则化,但深度估计模型本身可能不准确,且未解决高分辨率问题
  • vs Mip-NeRF 360: 虽然支持连续多尺度渲染,但速度远慢于 3D-GS,且在少样本下也面临质量问题
  • 启发:利用消费级设备的物理特性(如 LiDAR、ToF、多摄像头)来增强 3D 重建,是一个值得持续探索的方向

评分

  • 新颖性: ⭐⭐⭐⭐ 利用双镜头的想法简洁而有效,但技术组件(一致性约束、参考超分)并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 模拟+真实数据,充分的消融和对比实验,还发布了代码
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述流畅,图表完善
  • 价值: ⭐⭐⭐⭐ 实用性强,直接面向移动设备的3D重建场景

相关论文