跳转至

CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image

会议: ICCV 2025
arXiv: 2412.12906
代码: 项目页
作者: Wonseok Roh, Hwanhee Jung, Jong Wook Kim 等 (Korea University, Google, Purdue University)
领域: 3D视觉 / 新视角合成 / 3DGS
关键词: 单视图3D重建, 3D Gaussian Splatting, 视觉语言模型, 文本引导, 空间引导, 点云特征

一句话总结

提出CATSplat——单视图前馈3DGS重建的泛化Transformer框架:利用VLM文本嵌入(上下文先验)和3D点云特征(空间先验)通过双重cross-attention增强图像特征,在RE10K等数据集上在PSNR/SSIM/LPIPS全面超越Flash3D,且跨数据集泛化性优异。

背景与动机

  • 基于3DGS的泛化前馈方法(pixelSplat、MVSplat)在多视图设置下利用cross-view correspondence取得成功,但单视图场景信息严重不足
  • Flash3D虽开创了单视图3DGS前馈重建(使用基础深度估计模型),但该领域仍未充分探索
  • 多视图方法可通过三角测量等物理技术获取3D线索,单视图无法使用这些技术
  • 核心洞察:需要从视觉线索以外的来源补充信息——文本语义和3D几何先验

核心问题

如何在仅有单张图像的极端条件下,通过引入文本上下文和3D空间先验来弥补信息缺失,实现高质量的泛化3DGS重建?

方法详解

整体Pipeline

  1. 输入单视图图像 \(\mathcal{I} \in \mathbb{R}^{H \times W \times 3}\)
  2. 预训练单目深度估计模型(UniDepth)预测深度图 \(D\)
  3. 图像与深度图拼接 → ResNet编码器 → 多尺度图像特征 \(F_i^{\mathcal{I}}\)
  4. VLM(LLaVA)生成单句场景描述 → 提取中间文本嵌入 \(F^C\)
  5. 深度图反投影为3D点云 \(P\) → PointNet编码器 → 3D空间特征 \(F^S\)
  6. 多分辨率Transformer(3层)中依次做:
  7. Cross-attention: \(F_i^{\mathcal{I}} \times F_i^C\) → 融合上下文
  8. Cross-attention: 结果 \(\times F_i^S\) → 融合空间信息
  9. Self-attention: 特征精炼
  10. ResNet解码器 → 预测per-pixel Gaussian参数 \(\{\mu_j, \alpha_j, \Sigma_j, c_j\}\)
  11. 光栅化渲染新视角

关键设计1:文本上下文引导(Contextual Prior)

  • 用预训练VLM(LLaVA)对输入图像生成一句话场景描述
  • 利用VLM的中间文本嵌入 \(F^C \in \mathbb{R}^{N_c \times D^C}\)(而非最终文本输出),保留丰富的多模态语义信息
  • 通过cross-attention将文本特征软融合入图像特征:Q来自图像特征,K/V来自文本特征
  • 文本嵌入编码了:场景类型(如厨房)、物体身份(如冰箱、烤箱)、空间关系等——为被遮挡区域的推理提供语义偏置
  • Prompt消融:单句描述优于场景类型标签、物体列表、多句描述(多句可能包含夸大信息)

关键设计2:3D空间引导(Spatial Prior)

  • 将2D深度图通过相机参数反投影为3D点云:\(p = K^{-1} \cdot u \cdot d\)
  • 用PointNet编码器从点云提取3D特征 \(F^S \in \mathbb{R}^{N_s \times D^S}\)
  • 通过第二轮cross-attention将3D特征融合(Q来自上下文增强后的图像特征,K/V来自3D特征)
  • 优于传统2D深度使用方式:消融实验证明3D点特征的cross-attention >> 2D深度特征的cross-attention >> 简单深度拼接

关键设计3:Ratio γ 控制融合强度

  • 在Add & Norm步骤中引入比率 \(\gamma\) 控制先验信息的融合比例: \(\tilde{F}_i = \text{Norm}(F_i^{\mathcal{I}} + \gamma \cdot \text{Dropout}(F_i^{\mathcal{I}CS}))\)
  • 保护原始视觉信息不被先验信号淹没

Gaussian参数预测

  • 中心 \(\mu\):预测深度偏移量 \(\delta\) 修正估计深度 \(\tilde{d} = d + \delta\),反投影后加3D偏移 \(\Delta_j\) 精细对齐
  • 不透明度 \(\alpha\):sigmoid约束到[0,1]
  • 协方差 \(\Sigma\):预测旋转矩阵R和缩放矩阵S,\(\Sigma = RSS^TR^T\)
  • 颜色 \(c\):球谐函数系数
  • 损失\(\mathcal{L} = \lambda_{\ell1}\mathcal{L}_{\ell1} + \lambda_{ssim}\mathcal{L}_{ssim} + \lambda_{lpips}\mathcal{L}_{lpips}\)

实验关键数据

主实验(RE10K,单视图方法对比)

方法 n=5 PSNR n=10 PSNR Random PSNR
Flash3D 28.46 25.94 24.93
CATSplat 29.09 26.44 25.45

插值/外推(RE10K)

  • 插值:25.23 dB(vs Flash3D 23.87),与双视图方法(pixelSplat 26.09)差距缩小
  • 外推:25.35 dB,超越所有双视图方法(MVSplat 23.04),单图即超过双图,验证先验的有效性

跨数据集泛化(RE10K训练→零样本测试)

目标数据集 Flash3D PSNR CATSplat PSNR
NYUv2 (室内) 25.09 25.57
ACID (自然) 24.28 24.73
KITTI (驾驶) 21.96 22.43

消融实验

配置 Random PSNR Random LPIPS
Baseline (无先验) 25.02 0.159
+上下文先验 25.40 0.153
+空间先验 25.42 0.153
+两者 25.45 0.151

用户研究

  • RE10K:88.42% 用户偏好CATSplat(vs Flash3D 11.58%)
  • ACID:91.41% 偏好CATSplat

亮点 / 我学到了什么

  • VLM中间嵌入比最终文本输出更有用:利用多模态对齐空间中的中间表示,比直接用文字描述保留了更丰富的信号
  • 3D点特征 >> 2D深度特征:将深度反投影为点云再用PointNet编码,通过cross-attention融合,效果远超简单拼接2D深度
  • 外推能力是单视图方法的优势:多视图方法在插值上强但外推弱(依赖cross-view correspondence),单视图+先验方法在外推上反而超越双视图
  • 文本prompt格式很重要:单句描述最优,过长或过短都不理想
  • cross-attention的迭代次数有增益:3层全做CA优于只在1-2层做

局限性 / 可改进方向

  • 对遮挡区域和截断区域效果仍有限(作者自述)
  • 训练仅用RE10K,数据多样性不足,扩展到更多数据集可提升实用性
  • VLM推理增加额外计算开销(LLaVA前向),实时性受影响
  • 未探索视频序列或时序一致性

评分

  • 新颖性: ⭐⭐⭐⭐ VLM中间嵌入+3D点云特征的双先验组合用于单视图3DGS是新颖的
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多指标、详尽消融、用户研究,实验非常充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,消融设计合理
  • 对我的价值: ⭐⭐⭐⭐ VLM嵌入作为3D先验的思路有参考价值,cross-attention融合多模态先验的范式值得借鉴