跳转至

SplatTalk: 3D VQA with Gaussian Splatting

元信息

  • 会议: ICCV 2025
  • arXiv: 2503.06271
  • 代码: 项目页面
  • 领域: 3D视觉
  • 关键词: 3D VQA, 3D Gaussian Splatting, 语言引导3D理解, LLM, 零样本

一句话总结

提出SplatTalk,利用可泛化的3D Gaussian Splatting框架生成与LLM兼容的3D token,仅需多视角RGB图像即可实现零样本3D视觉问答,性能超越2D LMM方法并接近3D LMM。

研究背景与动机

现有痛点

现有痛点领域现状:语言引导的3D场景理解对于机器人、AR/VR等应用至关重要。现有方法面临三大挑战:

3D数据稀缺:相比2D,语言标注的3D数据极少,限制了3D LMM的发展

依赖显式3D输入:多数3D方法需要点云、网格等显式3D表示,难以适用于仅有图像的场景

2D方法缺乏3D推理能力:直接用多视角图像喂给2D LMM时,token按图像排列而非3D空间组织,无法回答需要跨视角三维推理的问题(如"门对面是什么?")

核心insight:在将token输入LLM之前,先在3D空间中整合token,可以有效提升空间推理能力。

方法详解

整体框架

SplatTalk包含三个阶段:

阶段1:特征自编码器训练 - 从LLaVA-OV的视觉encoder+多模态projector提取高维visual token(这些token已与LLM输入空间对齐) - 训练自编码器将高维、无界、稀疏的特征压缩到低维超球面空间

阶段2:自监督3D-Language Gaussian Splatting训练 - 基于FreeSplat框架扩展为语言高斯场学习 - 输入多视角RGB图像 → CNN提取多尺度特征 → 构建自适应代价体积预测深度 → 反投影为3D Gaussian triplets \((\boldsymbol{\mu}, \boldsymbol{\omega}, \boldsymbol{f})\) - Pixel-wise Triplet Fusion (PTF) 模块融合跨视角重叠高斯 - MLP解码器同时预测渲染参数和低维语言特征 \(f\)

阶段3:3D VQA推理 - 从3D Gaussians提取语言特征 → 解码器映射回高维空间 → 直接作为LLM的visual token输入

关键设计

1. Visual Token选择 选择多模态projector之后的visual token作为训练目标(而非encoder原始特征),因为projector之后的特征已与LLM潜在空间对齐,LLM可以直接理解和推理。

2. 均值特征提取的理论分析 将3D Gaussian的语言特征通过均值聚合(mean pooling)得到场景级token。论文提供了理论论证:均值特征提取编码了关于3D场景的整体概念信息。

3. 熵自适应Token采样 不均匀采样token,优先采样信息熵高的区域,在不增加训练开销的前提下提升3D VQA性能。

损失函数

自监督训练损失包含: - RGB重建损失:\(\mathcal{L}_{\text{rgb}}\)(保证渲染质量) - 语言特征重建损失:\(\mathcal{L}_{\text{lang}}\)(低维特征与自编码器压缩后的pseudo GT对齐) - 可选LoRA微调损失:\(\mathcal{L}_{\text{lora}}\)(微调LLM提升VQA性能)

实验

主实验:ScanQA和SQA3D对比

方法 模态 ScanQA CIDEr ScanQA EM@1 SQA3D EM@1
ScanQA PC 64.9 21.1 47.2
3D-VisTA PC 69.6 22.4 48.5
LEO PC+I 101.4 24.5 50.0
LLaVA-OV I 50.0 15.6 -
GPT-4V I 59.6 - -
SplatTalk (Ours) I 高于2D方法 高于2D方法 接近3D SOTA

消融实验

组件 CIDEr变化
无自编码器压缩(直接用高维特征) 显著下降,训练困难
无熵自适应采样 中等下降
仅用encoder特征(非projector后) 严重下降,需重训projector
无3D表示(纯2D多视角) 空间推理能力明显不足

关键发现

  1. 3D表示的必要性:与纯2D方法相比,SplatTalk在需要跨视角空间推理的问题上优势明显(如"窗户对面是什么")
  2. Projector后特征的重要性:使用encoder原始特征需要重训projector,而projector后的visual token可直接兼容LLM
  3. 零样本能力:无需3D-语言标注数据,仅靠自监督训练即可实现有竞争力的3D VQA

亮点与洞察

  1. 首个自监督3D Gaussian语言场零样本3D VQA方法:打破了3D VQA依赖显式3D输入(点云)的限制
  2. "先在3D空间整合,再送入LLM"的范式:比直接用多视角图像更能捕获空间关系
  3. 实用性强:仅需多视角RGB图像,无需深度、点云等额外输入

局限与展望

  • 依赖FreeSplat的泛化3DGS质量,对稀疏视角和复杂场景的鲁棒性待验证
  • 自编码器压缩可能丢失部分细粒度语义信息
  • 推理时需要多视角图像输入,实时性受限

相关工作

  • 3D LMM: LEO, Chat-Scene, LL3DA
  • 2D LMM: LLaVA-OV, GPT-4V
  • 3DGS语义: LangSplat, ChatSplat
  • 泛化3DGS: FreeSplat

评分

  • 新颖性: ⭐⭐⭐⭐ (3DGS+LLM的新颖组合)
  • 技术深度: ⭐⭐⭐⭐ (理论分析+系统设计完整)
  • 实验质量: ⭐⭐⭐⭐ (多benchmark全面对比)
  • 实用价值: ⭐⭐⭐⭐ (仅需RGB图像,门槛低)

相关论文