DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering¶
会议: CVPR 2025
arXiv: 2503.03190
代码: https://github.com/LZ-CH/DSPNet (有)
领域: 3D视觉 / 多模态VLM
关键词: 3D问答, 双视觉感知, 多视图融合, 点云特征增强, 跨模态推理
一句话总结¶
DSPNet 提出了一种双视觉场景感知网络,通过文本引导的多视图融合(TGMF)、自适应双视觉感知(ADVP)和多模态上下文引导推理(MCGR)三个模块,综合利用点云和多视图图像信息来解决 3D 问答中的精细感知和鲁棒推理问题,在 SQA3D 和 ScanQA 数据集上达到 SOTA。
研究背景与动机¶
- 领域现状:3D 问答(3D QA)要求模型理解 3D 场景并回答相关问题,主要分为 3D Visual QA(ScanQA)和 3D Situated QA(SQA3D)两类任务。主流方法(如 ScanQA、SQA3D、3DGraphQA)主要依赖点云作为视觉信息来源。
- 现有痛点:(a)仅依赖点云难以准确感知扁平或小型物体(如电视、图画、地毯、手机),而多视图图像具有丰富的局部纹理细节可以弥补;(b)多视图图像反投影到 3D 空间时存在特征退化问题——相机位姿噪声、视角缺失和复杂遮挡导致边缘和遮挡区域的特征不可靠;(c)反投影时各视角的权重固定为 \(\frac{1}{n}\),未考虑不同问题对不同视角的需求差异。
- 核心矛盾:多视图图像的纹理信息对场景理解至关重要,但简单的反投影+平均融合无法有效利用这些信息,反而引入噪声和退化特征。
- 本文目标 如何有效融合多视图图像和点云信息,同时处理反投影中的特征退化问题,实现鲁棒的 3D 问答。
- 切入角度:作者发现 ScanQA 原始工作已尝试过 3DMV 式的反投影融合但效果不佳,根本原因有两个:(a)多视图融合时各视角重要性应与问题内容相关(文本引导);(b)反投影后的退化特征需要自适应筛选而非全盘接受。
- 核心 idea:文本引导多视图融合确保与问题最相关的视角被优先使用,自适应双视觉感知过滤退化特征,上下文引导推理实现高效的跨模态交互。
方法详解¶
整体框架¶
DSPNet 输入 3D 点云、多视图图像和问题文本,输出答案。流程为:(1)三个编码器分别编码点云(PointNet++)、多视图图像(Swin Transformer)和文本(Sentence-BERT);(2)TGMF 模块将多视图特征反投影到 3D 空间并基于文本引导加权融合;(3)ADVP 模块自适应融合反投影图像特征和点云特征为统一视觉表示;(4)MCGR 模块通过多层交叉注意力和 Transformer 进行跨模态推理和答案预测。
关键设计¶
-
文本引导的多视图融合(Text-guided Multi-view Fusion, TGMF):
- 功能:根据问题文本内容自适应加权多视图图像特征的贡献,优先使用与问题最相关的视角。
- 核心思路:首先通过相机参数将多视图特征反投影到 3D 点云坐标,得到 \(U_p \in \mathbb{R}^{N_p \times M \times D_i}\)。然后计算全局图像特征 \(G_i\) 与全局文本特征 \(G_t\) 之间的注意力分数 \(h_s = \frac{Q K^T}{\sqrt{d_k}}\)(\(Q = G_i W_q\),\(K = G_t W_k\)),得到每个视角的重要性权重 \(s = \text{SoftMax}(h)\),加权聚合得到融合特征 \(Z_i = s U_p\)。
- 设计动机:简单的平均池化对所有视角一视同仁,忽略了"不同问题需要不同视角信息"这一事实。例如对于"电视在图画的哪一侧"这个问题,正面拍摄的视角比侧面视角更有用。文本引导的注意力让模型学会为不同问题选择最相关的视角。
-
自适应双视觉感知(Adaptive Dual-vision Perception, ADVP):
- 功能:自适应融合反投影图像特征和点云特征,过滤退化特征、增强高置信度特征。
- 核心思路:受 SENet 启发,将反投影特征 \(Z_i\) 和点云特征 \(Z_p\) 拼接后通过 MLP + Sigmoid 学习逐点逐通道的重要性权重:\(Z_h = \sigma(\text{MLP}([Z_i, Z_p])) \odot [Z_i, Z_p]\),然后通过 FC 层映射到统一维度得到最终视觉特征 \(Z_v\)。
- 设计动机:反投影过程中,FOV 边缘和遮挡区域的特征不可靠(存在位姿噪声和视角缺失),而某些区域的点云特征本身就够用不需要图像补充。ADVP 通过学习的门控机制自适应地抑制低质量特征、增强高质量特征,避免退化特征干扰后续推理。
-
多模态上下文引导推理(Multimodal Context-guided Reasoning, MCGR):
- 功能:在保持计算效率的同时实现精细的视觉-语言交互推理。
- 核心思路:使用 FPS 从稠密视觉特征 \(Z_v\) 中采样 \(K\) 个稀疏候选特征 \(Z_c\),加上位置编码后形成稠密嵌入 \(E_v\) 和稀疏嵌入 \(E_c\)。L 层推理中每层包含:(a)跨注意力子层:以 \(E_c^{i-1}\) 为 query、\(E_v\) 为 context 提取关键点特征 \(h_c^i = \text{CrossAtt}(E_c^{i-1}, E_v)\);(b)Transformer 子层:将 \(h_c^i\) 与文本特征 \(E_t^{i-1}\) 拼接后进行自注意力交互 \([E_c^i, E_t^i] = \text{Transformer}([h_c^i, E_t^{i-1}])\)。
- 设计动机:直接在稠密视觉特征上做跨模态注意力计算成本极高且存在特征冗余;直接下采样又会丢失空间信息。MCGR 通过稀疏候选+稠密上下文的两阶段交互,在保持空间精度和语义粒度的同时大幅降低计算量。
损失函数 / 训练策略¶
- 3D VQA 任务:\(L_{3DVQA} = L_{ans} + \lambda_1 L_{cls} + \lambda_2 L_{loc}\)(答案分类 + 物体分类 + 参考物体定位)
- 3D SQA 任务:\(L_{3DSQA} = L_{ans}\)(仅答案分类)
- 使用 soft-ranked cross entropy loss 处理含噪标签
- 采样 20 张多视图图像(224×224),40000 个点
- 3D 编码器使用 VoteNet 预训练的 PointNet++(无 VoteHead)
- 图像编码器使用冻结的 Swin Transformer
- AdamW 优化器,12 epoch,4 GPU,batch size 48
实验关键数据¶
主实验¶
| 数据集 | 指标 | DSPNet | 3DGraphQA | 3D-VisTA (pretrained) | SQA3D |
|---|---|---|---|---|---|
| SQA3D | Avg Acc | 50.4 | 49.2 | 48.5 | 47.2 |
| SQA3D | What | 38.2 | 36.4 | 34.8 | 33.5 |
| SQA3D | How | 51.2 | 46.1 | 45.4 | 42.4 |
| ScanQA | EM@1 (w/ obj) | 26.5 | 25.6 | 27.0* | 23.5 |
| ScanQA | CIDEr (w/o obj) | 69.6 | 62.9 | 62.6* | 60.2 |
*注:3D-VisTA 使用了外部 3D-Text 数据集预训练,DSPNet 未使用预训练。
消融实验¶
| 配置 | ScanQA EM@1 | SQA3D Acc | 说明 |
|---|---|---|---|
| Baseline | 22.35 | 49.33 | 无 TGMF/ADVP/MCGR |
| + TGMF | 22.69 | 49.58 | 文本引导融合 +0.34 / +0.25 |
| + TGMF + ADVP | 22.80 | 49.87 | 自适应双视觉 +0.11 / +0.29 |
| + TGMF + MCGR | 23.23 | 49.77 | 上下文推理 +0.54 / +0.19 |
| Full Model | 23.47 | 50.36 | 三模块协同 |
| w/o 2D modality | 22.26 | 49.05 | 去掉图像信息,下降明显 |
关键发现¶
- MCGR 贡献最大:在 ScanQA 上,MCGR 单独带来 +0.54 提升(vs TGMF 的 +0.34 和 ADVP 的 +0.11),说明跨模态推理机制对 3D QA 最关键。
- 三模块协同超越简单叠加:Full Model(+1.12)大于三个模块单独贡献之和,证明模块间存在正向协同效应——TGMF 和 ADVP 提供更好的特征,MCGR 更有效地利用这些特征。
- 在开放性问题上优势明显:DSPNet 在 What(+1.8)和 How(+5.1)等需要深入场景理解的问题上提升最大,而 Is/Can/Which 等简单问题(可能仅靠问题就能猜对)上优势较小。
- 2D 视觉信息不可或缺:去掉多视图图像后 ScanQA 下降 1.21、SQA3D 下降 1.31,证实了多视图图像对 3D QA 的重要性。
- 无需预训练即可媲美预训练方法:DSPNet 在 ScanQA EM@1 上接近使用外部大规模数据预训练的 3D-VisTA(26.5 vs 27.0),在 SQA3D 上超越所有方法。
亮点与洞察¶
- 问题驱动的多视图融合:使用文本/问题来引导多视图特征的加权融合是一个自然且有效的设计——不同问题确实需要不同视角的信息。这种 query-aware fusion 的思路可推广到任何文本+多视图的任务。
- 反投影退化问题的显式建模:之前的方法简单拼接反投影特征和点云特征,忽略了退化问题。ADVP 通过 SENet 式门控机制自适应过滤退化特征——这种对数据质量的建模思路可迁移到其他多模态融合场景。
- 稀疏-稠密两阶段推理:MCGR 用 FPS 采样的稀疏候选从稠密特征中提取关键信息,避免了在高维特征上做全注意力的计算瓶颈。
局限与展望¶
- 固定 20 张视图的采样策略:当前均匀采样 20 张视图可能不是最优,针对不同场景可能需要更智能的视图选择策略。
- PointNet++ 编码器的局限:使用较老的 PointNet++ 作为 3D 编码器,未尝试更先进的点云 backbone(如 PointTransformer v3)。
- 未利用大语言模型:当前使用 MCAN 作为答案预测头,未探索与 LLM 集成的可能性,可能限制了开放式问答能力。
- 场景规模有限:仅在 ScanNet 的室内场景上验证,对更大规模或室外场景的泛化性未知。
- 多视图数量敏感性:消融显示 10/15/20 张视图性能递增,更多视图的效果和计算开销的平衡未深入分析。
相关工作与启发¶
- vs ScanQA: ScanQA 尝试过 3DMV 式反投影融合但效果不佳。DSPNet 通过 TGMF(文本引导权重)和 ADVP(退化过滤)解决了简单融合的两个核心问题。
- vs 3D-VisTA: 3D-VisTA 通过大规模预训练获得通用 3D-语言表示。DSPNet 无需预训练,通过更好的特征融合和推理达到可比水平——说明架构设计和预训练各有优势。
- vs 3DGraphQA: 3DGraphQA 用图 Transformer 建模物体间关系,也引入了多视图信息。DSPNet 使用点级(而非物体级)视觉表示,保留了更丰富的空间信息。
- 与 3D 检测的融合方法对比:ADVP 受 SENet 和 3D 检测中的 2D-3D 融合启发,但创新地加入了对退化特征的显式建模。
评分¶
- 新颖性: ⭐⭐⭐⭐ 文本引导多视图融合和反投影退化过滤的组合方案新颖且有效
- 实验充分度: ⭐⭐⭐⭐ 两个标准数据集 + 详细消融 + 视图数量分析 + 定性对比
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰(Fig 1, 2 直观展示痛点),模块设计阐述完整
- 价值: ⭐⭐⭐⭐ 为 3D QA 提供了有效利用多视图信息的范式,模块可迁移
相关论文¶
- [CVPR 2025] DepthCues: Evaluating Monocular Depth Perception in Large Vision Models
- [NeurIPS 2025] Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
- [CVPR 2025] Continuous 3D Perception Model with Persistent State
- [CVPR 2025] 4Deform: Neural Surface Deformation for Robust Shape Interpolation
- [CVPR 2025] Dual Exposure Stereo for Extended Dynamic Range 3D Imaging