跳转至

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

会议: CVPR 2025
arXiv: 2411.17030
代码: MrZihan/g3D-LF
领域: 自动驾驶 / 具身智能
关键词: 3D特征场, 视觉-语言导航, 对比学习, BEV地图, 零样本物体导航, 情境问答

一句话总结

本文提出g3D-LF,通过在约5K室内3D场景和近100万语言描述上进行多级对比学习预训练,构建了可泛化到未知环境的3D-语言特征场,在VLN(单目/全景)、零样本物体导航和情境问答四种具身任务上均取得SOTA或接近SOTA表现。

研究背景与动机

领域现状

具身智能体需要理解3D环境并与人类交互,执行导航、问答等任务。可泛化3D特征场提供了理想的场景表示:可泛化到未知场景、实时构建和动态更新、开放词汇语义空间。现有的特征场模型(如HNR)已在VLN等任务中展现了潜力。

现有痛点

  1. 缺乏3D空间关系理解:现有特征场模型的监督来自2D基础模型(CLIP、DINOv2),限制了对3D空间关系的理解能力
  2. 与语言语义存在差距:模型在训练时没有语言监督,预测的表示与自然语言之间存在显著的语义鸿沟
  3. 长文本理解能力不足:大尺度表示(全景图、BEV地图)难以与描述空间关系和布局的长文本充分对齐

核心矛盾

如何让3D特征场不仅编码视觉特征,还能与多粒度的自然语言对齐,从而在多种语言引导的具身任务中发挥作用?

切入角度

利用已有的大规模3D-语言数据集(SceneVerse等),通过精心设计的多级对比学习框架,在不同尺度的表示(区域/视图/全景/BEV)上与不同粒度的语言(物体类别/物体描述/空间关系/场景布局)对齐。

核心idea

构建一个多级对比学习框架,针对3D特征场的不同尺度输出设计匹配的语言对齐策略:区域级用物体词汇表对比、视图级用CLIP蒸馏+语言对比、全景/BEV级用基于亲和矩阵的细粒度长文本对比。

方法详解

整体框架

g3D-LF接受带位姿的RGB-D图像,使用CLIP图像编码器提取特征并映射到3D坐标构成特征场。通过体积渲染预测新视角的特征图,再经过多尺度编码器(view encoder、panorama encoder、BEV encoder)生成不同尺度的表示。预训练阶段通过多级对比学习与多粒度语言对齐。

关键设计

1. 多尺度3D-语言特征场编码

  • 功能:从RGB-D观测中构建可泛化的3D特征场,并生成不同尺度的场景表示
  • 核心思路
    • 特征场编码:CLIP提取每帧的patch级视觉特征,通过深度图映射到3D世界坐标形成特征点集合 \(\mathcal{M}\)
    • Ray-View-Panorama编码:MLP网络聚合特征场中的近邻特征点,预测语义表示和体积密度,通过体积渲染合成新视角特征图 \(\mathbf{R} \in \mathbb{R}^{12 \times 12 \times 768}\),再经Transformer view encoder和panorama encoder得到多视角表示
    • Ray-BEV编码:渲染射线从上到下垂直发射,构建以智能体为中心的16.8m×16.8m BEV地图 \(\hat{\mathbf{R}} \in \mathbb{R}^{168 \times 168 \times 768}\),经卷积下采样和Transformer BEV encoder得到BEV表示
  • 设计动机:新视角表示适合局部目标识别和导航规划;全景表示适合方向理解;BEV地图适合大范围空间布局理解。不同具身任务需要不同尺度的表示

2. 多级对比学习

  • 功能:将不同尺度的3D特征表示与对应粒度的语言对齐
  • 核心思路
    • 物体级对齐(Balanced Object-level):用1883个室内物体类别的CLIP文本嵌入构成词汇表 \(\mathcal{O}\),通过CrossEntropy对体积渲染的射线表示做分类监督。采用平衡损失——对top 10%高损失的射线(难以识别的小物体如台灯)增大权重系数 \(\alpha\)
    • 视图级CLIP蒸馏:用GT图像的CLIP特征对预测的新视角/全景/BEV表示做对比学习,保持与大规模视觉-语言预训练模型的一致性
    • 细粒度长文本对比:对BEV地图窗口(5×5区域)和长文本描述之间,计算亲和矩阵 \(\mathbf{A}_{(i,l)} = \text{CosSim}(\hat{\mathbf{R}}'_i, \mathbf{W}_l) / \tau\),取最高L个相似度的均值作为细粒度匹配分数,再用双向CrossEntropy训练
  • 设计动机:3D-语言数据量级远小于图像-语言数据(百万 vs 数十亿),因此需要同时利用CLIP蒸馏(保持泛化性)和直接语言对比(增强语言对齐)。细粒度对比通过亲和矩阵实现Token级别的匹配,比全局相似度更适合长文本。平衡损失解决了室内场景中地板/墙壁主导的长尾分布问题

3. 具身任务集成

  • 功能:将预训练的g3D-LF无缝集成到多种具身任务的baseline中
  • 核心思路
    • VLN(单目):替换VLN-3DFF中的特征场,结合BEV地图增强空间布局理解
    • VLN(全景):替换HNR中的特征场,提供语言对齐的全景表示用于导航规划
    • 零样本物体导航:替换VLFM中的BLIP-2,用g3D-LF预测的12个新视角特征图与BEV地图计算与目标物体的相似度,构建value map引导导航
    • 情境问答:用BEV地图训练定位解码器预测位置热力图,用全景表示预测朝向,最终联合回答问题
  • 设计动机:g3D-LF作为通用的3D-语言表示模型,可以即插即用地增强各种具身任务baseline,无需针对每个任务重新设计表示

实验关键数据

视觉-语言导航(VLN)

单目设置 R2R-CE Val Unseen

方法 SR↑ SPL↑
NaVid (LLM) 37.4 35.9
VLN-3DFF 44.9 30.4
g3D-LF 47.2 34.6

SR提升2.3%,首次超越LLM方法NaVid。

全景设置 R2R-CE Val/Test Unseen:SPL达52/51,均为SOTA。

零样本物体导航

方法 HM3D SR/SPL MP3D SR/SPL
VLFM (BLIP-2) 52.5/30.4 36.4/17.5
g3D-LF 55.6/31.8 39.0/18.8

仅用特征场(无VLM/LLM)即达到或超越使用VLM的方法。

情境问答(SQA3D)

  • 定位精度:Acc@0.5m和Acc@1m显著优于基线
  • 仅用图像输入(无点云),在定位任务上表现优异

关键发现

  1. g3D-LF是首个将室内3D特征场用于零样本物体导航的方法
  2. 单目VLN中的优势远大于全景VLN,因为特征场弥补了单目相机的视角限制
  3. 平衡损失对小物体识别至关重要(缺少时台灯等小物体的识别率显著下降)
  4. 细粒度长文本对比显著提升了BEV地图的空间语义表示质量

亮点与洞察

  1. 多级对比学习设计精巧:不同尺度表示配对不同粒度语言、不同对比策略,每个设计都有明确的动机和实验验证
  2. 通用性强:一个预训练模型可以即插即用地提升四种不同具身任务的性能,验证了3D-语言特征场作为通用表示的潜力
  3. 数据利用高效:整合SceneVerse等现有数据集(约1M语言描述),无需专门标注,且在仅两块RTX 6000 Ada GPU上训练10天即可完成
  4. 无需LLM即超越LLM方法:在单目VLN和零样本导航中,g3D-LF在不使用大语言模型的情况下超越了NaVid、InstructNav等LLM方法,计算成本更低

局限性

  1. 预训练仅限室内场景(ScanNet、HM3D、Structured3D),无法直接应用于室外自动驾驶场景
  2. 特征场的构建依赖深度图质量,在真实世界(非仿真)中深度传感器的噪声会影响表示质量
  3. SQA3D上的回答准确率(EM@1)显著低于LLM方法,说明特征场表示在复杂推理上仍有局限
  4. 体积渲染过程计算开销较大,可能影响实时性

相关工作与启发

  • 与HNR的关系:g3D-LF在HNR的可泛化特征场架构基础上,增加了3D-语言预训练,是对HNR的自然升级
  • 与CLIP/DINOv2蒸馏的对比:保留CLIP蒸馏保证泛化性,同时增加直接语言对比弥补2D视觉模型在3D空间理解上的不足
  • 细粒度对比学习的通用性:基于亲和矩阵的TopK匹配策略可推广到其他需要区域-长文本对齐的任务
  • 对VLA(Vision-Language-Action)的启发:g3D-LF展示了3D-语言预训练可以显著提升具身任务性能,这一方向值得在更大规模数据和更多任务上探索

评分

⭐⭐⭐⭐ (4/5)

工作系统性强,从数据准备到模型设计到多任务验证形成完整闭环。多级对比学习的设计有深度。不过核心建模架构主要继承HNR,创新集中在预训练策略;室内场景限制了在自动驾驶这一领域垂直方向的适用性。

相关论文