3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding¶
会议: ICCV 2025
arXiv: 2412.18450
代码: https://github.com/CognitiveAISystems/3DGraphLLM
领域: 多模态VLM / 3D场景理解 / 场景图
关键词: 3D Scene Graph, LLM, Semantic Relations, Visual Grounding, Learnable Graph Representation
一句话总结¶
提出3DGraphLLM,首个将3D语义场景图的可学习表示直接输入LLM的方法——通过k近邻子图+三元组(object1, relation, object2)编码物体间语义关系,然后投影到LLM的token嵌入空间。在ScanRefer上Acc@0.5提升+6.4%(vs无语义关系的Chat-Scene),在Multi3DRefer上F1@0.5提升+7.5%,推理速度比GPT4Scene-HDM快5倍。
背景与动机¶
现有3D LMM用可学习表示编码场景物体时,通常只利用几何信息(3D坐标、点云特征),忽略了物体间的语义关系(如"桌子上的杯子"、"旁边的椅子")。这些关系对指称接地("桌子旁边的那个椅子")和空间推理至关重要。虽然文本形式的场景图已被用于LLM(如ConceptGraphs),但文本描述一个物体需要几百个token,大画面下严重拖慢推理。3D场景图天然编码了物体和关系,但如何将其高效、可学习地输入LLM尚未探索。
核心问题¶
如何创建一种高效且可学习的3D语义场景图表示,使LLM能直接利用物体间的语义关系来提升3D视觉-语言任务的性能?
方法详解¶
整体框架¶
场景点云 → 实例分割(Mask3D/OneFormer3D) → 每个物体提取2D(DINOv2)+3D(Uni3D)特征 → VL-SAT生成物体间语义关系特征 → 三元组(obj_i, relation, obj_j)表示k近邻子图 → 投影层映射到LLM token空间 → LLM(LLAMA3-8B/Vicuna-7B + LoRA)回答用户查询
关键设计¶
-
可学习场景图表示:每个物体用其标识符token
<OBJ_i>+ 2D特征\(F_i^{2d}\)+ k近邻子图描述。子图由三元组组成:\((F_i^v, F_{ij}^e, F_j^v)\)——源物体3D特征、语义关系特征、目标物体3D特征。这比纯文本场景图紧凑得多(800 tokens vs 10400 tokens描述100个物体场景) -
语义边特征编码:使用VL-SAT(基于CLIP知识迁移的3D场景图生成方法)从点云对中提取关系特征\(Z_{ij}^e \in \mathbb{R}^{512}\),这是分类前的潜在特征,能捕获多种非互斥语义关系的组合
-
k近邻+NMS+最小距离过滤:完整场景图有\(n(n-1)\)条边,太多。只保留每个物体的k=2个最近邻。NMS过滤(IoU=0.99)去除重复物体,最小距离过滤(1cm)排除自身副本
-
两阶段训练:Stage 1用GT实例分割预训练投影层+LLM(高质量边特征);Stage 2用Mask3D分割微调(适应噪声分割)
损失函数 / 训练策略¶
$\(L(\theta) = -\sum_{i=1}^{\ell} \log P(s_i^{res} | s_{[1,...,i-1]}^{res}, s^{prefix})\)$ - 4×A100, batch 8, 3 epochs, lr=5e-6, LoRA rank=16, cosine annealing - 训练数据: ScanRefer+Multi3DRefer+Scan2Cap+ScanQA+SQA3D+RioRefer+3RQA (~370K)
实验关键数据¶
主要结果(Mask3D分割, LLAMA3-8B)¶
| 任务 | 数据集 | 指标 | 3DGraphLLM | Chat-Scene | 提升 |
|---|---|---|---|---|---|
| 接地 | ScanRefer | Acc@0.5 | 56.6 | 50.2 | +6.4 |
| 接地 | Multi3DRefer | F1@0.5 | 59.9 | 52.4 | +7.5 |
| 描述 | Scan2Cap | C@0.5 | 81.0 | 77.1 | +3.9 |
| QA | ScanQA | CiDEr | 88.8 | 87.7 | +1.1 |
| QA | SQA3D | EM | 55.9 | 54.6 | +1.3 |
推理速度(Mask3D)¶
| 方法 | 每场景token数 | ScanRefer推理(s) |
|---|---|---|
| GPT4Scene | 10400 | 1.9 |
| 3DGraphLLM | 800 | 0.4 |
快4.75倍!
消融:语义关系的作用(GT分割, LLAMA3-8B)¶
| 边数 | ScanRefer Acc@0.5 | Multi3DRefer F1@0.5 |
|---|---|---|
| 0(无关系=Chat-Scene) | 61.5 | 64.4 |
| 2(+三元组) | 66.9 | 69.9 |
语义关系带来+5.4 / +5.5的显著提升。
消融要点¶
- k=2最优:在视觉接地/描述/QA三任务间取得最佳平衡
- 三元组 vs 扁平序列:三元组表示(obj,rel,obj)优于仅序列化边特征(接地+1.0 F1@0.5)
- 两阶段训练:GT预训练→Mask3D微调比直接在Mask3D上训练更好
- ScanNet+3RScan预训练:跨域数据进一步提升接地和QA
- NMS+距离过滤:解决Mask3D分割中的物体重复问题
亮点¶
- 首个可学习3D场景图→LLM:填补了3D场景图与LLM之间的空白——不是用文本描述图,而是可学习的嵌入
- 极高效:800 tokens描述100物体场景 vs Chat-Scene的200+GPT4Scene的10400,推理快5倍
- 语义关系的定量验证:清晰证明加入物体间语义关系对接地任务有显著帮助(+5-7%)
- 与SOTA持平但更快:与GPT4Scene-HDM质量相当但推理快5倍
局限性 / 可改进方向¶
- k增大时GPU内存消耗快速增长(k=4已是上限)
- 语义关系编码器(VL-SAT)在跨域时质量下降,需更鲁棒的关系提取
- n-gram指标不适合评估LLM的丰富输出(CIDEr 0分但描述正确的情况)
- 左右方向判断是常见失败模式
与相关工作的对比¶
- Chat-Scene:直接基线(无语义关系的物体列表+LLM)。3DGraphLLM加入场景图后在接地任务上提升6-7%
- Robin3D:用1M指令数据训练,3DGraphLLM仅用370K数据就达到可比性能
- GPT4Scene-HDM:质量相当但推理慢5倍
- ConceptGraphs/BBQ:用文本场景图+LLM,3DGraphLLM用可学习嵌入更紧凑
启发与关联¶
- 图结构→可学习token序列的转换思路可推广到其他图+LLM任务(知识图谱推理、分子图理解)
- VL-SAT的跨域关系提取能力证明了CLIP知识迁移对3D语义关系的有效性
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个可学习3D场景图表示用于LLM,概念clean但核心组件是已有技术的组合
- 实验充分度: ⭐⭐⭐⭐⭐ 5个基准+丰富消融(边数/分割质量/子图表示/训练策略/可扩展性)
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰系统,消融设计全面
- 价值: ⭐⭐⭐⭐ 证明了语义关系对3D理解的重要性,高效推理对实际部署有价值