跳转至

3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

日期: 2026-03-24
arXiv: 2603.23447
代码: 无
领域: 多模态/VLM / 3D理解 / 城市级感知
关键词: city-scale 3D, multi-modality LLM, coarse-to-fine encoding, 3D-VL benchmark, urban understanding

一句话总结

提出 3DCity-LLM,将多模态 LLM 扩展到 3D 城市级感知:通过粗到细四分支编码(文本/物体/关系/场景)处理城市尺度下数千异质物体的空间关系,构建 120 万样本的 3DCity-LLM-1.2M 数据集覆盖 7 类任务,在 BLEU-4(30.64)和逻辑性(7.33/10)上超越 City-VLM。

研究背景与动机

  1. 领域现状: 多模态 LLM 在物体级或室内场景理解上表现出色,但扩展到 3D 城市尺度面临新挑战——数千异质物体(建筑、道路、植被等)具有复杂的空间关系。

  2. 现有痛点: 现有城市数据集缺乏显式 3D 数值信息(距离、角度)、缺乏上下文化的用户模拟(游客 vs 政府官员)、传统文本相似度指标(BLEU/ROUGE)不足以评估长文推理回答。

  3. 核心 idea: 粗到细的层次化特征编码——物体几何 + 关系拓扑 + 全局场景语义分别建模,按任务路由到相关分支。

方法详解

整体框架

输入 3D 城市场景(点云+俯视图+地标信息),按任务类型路由到不同编码分支,经两阶段训练让 7B LLM(LLaVA-v1.5)理解城市尺度的三维空间关系。

关键设计

  1. 粗到细四分支编码:

    • 物体编码:\(\mathbf{E}_o=\text{Proj}_o([\mathbf{f}_v; \mathbf{f}_s; \mathbf{f}_l])\),融合局部俯视图(CLIP)+ 3D 形状(Uni3D)+ 地标名称(BERT)
    • 关系编码:KNN 近邻 + 空间相关性注意力 \(\alpha_k=\text{softmax}(\mathbf{f}_s^{(t)}\cdot[\mathbf{f}_s^{(k)}+\phi(\Delta\mathbf{p}^{(k)})])\),建模物体间的空间拓扑
    • 场景编码:\(\mathbf{E}_s=\text{Proj}_s([\mathbf{F}_v^{\text{Sce}}; \mathbf{F}_l^{\text{Sce}}])\),全局俯视图 + 聚合地标特征
    • 文本编码:标准 LLM token embedding
    • 设计动机:城市中的物体描述、物体关系、全局场景理解需要不同粒度的感知
  2. 两阶段训练:

    • Stage 1:用 caption 任务对齐多模态嵌入空间
    • Stage 2:用分析/定位/规划任务微调推理能力
  3. 多维评估协议: 传统文本相似度指标(BLEU/ROUGE/METEOR)+ LLM-based 语义评估(逻辑性/可靠性,0-10 分)

数据集构建

  • 3DCity-LLM-1.2M:120 万样本,7 类任务
  • 物体描述 35 万(28.3%) | 物体分析 47 万(37.9%) | 物体定位 9.4 万(7.6%)
  • 关系描述 11 万 | 关系分析 8 万 | 场景描述 16 万(12.9%) | 场景分析 4 万
  • 平均回答长度 39.47 词,远超 City-3DQA 的 1.80 词
  • 城市来源:Birmingham、Cambridge、Qingdao、Lihu、Longhua、Wuhai、Heidelberg 等

实验关键数据

物体级任务

方法 BLEU-4 ROUGE-L METEOR 逻辑性 可靠性
LLaVA 25.40 37.39 - - -
Chat Scene 28.67 41.87 - 7.17 -
City-VLM 27.93 42.13 - 6.96 -
3DCity-LLM 30.64 42.81 48.89 7.33 6.02

跨层级任务

层级 BLEU-4 ROUGE-L METEOR
物体级 30.64 42.81 48.89
关系级 20.98 34.61 42.09
场景级 20.11 29.87 37.84

City-3DQA 外部验证

  • 句子级准确率:68.55%(单跳 82.41%,多跳 57.75%)
  • 城市级准确率:64.49%

消融实验

消融 BLEU-4 说明
仅局部视图 29.61 基准
+ 3D 形状 29.82 +0.21
+ 地标特征 30.64 +1.03,地标信息最重要

关系级:地标特征带来 +2.74 BLEU-4 和 +0.32 可靠性提升

亮点与洞察

  • 120 万样本的城市 3D-VL 数据集含显式坐标、距离、角度和用户角色模拟(游客/官员/居民),填补重要空白
  • 按任务路由编码分支避免了信息干扰——场景级不需要单物体细节,物体级不需要全局俯视图
  • LLM-based 评估指标比 BLEU 更能反映长文回答质量(BLEU 难以衡量逻辑连贯性)
  • 多跳推理 57.75% 仍显不足,说明城市级空间推理是开放性挑战

局限性 / 可改进方向

  • 仅在 7B 模型上验证,GPU 限制未能测试 13B/34B 规模,而 scaling 通常对复杂推理有很大帮助
  • 数据来源限于特定城市,极端环境(沙漠/极地/密集城区)泛化性未知
  • 场景级推理延迟 14.54 秒/样本,实时应用困难
  • 缺少与 GPT-5 等顶级闭源模型的对比
  • 多跳推理 57.75% 仍显不足,城市级空间推理仍是开放性挑战

相关工作与启发

  • vs City-VLM: City-VLM 仅用视觉特征,缺少显式 3D 数值信息。3DCity-LLM 增加坐标/距离/角度编码,效果更好
  • vs Chat Scene: Chat Scene 在室内场景效果好,但扩展到城市尺度性能下降,说明城市级需要专门的层次化编码

评分

  • 新颖性: ⭐⭐⭐ 思路是自然扩展,但数据集和评估协议有独立价值
  • 实验充分度: ⭐⭐⭐⭐ 自建+公开 benchmark + 多维评估 + 消融
  • 写作质量: ⭐⭐⭐⭐ 系统性强,任务分层清晰
  • 价值: ⭐⭐⭐⭐ 数据集和 benchmark 对智慧城市/自动驾驶研究有长期价值