跳转至

Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision

会议: AAAI2026
arXiv: 2511.07062
代码: 待确认
领域: self_supervised
关键词: urban computing, region representation, cross-modal pre-training, CLIP, noise suppression, self-distillation

一句话总结

提出 UrbanLN 框架,通过长文本感知的位置编码插值策略和数据-模型双层噪声抑制机制,改善基于 LLM 生成描述的城市区域表征学习。

背景与动机

城市区域表征学习旨在从无标注的城市数据中提取有意义的特征,用于人口预测、GDP 估算、碳排放预测等下游任务。近年来的研究(如 UrbanCLIP、UrbanVLP)开始利用多模态大语言模型(MLLM)为城市影像生成文本描述,并通过图文对比学习增强视觉表征。然而,现有方法面临两大核心瓶颈:

  1. 长文本处理的语义瓶颈:MLLM 生成的描述通常超过 100 词,但 CLIP 文本编码器的 token 上限仅为 77,直接截断会丢失大量细粒度语义信息。
  2. 噪声描述导致知识整合失败:MLLM 生成的描述中普遍存在幻觉(hallucination)、信息遗漏和过度泛化等噪声,而 UrbanCLIP 依赖人工校准(不可扩展),UrbanVLP 使用固定类别模板(语义损失严重)。

核心问题

如何在城市影像的跨模态预训练中,(1) 让 CLIP 有效处理长文本描述以捕捉细粒度城市语义,(2) 在数据层和模型层同时抑制 LLM 生成描述中的噪声?

方法详解

整体框架

UrbanLN 包含三个核心组件:多模型协作的高质量描述生成管线、面向长文本和噪声抑制的跨模态预训练框架、以及轻量级下游任务预测头。

1. 多模型协作描述生成(数据层噪声抑制)

Multi-MLLM Captioning

使用多个 MLLM(LLaMA-Adapter V2、ShareGPT4V-7B、Qwen2.5-VL-7B、DeepSeek-VL2-tiny、InternVL3-8B)分别独立生成长描述。不同模型的多样性可缓解单一模型引入的语义偏差,同时起到文本数据增强效果。

Divide-and-Conquer Refinement

  • 使用 SAM 对图像进行分割,提取显著视觉元素的裁剪区域
  • 对每个显著区域用 MLLM 生成局部短描述,补充长描述中可能遗漏的细节
  • 使用 Factual parser 从描述中提取视觉元素短语,再用 OWLv2 打分,过滤掉得分低于 0.01 的幻觉短语
  • 最后让同一 MLLM 基于原始长描述和局部短描述重新生成更完整的描述

Consensus-based Evaluation

在无 ground-truth 的条件下,采用多模型共识作为描述质量的代理指标。使用 CAPTURE 指标衡量任意两个候选描述的相似度(基于对象、属性、关系的精确匹配 + 同义词匹配 + 软匹配),取与其他所有描述平均 CAPTURE 分最高的候选作为最终描述。

2. Information-Preserved Stretching Interpolation (IPSI)

为解决 CLIP 77-token 限制,提出保信息拉伸插值策略: - 保留前 20 个位置编码不变(这些位置编码已充分训练,能有效捕捉绝对位置信息) - 仅对剩余 57 个位置进行插值扩展,插值比 λ=4,将最大输入长度从 77 扩展到 248 - 使用线性加权插值确保位置编码平滑过渡

这一策略以极小的额外计算代价突破了长文本处理瓶颈。

3. Momentum-based Self-Distillation (MSD,模型层噪声抑制)

  • 维护学生模型的 momentum 版本作为教师模型(EMA 更新,momentum=0.995)
  • 维护两个动态队列(长度 4096)存储教师模型最近编码的图文表征
  • 对比损失 \(\mathcal{L}_C\):标准的图文对比学习损失
  • 蒸馏损失 \(\mathcal{L}_D\):学生模型的相似度分布与教师模型的伪目标分布的 KL 散度
  • 最终损失:\(\mathcal{L} = (1-\mu)\mathcal{L}_C + \mu\mathcal{L}_D\)\(\mu=0.5\)

教师模型生成的伪目标提供了超越原始图文对的额外视角,引导学生模型学习对噪声具有鲁棒性的跨模态表征。

实验关键数据

数据集与任务

  • 四个城市:北京(BJ)、上海(SH)、深圳(SZ)、纽约(NY)
  • 下游任务:人口(Pop)、GDP、夜间灯光(Night)、餐厅评论数(Com)、碳排放(CO₂)、POI 数量、犯罪率(Crime)
  • 评估指标:R²、RMSE、MAE

主要结果(BJ 数据集,R² 指标)

模型 Pop GDP Night Com CO₂
UrbanVLP 0.619 0.372 0.454 0.555 0.487
UrbanLN+SV 0.705 0.440 0.514 0.591 0.677
相对提升 13.9% 18.3% 13.2% 6.5% 39.0%

BJ 数据集上平均 R²/RMSE/MAE 提升分别为 18.23%/7.84%/8.32%。

NY 数据集亮点

  • UrbanLN+SV 在人口、犯罪、POI 三个任务上均为最优,平均提升 30.97%
  • 犯罪预测 R² 从 0.467(UrbanVLP)提升到 0.723,提升 54.8%

消融实验

  • 去除 IPSI:平均 R² 下降 26.45%,是最关键组件
  • 去除 Refinement:平均下降 10.45%
  • 去除 Consensus:随机选择描述导致性能下降
  • 去除 MSD:性能显著下降,说明噪声抑制在模型层同样重要

迁移性测试

在源城市预训练、目标城市评估的跨城市迁移实验中,模型仍能保持较高预测精度,表明学到的表征具备通用的城市语义理解能力。

亮点

  1. IPSI 策略设计精巧:仅插值后 57 个位置编码、保留前 20 个,以极低代价将 CLIP 输入长度扩展 3.2 倍,消融实验证明其贡献最大
  2. 数据-模型双层噪声抑制:数据层的多模型协作 + 分治细化 + 共识评估,模型层的 momentum 自蒸馏,系统性地解决 LLM 描述噪声问题
  3. 多模型共识替代人工标注:无需 ground-truth 描述即可评估描述质量,实用性强
  4. 跨城市迁移能力强:表明框架学到的是通用城市语义而非城市特定特征

局限性 / 可改进方向

  1. 卫星影像在细粒度任务上表现有限:NY 数据集上 UrbanLN+SI 在犯罪和 POI 预测上不如街景影像方案,卫星影像分辨率和视角是固有瓶颈
  2. 描述生成管线复杂度高:需要 5 个 MLLM + SAM + Factual parser + OWLv2,虽归为数据预处理但部署成本不低
  3. 仅验证了 ViT-B/16 骨干:未探索更大 ViT 或不同视觉编码器的效果
  4. 位置编码插值上限:λ=4 将长度扩展到 248,但更长描述(>248 tokens)如何处理未讨论
  5. 下游任务较为单一:主要是回归预测,缺少分类、检索、分割等更多样化的评估

与相关工作的对比

方法 文本来源 长文本处理 噪声处理 多模态融合
UrbanCLIP 单一 MLLM 截断至 77 tokens 人工校准 CLIP 对比学习
UrbanVLP 固定模板生成 截断至 77 tokens 场景分割比例引导 Token 级对比学习
UrbanLN 多 MLLM 协作+分治细化 IPSI 扩展至 248 数据+模型双层抑制 CLIP + momentum 自蒸馏

UrbanLN 在文本生成质量、长文本处理能力和噪声鲁棒性三个维度上均有实质性提升。

启发与关联

  1. 位置编码插值的通用性:IPSI 的"前 N 保留 + 后段插值"策略可推广到其他需要突破 CLIP token 上限的场景(如医学报告、法律文档的视觉-语言对齐)
  2. 多模型共识作为质量代理:在无标注数据的质量评估场景中,跨模型共识是一种值得借鉴的无监督质量信号
  3. Momentum 自蒸馏的噪声鲁棒性:该机制源自 ALBEF/MoCo,在噪声标签学习中也有广泛应用,可迁移到其他噪声监督场景

评分

  • 新颖性: ⭐⭐⭐(IPSI 和双层噪声抑制有新意,但各组件均有前人工作基础)
  • 实验充分度: ⭐⭐⭐⭐(四城市、七任务、完整消融、迁移测试、延迟分析)
  • 写作质量: ⭐⭐⭐⭐(结构清晰,动机表述充分)
  • 价值: ⭐⭐⭐⭐(城市计算领域实用性强,但应用场景相对小众)