Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision¶
会议: AAAI2026
arXiv: 2511.07062
代码: 待确认
领域: self_supervised
关键词: urban computing, region representation, cross-modal pre-training, CLIP, noise suppression, self-distillation
一句话总结¶
提出 UrbanLN 框架,通过长文本感知的位置编码插值策略和数据-模型双层噪声抑制机制,改善基于 LLM 生成描述的城市区域表征学习。
背景与动机¶
城市区域表征学习旨在从无标注的城市数据中提取有意义的特征,用于人口预测、GDP 估算、碳排放预测等下游任务。近年来的研究(如 UrbanCLIP、UrbanVLP)开始利用多模态大语言模型(MLLM)为城市影像生成文本描述,并通过图文对比学习增强视觉表征。然而,现有方法面临两大核心瓶颈:
- 长文本处理的语义瓶颈:MLLM 生成的描述通常超过 100 词,但 CLIP 文本编码器的 token 上限仅为 77,直接截断会丢失大量细粒度语义信息。
- 噪声描述导致知识整合失败:MLLM 生成的描述中普遍存在幻觉(hallucination)、信息遗漏和过度泛化等噪声,而 UrbanCLIP 依赖人工校准(不可扩展),UrbanVLP 使用固定类别模板(语义损失严重)。
核心问题¶
如何在城市影像的跨模态预训练中,(1) 让 CLIP 有效处理长文本描述以捕捉细粒度城市语义,(2) 在数据层和模型层同时抑制 LLM 生成描述中的噪声?
方法详解¶
整体框架¶
UrbanLN 包含三个核心组件:多模型协作的高质量描述生成管线、面向长文本和噪声抑制的跨模态预训练框架、以及轻量级下游任务预测头。
1. 多模型协作描述生成(数据层噪声抑制)¶
Multi-MLLM Captioning¶
使用多个 MLLM(LLaMA-Adapter V2、ShareGPT4V-7B、Qwen2.5-VL-7B、DeepSeek-VL2-tiny、InternVL3-8B)分别独立生成长描述。不同模型的多样性可缓解单一模型引入的语义偏差,同时起到文本数据增强效果。
Divide-and-Conquer Refinement¶
- 使用 SAM 对图像进行分割,提取显著视觉元素的裁剪区域
- 对每个显著区域用 MLLM 生成局部短描述,补充长描述中可能遗漏的细节
- 使用 Factual parser 从描述中提取视觉元素短语,再用 OWLv2 打分,过滤掉得分低于 0.01 的幻觉短语
- 最后让同一 MLLM 基于原始长描述和局部短描述重新生成更完整的描述
Consensus-based Evaluation¶
在无 ground-truth 的条件下,采用多模型共识作为描述质量的代理指标。使用 CAPTURE 指标衡量任意两个候选描述的相似度(基于对象、属性、关系的精确匹配 + 同义词匹配 + 软匹配),取与其他所有描述平均 CAPTURE 分最高的候选作为最终描述。
2. Information-Preserved Stretching Interpolation (IPSI)¶
为解决 CLIP 77-token 限制,提出保信息拉伸插值策略: - 保留前 20 个位置编码不变(这些位置编码已充分训练,能有效捕捉绝对位置信息) - 仅对剩余 57 个位置进行插值扩展,插值比 λ=4,将最大输入长度从 77 扩展到 248 - 使用线性加权插值确保位置编码平滑过渡
这一策略以极小的额外计算代价突破了长文本处理瓶颈。
3. Momentum-based Self-Distillation (MSD,模型层噪声抑制)¶
- 维护学生模型的 momentum 版本作为教师模型(EMA 更新,momentum=0.995)
- 维护两个动态队列(长度 4096)存储教师模型最近编码的图文表征
- 对比损失 \(\mathcal{L}_C\):标准的图文对比学习损失
- 蒸馏损失 \(\mathcal{L}_D\):学生模型的相似度分布与教师模型的伪目标分布的 KL 散度
- 最终损失:\(\mathcal{L} = (1-\mu)\mathcal{L}_C + \mu\mathcal{L}_D\),\(\mu=0.5\)
教师模型生成的伪目标提供了超越原始图文对的额外视角,引导学生模型学习对噪声具有鲁棒性的跨模态表征。
实验关键数据¶
数据集与任务¶
- 四个城市:北京(BJ)、上海(SH)、深圳(SZ)、纽约(NY)
- 下游任务:人口(Pop)、GDP、夜间灯光(Night)、餐厅评论数(Com)、碳排放(CO₂)、POI 数量、犯罪率(Crime)
- 评估指标:R²、RMSE、MAE
主要结果(BJ 数据集,R² 指标)¶
| 模型 | Pop | GDP | Night | Com | CO₂ |
|---|---|---|---|---|---|
| UrbanVLP | 0.619 | 0.372 | 0.454 | 0.555 | 0.487 |
| UrbanLN+SV | 0.705 | 0.440 | 0.514 | 0.591 | 0.677 |
| 相对提升 | 13.9% | 18.3% | 13.2% | 6.5% | 39.0% |
BJ 数据集上平均 R²/RMSE/MAE 提升分别为 18.23%/7.84%/8.32%。
NY 数据集亮点¶
- UrbanLN+SV 在人口、犯罪、POI 三个任务上均为最优,平均提升 30.97%
- 犯罪预测 R² 从 0.467(UrbanVLP)提升到 0.723,提升 54.8%
消融实验¶
- 去除 IPSI:平均 R² 下降 26.45%,是最关键组件
- 去除 Refinement:平均下降 10.45%
- 去除 Consensus:随机选择描述导致性能下降
- 去除 MSD:性能显著下降,说明噪声抑制在模型层同样重要
迁移性测试¶
在源城市预训练、目标城市评估的跨城市迁移实验中,模型仍能保持较高预测精度,表明学到的表征具备通用的城市语义理解能力。
亮点¶
- IPSI 策略设计精巧:仅插值后 57 个位置编码、保留前 20 个,以极低代价将 CLIP 输入长度扩展 3.2 倍,消融实验证明其贡献最大
- 数据-模型双层噪声抑制:数据层的多模型协作 + 分治细化 + 共识评估,模型层的 momentum 自蒸馏,系统性地解决 LLM 描述噪声问题
- 多模型共识替代人工标注:无需 ground-truth 描述即可评估描述质量,实用性强
- 跨城市迁移能力强:表明框架学到的是通用城市语义而非城市特定特征
局限性 / 可改进方向¶
- 卫星影像在细粒度任务上表现有限:NY 数据集上 UrbanLN+SI 在犯罪和 POI 预测上不如街景影像方案,卫星影像分辨率和视角是固有瓶颈
- 描述生成管线复杂度高:需要 5 个 MLLM + SAM + Factual parser + OWLv2,虽归为数据预处理但部署成本不低
- 仅验证了 ViT-B/16 骨干:未探索更大 ViT 或不同视觉编码器的效果
- 位置编码插值上限:λ=4 将长度扩展到 248,但更长描述(>248 tokens)如何处理未讨论
- 下游任务较为单一:主要是回归预测,缺少分类、检索、分割等更多样化的评估
与相关工作的对比¶
| 方法 | 文本来源 | 长文本处理 | 噪声处理 | 多模态融合 |
|---|---|---|---|---|
| UrbanCLIP | 单一 MLLM | 截断至 77 tokens | 人工校准 | CLIP 对比学习 |
| UrbanVLP | 固定模板生成 | 截断至 77 tokens | 场景分割比例引导 | Token 级对比学习 |
| UrbanLN | 多 MLLM 协作+分治细化 | IPSI 扩展至 248 | 数据+模型双层抑制 | CLIP + momentum 自蒸馏 |
UrbanLN 在文本生成质量、长文本处理能力和噪声鲁棒性三个维度上均有实质性提升。
启发与关联¶
- 位置编码插值的通用性:IPSI 的"前 N 保留 + 后段插值"策略可推广到其他需要突破 CLIP token 上限的场景(如医学报告、法律文档的视觉-语言对齐)
- 多模型共识作为质量代理:在无标注数据的质量评估场景中,跨模型共识是一种值得借鉴的无监督质量信号
- Momentum 自蒸馏的噪声鲁棒性:该机制源自 ALBEF/MoCo,在噪声标签学习中也有广泛应用,可迁移到其他噪声监督场景
评分¶
- 新颖性: ⭐⭐⭐(IPSI 和双层噪声抑制有新意,但各组件均有前人工作基础)
- 实验充分度: ⭐⭐⭐⭐(四城市、七任务、完整消融、迁移测试、延迟分析)
- 写作质量: ⭐⭐⭐⭐(结构清晰,动机表述充分)
- 价值: ⭐⭐⭐⭐(城市计算领域实用性强,但应用场景相对小众)