Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision¶

会议: AAAI2026
arXiv: 2511.07062
代码: 待确认
领域: self_supervised
关键词: urban computing, region representation, cross-modal pre-training, CLIP, noise suppression, self-distillation

一句话总结¶

提出 UrbanLN 框架，通过长文本感知的位置编码插值策略和数据-模型双层噪声抑制机制，改善基于 LLM 生成描述的城市区域表征学习。

背景与动机¶

城市区域表征学习旨在从无标注的城市数据中提取有意义的特征，用于人口预测、GDP 估算、碳排放预测等下游任务。近年来的研究（如 UrbanCLIP、UrbanVLP）开始利用多模态大语言模型（MLLM）为城市影像生成文本描述，并通过图文对比学习增强视觉表征。然而，现有方法面临两大核心瓶颈：

长文本处理的语义瓶颈：MLLM 生成的描述通常超过 100 词，但 CLIP 文本编码器的 token 上限仅为 77，直接截断会丢失大量细粒度语义信息。
噪声描述导致知识整合失败：MLLM 生成的描述中普遍存在幻觉（hallucination）、信息遗漏和过度泛化等噪声，而 UrbanCLIP 依赖人工校准（不可扩展），UrbanVLP 使用固定类别模板（语义损失严重）。

核心问题¶

如何在城市影像的跨模态预训练中，(1) 让 CLIP 有效处理长文本描述以捕捉细粒度城市语义，(2) 在数据层和模型层同时抑制 LLM 生成描述中的噪声？

方法详解¶

整体框架¶

UrbanLN 包含三个核心组件：多模型协作的高质量描述生成管线、面向长文本和噪声抑制的跨模态预训练框架、以及轻量级下游任务预测头。

1. 多模型协作描述生成（数据层噪声抑制）¶

Multi-MLLM Captioning¶

使用多个 MLLM（LLaMA-Adapter V2、ShareGPT4V-7B、Qwen2.5-VL-7B、DeepSeek-VL2-tiny、InternVL3-8B）分别独立生成长描述。不同模型的多样性可缓解单一模型引入的语义偏差，同时起到文本数据增强效果。

使用 SAM 对图像进行分割，提取显著视觉元素的裁剪区域
对每个显著区域用 MLLM 生成局部短描述，补充长描述中可能遗漏的细节
使用 Factual parser 从描述中提取视觉元素短语，再用 OWLv2 打分，过滤掉得分低于 0.01 的幻觉短语
最后让同一 MLLM 基于原始长描述和局部短描述重新生成更完整的描述

Consensus-based Evaluation¶

在无 ground-truth 的条件下，采用多模型共识作为描述质量的代理指标。使用 CAPTURE 指标衡量任意两个候选描述的相似度（基于对象、属性、关系的精确匹配 + 同义词匹配 + 软匹配），取与其他所有描述平均 CAPTURE 分最高的候选作为最终描述。

2. Information-Preserved Stretching Interpolation (IPSI)¶

为解决 CLIP 77-token 限制，提出保信息拉伸插值策略： - 保留前 20 个位置编码不变（这些位置编码已充分训练，能有效捕捉绝对位置信息） - 仅对剩余 57 个位置进行插值扩展，插值比 λ=4，将最大输入长度从 77 扩展到 248 - 使用线性加权插值确保位置编码平滑过渡

这一策略以极小的额外计算代价突破了长文本处理瓶颈。

3. Momentum-based Self-Distillation (MSD，模型层噪声抑制)¶

维护学生模型的 momentum 版本作为教师模型（EMA 更新，momentum=0.995）
维护两个动态队列（长度 4096）存储教师模型最近编码的图文表征
对比损失 \(\mathcal{L}_C\)：标准的图文对比学习损失
蒸馏损失 \(\mathcal{L}_D\)：学生模型的相似度分布与教师模型的伪目标分布的 KL 散度
最终损失：\(\mathcal{L} = (1-\mu)\mathcal{L}_C + \mu\mathcal{L}_D\)，\(\mu=0.5\)

教师模型生成的伪目标提供了超越原始图文对的额外视角，引导学生模型学习对噪声具有鲁棒性的跨模态表征。

实验关键数据¶

数据集与任务¶

四个城市：北京（BJ）、上海（SH）、深圳（SZ）、纽约（NY）
下游任务：人口（Pop）、GDP、夜间灯光（Night）、餐厅评论数（Com）、碳排放（CO₂）、POI 数量、犯罪率（Crime）
评估指标：R²、RMSE、MAE

主要结果（BJ 数据集，R² 指标）¶

模型	Pop	GDP	Night	Com	CO₂
UrbanVLP	0.619	0.372	0.454	0.555	0.487
UrbanLN+SV	0.705	0.440	0.514	0.591	0.677
相对提升	13.9%	18.3%	13.2%	6.5%	39.0%

BJ 数据集上平均 R²/RMSE/MAE 提升分别为 18.23%/7.84%/8.32%。

NY 数据集亮点¶

UrbanLN+SV 在人口、犯罪、POI 三个任务上均为最优，平均提升 30.97%
犯罪预测 R² 从 0.467（UrbanVLP）提升到 0.723，提升 54.8%

消融实验¶

去除 IPSI：平均 R² 下降 26.45%，是最关键组件
去除 Refinement：平均下降 10.45%
去除 Consensus：随机选择描述导致性能下降
去除 MSD：性能显著下降，说明噪声抑制在模型层同样重要

迁移性测试¶

在源城市预训练、目标城市评估的跨城市迁移实验中，模型仍能保持较高预测精度，表明学到的表征具备通用的城市语义理解能力。

亮点¶

IPSI 策略设计精巧：仅插值后 57 个位置编码、保留前 20 个，以极低代价将 CLIP 输入长度扩展 3.2 倍，消融实验证明其贡献最大
数据-模型双层噪声抑制：数据层的多模型协作 + 分治细化 + 共识评估，模型层的 momentum 自蒸馏，系统性地解决 LLM 描述噪声问题
多模型共识替代人工标注：无需 ground-truth 描述即可评估描述质量，实用性强
跨城市迁移能力强：表明框架学到的是通用城市语义而非城市特定特征

局限性 / 可改进方向¶

卫星影像在细粒度任务上表现有限：NY 数据集上 UrbanLN+SI 在犯罪和 POI 预测上不如街景影像方案，卫星影像分辨率和视角是固有瓶颈
描述生成管线复杂度高：需要 5 个 MLLM + SAM + Factual parser + OWLv2，虽归为数据预处理但部署成本不低
仅验证了 ViT-B/16 骨干：未探索更大 ViT 或不同视觉编码器的效果
位置编码插值上限：λ=4 将长度扩展到 248，但更长描述（>248 tokens）如何处理未讨论
下游任务较为单一：主要是回归预测，缺少分类、检索、分割等更多样化的评估

与相关工作的对比¶

方法	文本来源	长文本处理	噪声处理	多模态融合
UrbanCLIP	单一 MLLM	截断至 77 tokens	人工校准	CLIP 对比学习
UrbanVLP	固定模板生成	截断至 77 tokens	场景分割比例引导	Token 级对比学习
UrbanLN	多 MLLM 协作+分治细化	IPSI 扩展至 248	数据+模型双层抑制	CLIP + momentum 自蒸馏

UrbanLN 在文本生成质量、长文本处理能力和噪声鲁棒性三个维度上均有实质性提升。

启发与关联¶

位置编码插值的通用性：IPSI 的"前 N 保留 + 后段插值"策略可推广到其他需要突破 CLIP token 上限的场景（如医学报告、法律文档的视觉-语言对齐）
多模型共识作为质量代理：在无标注数据的质量评估场景中，跨模型共识是一种值得借鉴的无监督质量信号
Momentum 自蒸馏的噪声鲁棒性：该机制源自 ALBEF/MoCo，在噪声标签学习中也有广泛应用，可迁移到其他噪声监督场景

评分¶

新颖性: ⭐⭐⭐（IPSI 和双层噪声抑制有新意，但各组件均有前人工作基础）
实验充分度: ⭐⭐⭐⭐（四城市、七任务、完整消融、迁移测试、延迟分析）
写作质量: ⭐⭐⭐⭐（结构清晰，动机表述充分）
价值: ⭐⭐⭐⭐（城市计算领域实用性强，但应用场景相对小众）