OSMGen: Highly Controllable Satellite Image Synthesis using OpenStreetMap Data¶
会议: NeurIPS 2025 (Workshop: UrbanAI 2025)
arXiv: 2511.00345
代码: 有 (https://github.com/amir-zsh/OSMGen)
领域: 图像生成 / 遥感
关键词: 卫星图像合成, OpenStreetMap, ControlNet, DDIM反演, 变化检测
一句话总结¶
OSMGen 直接从 OSM JSON 数据(矢量几何、语义标签、位置和时间信息)合成高保真卫星图像,并通过 DDIM 反演生成一致的前后对比图像对,支持城市变化模拟和数据增强。
研究背景与动机¶
精确且及时的地理空间数据对城市规划、基础设施监控和环境管理至关重要。但自动化城市监控面临标注数据稀缺和类别不平衡的挑战。
现有方法的局限: - 大多数方法使用渲染后的栅格地图瓦片作为条件,丢失了 OSM 数据中丰富的结构信息(精确矢量几何、语义标签等) - 无法生成一致的变化前后图像对 - 缺乏时空信息的利用(位置、季节)
OSMGen 的动机: 1. 利用 OSM JSON 的完整丰富性(不仅是图像瓦片),实现细粒度可控合成 2. 通过 DDIM 反演生成一致的前后图像对,用于变化检测训练数据生成 3. 通过编辑地图数据预览城市规划方案
方法详解¶
整体框架¶
OSMGen 是一个端到端的条件生成框架,核心组件包括:
- 多模态条件提取:从 OSM JSON 数据中提取几何掩码、空间编码、时间编码和文本描述
- ControlNet 增强的扩散模型:在冻结的 Stable Diffusion U-Net 上训练 ControlNet 分支
- DDIM 反演编辑:实现一致的场景操纵(添加/删除/修改元素)
关键设计¶
1. 数据采集与预处理¶
- 从 FMoW(Functional Map of the World)基准中采样约 20,000 个地理点,覆盖城市、郊区和农村
- 对每个点,获取 256×256 卫星图像瓦片和对应的 OSM JSON
- 支持两种缩放级别:z=18(细粒度结构)和 z=15(更广上下文)
2. 多模态条件提取¶
从 OSM JSON 中提取四类条件信息:
| 条件类型 | 来源 | 作用 |
|---|---|---|
| 通用掩码 | 矢量几何 | 道路、水体、植被、建筑等大类分割 |
| 特定掩码 | POI 子类型 | 湖泊、河流、储油罐、太阳能农场等细粒度类型 |
| 空间编码 | SatCLIP | 地理坐标的连续嵌入表示 |
| 时间编码 | Date2Vec | 捕获日期的连续嵌入(季节变化) |
| 文本描述 | CLIP 编码 | 瓦片显著类别的高级语义指导 |
3. 生成框架¶
- 冻结 Stable Diffusion U-Net + 可训练 ControlNet 分支
- 通用和特定掩码通过卷积层融合后输入 ControlNet,强制几何保真
- 空间和时间嵌入通过线性投影后加入扩散时间步嵌入
- 文本嵌入通过交叉注意力注入
训练目标为标准扩散损失:
4. 受控变化生成(DDIM 反演)¶
生成前后对比图像的流程: 1. 给定原始图像和参考条件 \(c_{\text{ref}}\),通过 DDIM 正向过程反演到深度 \(t^*\) 获取潜在编码 \(x_{t^*}\) 2. 修改条件为 \(c_{\text{new}}\)(如编辑掩码添加/删除建筑) 3. 以 \(x_{t^*}\) 为起点、\(c_{\text{new}}\) 为条件执行 DDIM 去噪 4. \(t^*\) 控制编辑强度:较小保留更多原图(弱编辑),较大允许更强修改
选择 DDIM 反演的原因: - 交叉注意力编辑方法不适用(无法处理非文本条件) - 实现简单,与模型架构无关 - 强空间条件(掩码)允许降低 CFG 尺度,缓解 DDIM 反演在高 CFG 下的不稳定性
损失函数 / 训练策略¶
- 损失:标准扩散去噪损失(MSE)
- 训练:500 个 epoch,批大小 2048
- 可训练参数:ControlNet 分支、掩码融合层、空间/时间条件的线性投影
- 冻结参数:Stable Diffusion U-Net 主体
- 硬件:单卡 NVIDIA A100 GPU
实验关键数据¶
主实验:定性生成评估¶
在约 2,000 个 FMoW 测试位置上评估,每个位置生成 256×256 像素瓦片:
| 评估维度 | 通用掩码贡献 | 特定掩码贡献 |
|---|---|---|
| 大尺度结构 | 道路网络和建筑轮廓的准确重建 | - |
| 细粒度 POI | - | 体育场、储油罐等稀有类别的形状和上下文正确渲染 |
| 编辑一致性 | 编辑区域外保持原始图像特征 | 添加/删除/修改的局部变化精准呈现 |
编辑操作示例¶
| 编辑操作 | 效果描述 |
|---|---|
| 添加体育场 | 在指定区域生成体育场,周围环境保持不变 |
| 添加建筑 | 新增建筑物,原有道路和植被不受影响 |
| 删除部分建筑 | 建筑消失,空地自然填充 |
| 删除储油罐 | 储油罐区域被适当背景替代 |
| 湖泊→草地 | 水体变为绿色植被,边界自然过渡 |
| 农田→太阳能农场 | 作物纹理变为太阳能板排列 |
关键发现¶
- OSM JSON vs 栅格瓦片:直接使用 JSON 数据提供的矢量几何和语义标签比渲染后的栅格图像包含更丰富的条件信息
- DDIM 反演的有效性:强空间条件允许降低 CFG 尺度,解决了传统 DDIM 反演高 CFG 下不稳定的问题
- 时空条件的作用:位置编码帮助模型理解区域特征(热带 vs 温带),时间编码捕捉季节变化(绿色程度、积雪等)
- 闭环潜力:生成的 (JSON, image) 对可用于训练自动检测卫星图像变化 → 更新 OSM JSON 的模型
亮点与洞察¶
- 利用 OSM JSON 原始数据:相比栅格瓦片,保留了精确几何和丰富语义,是该领域的重要方向
- 前后一致性编辑:DDIM 反演 + 条件修改的方案简洁有效,避免了复杂的图像编辑技术
- 双掩码设计:通用掩码捕获高级概念(道路/水体/建筑),特定掩码区分细粒度 POI 子类型
- 应用价值明确:数据增强(解决标注稀缺)和城市规划可视化(编辑地图预览效果)
局限与展望¶
- 缺乏定量评估指标:论文以定性可视化为主,缺少 FID、IS 等标准生成质量指标
- 分辨率限制:256×256 分辨率可能不足以满足精细城市规划需求
- 仅使用 FMoW 数据:地理覆盖范围可拓展
- 变化生成的多样性:DDIM 反演是确定性的,每次编辑只能产生一个结果
- Workshop 论文:实验规模和深度有待扩展,特别是下游任务的验证
相关工作与启发¶
- ControlNet + 扩散模型:验证了 ControlNet 在遥感领域的有效性
- SatCLIP / Date2Vec:现成的时空编码模块可直接复用
- DiffusionSat:卫星图像生成基础模型的先驱工作
- ChangeDiff:变化检测数据生成的相关工作,使用文本提示驱动
评分¶
- 新颖性:⭐⭐⭐⭐ — 首次直接利用 OSM JSON 的完整信息进行卫星图像合成
- 理论贡献:⭐⭐⭐ — 主要是工程组合创新
- 实验充分度:⭐⭐⭐ — 定性结果有说服力,但缺少定量指标
- 实用价值:⭐⭐⭐⭐⭐ — 数据增强和城市规划可视化有强落地价值
- 总体推荐:⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] Editable Image Elements for Controllable Synthesis
- [NeurIPS 2025] SceneDesigner: Controllable Multi-Object Image Generation with 9-DoF Pose Manipulation
- [CVPR 2026] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data
- [ECCV 2024] ∞-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions
- [NeurIPS 2025] Fast Data Attribution for Text-to-Image Models