CVPR 2025 图像生成 GPS conditioning 扩散模型 geotagged photos NeRF score distillation sampling compositional generation

GPS as a Control Signal for Image Generation¶

会议: CVPR 2025
arXiv: 2501.12390
代码: 项目页面
领域: image_generation / 3d_vision
关键词: GPS conditioning, diffusion model, geotagged photos, NeRF, score distillation sampling, compositional generation

一句话总结¶

将照片 EXIF 元数据中的 GPS 坐标作为扩散模型的新型控制信号，训练 GPS+文本联合条件的图像生成模型，能捕捉城市内不同街区/地标的细粒度外观差异，并通过角度条件 SDS 从 2D 模型提取 3D 地标重建。

研究背景与动机¶

领域现状: 扩散模型已广泛使用文本、深度图、语义掩码、相机位姿等条件进行图像/视频/3D 生成。地理标签（GPS）是照片元数据中海量可用但被忽视的信号。

现有痛点: - 文本条件无法精确控制场景的地理位置特征（如特定街区的建筑风格） - 传统 SfM→NeRF 管线在无序旅游照片上容易因位姿估计失败而崩溃 - 已有的 GPS→图像工作仅限于卫星图像且需要校准训练数据

核心矛盾: GPS 隐含了丰富的视觉先验（地标位置、建筑风格、视角信息），但目前没有生成模型能利用这一信号。

本文目标: 证明 GPS 标签是图像生成的有用控制信号，并展示其在组合生成和 3D 重建中的应用。

切入角度: 在预训练 Stable Diffusion 上微调，将 GPS 坐标编码后拼接到 CLIP 文本嵌入中作为额外条件 token。

核心 idea: GPS 坐标提供了互补文本的位置先验，不仅能让生成模型捕捉城市内的细粒度地理变化，还能为 3D 重建提供隐式视角监督。

方法详解¶

整体框架¶

数据收集: 从 Flickr 收集带 GPS 标签的旅游照片（曼哈顿 50 万张，巴黎 31 万张）
GPS-to-Image 扩散模型: 在 SD v1.4 上微调，联合 GPS 和文本条件
Angle-to-Image 扩散模型: 针对特定地标，用方位角替代 GPS 作为条件
GPS-guided 3D 重建: 通过 SDS 从 angle-to-image 模型中提取 NeRF

关键设计¶

1. GPS 条件编码¶

将 GPS 坐标 \((x, y)\)（经纬度）归一化到 \([-1, 1]\)
使用频率为 10 的位置编码 + 两层 MLP 编码为 \(\mathbf{g} = [f(x), f(y)] \in \mathbb{R}^{2 \times D}\)
将 GPS 嵌入 拼接到 CLIP 文本 token 序列末尾，作为"GPS" CLIP 文本条件
训练时随机丢弃条件：5% 仅文本 + 5% 仅 GPS + 5% 无条件

2. 双条件 Classifier-Free Guidance¶

推理时采用 InstructPix2Pix 风格的双条件 CFG：

\[\tilde{\boldsymbol{\epsilon}}_\phi = \boldsymbol{\epsilon}_\phi(\varnothing, \varnothing) + \omega_{\mathbf{p}}(\boldsymbol{\epsilon}_\phi(\mathbf{p}, \varnothing) - \boldsymbol{\epsilon}_\phi(\varnothing, \varnothing)) + \omega_{\mathbf{g}}(\boldsymbol{\epsilon}_\phi(\mathbf{p}, \mathbf{g}) - \boldsymbol{\epsilon}_\phi(\mathbf{p}, \varnothing))\]

三次前向分别用于无条件、仅文本、文本+GPS，通过权重 \(\omega_\mathbf{p}\) 和 \(\omega_\mathbf{g}\) 分别控制语义和地理引导强度。

3. GPS-guided 3D 地标重建¶

将 GPS 参数化为相对于地标中心的方位角 \(\alpha = \arctan\frac{x-x_o}{y-y_o}\)
训练 angle-to-image 扩散模型（每个地标单独训练）
加入 DreamBooth 风格的 prior preservation loss 防止微调过拟合
用 SDS 损失驱动 NeRF 优化：每次渲染随机视角 → 计算方位角 → GPS 条件生成 → SDS 梯度回传
GPS 条件替代传统的 view-dependent prompting，提供更准确的视角先验，避免 Janus 问题

损失函数¶

GPS-to-image 训练：\(\mathcal{L}_{recon} = \mathbb{E}[\|\boldsymbol{\epsilon}_t - \boldsymbol{\epsilon}_\phi(\mathbf{z}_t; \mathbf{p}, \mathbf{g}, t)\|_2^2]\)
地标 3D 重建：\(\mathcal{L} = \mathcal{L}_{recon} + \lambda \mathcal{L}_{preservation}\)，\(\lambda = 1.0\)

实验关键数据¶

主实验表（GPS-to-Image 生成）¶

方法	CLIP Score ↑	GPS Score ↑	Avg ↑
GPS NN	18.77	13.66	16.22
SD (Text+Address)	26.65	4.25	15.45
SD (Text)	29.13	1.21	15.17
Ours	27.88	8.15	18.02
Ours (w/o text)	–	13.71	–

综合 CLIP Score 和 GPS Score，本方法最优。

3D 地标重建对比¶

方法	CLIP Score ↑	PQ ↑	Tourist Score ↑
NeRF (SfM-based)	20.57	1.32	1.36
DreamFusion	29.49	2.21	2.09
Ours	31.87	3.31	3.45

消融表¶

Angle-to-Image 方位角精度: 本方法 22.36% vs. SD 3.06% vs. 随机 2.78%
GPS vs. Text Address: GPS Score 8.15 vs. 4.25，连续 GPS 远优于文本地址
Prior preservation loss: 移除后 3D 重建质量显著下降

关键发现¶

GPS 条件与文本条件高度互补：文本控制语义，GPS 控制地理外观（注意力图可视化验证）
连续 GPS 坐标远优于离散化的地址名称作为条件
GPS 条件有效缓解 DreamFusion 的 Janus 多面问题
SfM-based 方法在 6 个地标中 3 个完全失败，而 GPS-guided SDS 全部成功
平均图像（compositional generation）能捕捉特定街区的建筑风格

亮点与洞察¶

全新的控制信号: 首次系统性地将 GPS 作为图像生成的条件信号，开辟新方向
一石二鸟: 同一个 GPS 条件既可用于可控生成，又可为 3D 重建提供视角先验
数据易获取: 利用照片 EXIF 中已有的 GPS 标签，无需额外标注，信号丰富且免费
组合生成能力: "superman"在 MoMA 生成雕塑，在时代广场生成 Cosplay 人物，展示了 GPS+文本的组合语义
Average Image: 通过对一个区域多个 GPS 的噪声估计取平均，生成该区域的"代表性图像"，捕捉建筑风格

局限与展望¶

依赖大量 GPS 标注的照片集合，对 GPS 数据稀疏的区域效果有限
SDS 生成的 3D 模型存在颜色饱和问题（SDS 的固有局限）
GPS 标签中蕴含的语义信息难以与文本完全解耦
仅在曼哈顿和巴黎两个城市验证，泛化到其他地理区域未验证
基于 SD v1.4，分辨率和质量受基础模型限制，升级到更新模型可能效果更好

评分¶

⭐⭐⭐⭐ (4/5)

创新性: ⭐⭐⭐⭐⭐ — 全新控制信号，问题定义本身就是贡献
实验充分度: ⭐⭐⭐⭐ — 生成+3D 两个任务，定性定量+用户研究，但城市数量偏少
论文写作: ⭐⭐⭐⭐ — 图示清晰，展示效果令人印象深刻
实用价值: ⭐⭐⭐ — 应用场景明确但相对小众（旅游照片/地标重建）