跳转至

ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors

日期: 2026-03-25
arXiv: 2603.24270
代码: 无
领域: 图像生成 / 超高分辨率 / 视频扩散先验
关键词: extreme aspect ratio, video diffusion prior, positional encoding, super-resolution, panorama generation

一句话总结

将极端宽高比(EAR)图像生成重构为视频扫描任务,提出 ScrollScape 框架:ScanPE 将空间坐标映射到时序帧实现"移动相机"效果 + ScrollSR 利用视频超分先验逐帧提升分辨率到 32K,在 3K 张训练图上微调 Wan2.1 即可生成全局连贯、无重复的超宽画幅图像。

研究背景与动机

  1. 领域现状:扩散模型在标准分辨率图像生成上表现优异,但面对极端宽高比(如 8:1 全景图、长卷画)时会出现灾难性结构失败。现有解决方案分两类:

    • 分块拼接法(SyncDiffusion, MultiDiffusion):把画布切成重叠 patch 分别生成再融合,但缺乏全局结构先验导致内容碎片化
    • 架构修改法(ScaleCrafter, DyPE):通过空洞卷积或位置编码插值扩大感受野,但生成不稳定,频繁出现物体重复
  2. 现有痛点:这些方法的共同问题是只依赖从标准分辨率图像训练获得的空间先验,本质上缺乏跨越大范围画布的全局一致性建模能力。

  3. 核心矛盾:静态 text-to-image 模型的位置编码锚定在固定视角,无法"扫视"大画布;当推理尺度超出训练分布时,位置编码进入 OOD 区域,触发物体重复和空间碎裂。

  4. 切入角度:视频扩散模型天然具有时序一致性先验——如果把生成长图的过程看作一台相机的平移扫描,空间展开就变成了时间演进,视频模型的时序连贯性自然转化为空间连贯性。

  5. 核心 idea:将 EAR 图像生成重构为视频扫描任务,用 ScanPE 把全局空间坐标分配到视频帧上实现移动相机,用 ScrollSR 利用视频超分先验逐帧提升到 32K,只需 3K 张图微调即可对齐。

方法详解

整体框架

输入:文本 prompt + 目标宽高比(如 8:1)
输出:高达 32K 分辨率的极端宽高比图像
Pipeline:全局 latent 切分为重叠帧序列 → ScanPE 分配全局坐标 → DiT 视频生成低分辨率帧 → ScrollSR 视频超分 → TAP 对齐 3D VAE 解码 → 帧融合(MCS+加权拼接) → 最终全景图。

关键设计

  1. Scanning Positional Encoding (ScanPE):

    • 做什么:将视频模型的帧级坐标从固定视角改为移动相机,实现全局空间追踪
    • 核心思路:定义全局锚点 \(\mathbf{O}_t = \sum_{k=1}^{t-1} \delta \cdot \mathbf{d}_k + \mathbf{P}_{init}\),将局部坐标投影到全局:\(\mathbf{P}_g(t, \mathbf{p}_{loc}) = \mathbf{p}_{loc} + \mathbf{O}_t\),最终替换 3D-RoPE 的空间维度为全局坐标
    • 支持线性模式(单向扫描)和蛇形模式(覆盖复杂流形),灵活适配不同画布
    • 设计动机:标准 3D-RoPE 给每帧相同的空间坐标(固定视角),无法建模空间推进。ScanPE 打破了这个限制,消融实验证明它是消除内容重复的关键
  2. Scrolling Super-Resolution (ScrollSR):

    • 做什么:在 latent 空间利用视频超分先验逐帧提升分辨率到 32K
    • 核心思路:直接用预训练的 FlashVSR 视频超分模型处理低分辨率 latent 帧,在 latent 空间完成细节增强,避免像素空间的巨大显存开销
    • 配合 TAP(Trajectory Anchored Partitioning):把帧按全局空间坐标分组送入 3D VAE 解码器,消除相邻帧间的闪烁和边界伪影
    • 设计动机:直接生成 32K 像素不现实,但先生成低分辨率全局结构再超分是可行的。利用视频超分(而非图像超分)天然处理好帧间一致性
  3. 轻量级对齐训练:

    • 仅 3K 张高质量全景图 + 10K 迭代 + 2×A100 即可微调
    • 使用 Flow Matching 损失对齐预训练视频先验到 EAR 生成任务
    • 设计动机:ScanPE 提供了正确的坐标结构(消融显示 w/o training 能打破重复但纹理混乱),训练阶段负责让模型学会在新坐标系下生成合理内容

帧融合

  • Median Consensus Selection (MCS):从每个时间块的 N 帧中选最接近中位数的帧,过滤异常值
  • 加权融合:距离衰减的 ramp mask 实现相邻窗口平滑过渡

实验关键数据

主实验(8:1 全景图定量对比)

方法 FID↓ CLIP↑ KID(×10⁻²)↓ Style-L(×10⁻³)↓ GSD-LPIPS↑ GSD-DINOv2↓
DyPE 248.1 24.6 4.7 5.5 0.569 0.682
MultiDiffusion 261.7 29.7 3.7 5.0 0.658 0.902
SyncDiffusion 245.2 26.5 3.2 4.7 0.618 0.895
Tiled Diffusion 241.2 27.3 3.0 4.5 0.591 0.901
ScrollScape 214.7 30.0 2.0 4.0 0.674 0.670

GSD-DINOv2(语义重复度)从 Tiled Diffusion 的 0.901 降到 0.670,大幅减少内容重复。用户研究中结构连贯性偏好率高达 76-92%。

消融实验

配置 FID↓ CLIP↑ GSD-LPIPS↑ GSD-DINOv2↓
Wan2.1 (vanilla) 246.5 25.9 0.303 0.975
w/o Training 272.0 24.6 0.569 0.858
w/o TAP 231.6 25.6 0.469 0.730
w/o ScrollSR 218.8 26.5 0.668 0.671
ScrollScape (full) 214.7 30.0 0.674 0.670

关键发现

  • ScanPE 是消除重复的核心:vanilla Wan2.1 的 GSD-DINOv2=0.975(几乎完全重复),加 ScanPE 后降到 0.858(w/o Training),但纹理混乱;加上训练后降到 0.670
  • 训练必不可少:ScanPE 只提供坐标框架,训练才能让模型在新坐标系下生成合理内容(FID 从 272.0→214.7)
  • ScrollSR 提升细节而非结构:去掉 ScrollSR 后结构多样性不受影响(GSD 相近),但 FID 和感知清晰度下降
  • TAP 对解码质量至关重要:去掉后 GSD-LPIPS 从 0.674 降到 0.469,出现明显模糊

亮点与洞察

  • "空间→时间"的范式转换非常优雅:将长图生成双射到视频生成,利用视频模型现成的时序一致性作为免费午餐,这个 insight 可以推广到其他需要长程一致性的生成任务(如长文档图片、大地图生成)
  • 训练数据极其高效:仅 3K 张图 + 10K 迭代就完成对齐,说明视频先验本身已经具备大部分所需能力,微调只需"教"模型新坐标系
  • GSD 指标设计有价值:用 LPIPS 衡量感知变化 + DINOv2 衡量语义重复,有效暴露了分块方法的内容循环问题

局限性 / 可改进方向

  • 基于 Wan2.1-1.3B 小模型,画面质量上限受限,换更大模型(如 14B)可能效果更好
  • 只支持水平/垂直长画面的 1D 扫描,对于 2D 大画布(如超大正方形地图)的覆盖策略有限
  • 推理需要多步:低分辨率生成 → ScrollSR → 解码 → 融合,流程较长
  • 训练集仅 3K 张且以风景/中国画为主,对其他领域(如建筑蓝图、漫画)的泛化需要验证

相关工作与启发

  • vs SyncDiffusion/MultiDiffusion: 这些分块方法 GSD-DINOv2>0.89(严重重复),ScrollScape 0.670,从根本上解决了内容循环问题
  • vs DyPE: DyPE 修改位置编码扩大范围但不改变生成范式,仍以固定视角生成,ScrollScape 改为移动相机,FID 降 33 分(248.1→214.7)
  • 视频先验作为空间调控器的思路具有普适性,可以尝试用视频模型做超大 3D 场景生成或多视角一致生成

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 空间→时间的重构非常创新,ScanPE 设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 定量+定性+用户研究+消融齐全,GSD 指标有意义
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法叙述流畅
  • 价值: ⭐⭐⭐⭐ 32K 全景图生成在实际应用中有需求,范式有推广价值