跳转至

GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation

日期: 2026-03-20
arXiv: 2512.21276
代码: 论文称有 project page
领域: 长序列生成 / 视频与体数据生成
关键词: diffusion transformer, grid factorization, long sequence generation, autoregressive sampling, CT generation

一句话总结

提出 GriDiT:把长图像序列生成拆成“网格级低分辨率粗生成 + 逐帧超分精修”两阶段,并配套网格自回归采样,实现更好的长程一致性和显著更快推理,在 CT-RATE 上达到 3.4x 速度提升且 FVD 更优。

动机

  • 传统方法把视频/序列当作大 3D 张量直接建模,计算昂贵
  • 序列越长,时空联合建模越难稳定
  • 很多方法要靠重模型或领域特定先验,通用性差

核心方法

Stage 1:Grid-Based Coarse Generation

  • 从序列中按步长采样帧,排成 \(K\times K\) 网格图
  • 用 2D DiT 直接生成网格图(而非 3D 视频张量)
  • 加 3D 位置编码(行、列、时间)让模型理解帧间关系

Stage 2:Frame-Wise Super-Resolution

  • 把网格中每个低分辨率元素拆回单帧
  • 用条件扩散超分模型逐帧精修
  • 细节恢复与时序建模解耦,计算更友好

Grid-based Autoregressive Sampling

  • 通过扩散 inpainting 在网格间自回归扩展
  • 支持任意长度 rollout(文中可到 1024 帧)

实验结果

数据集 方法 FVD ↓ 推理时间
CT-RATE GenerateCT 1092.3 184s
CT-RATE GriDiT 998.43 53.8s
Minecraft (1024 帧) Diffusion Forcing 261.23 -
Minecraft (1024 帧) GriDiT 243.21 -

消融

  • 2D 位置编码:FVD-128 = 152.6
  • 3D 位置编码:FVD-128 = 133.2(显著更优)

关键发现

  • 训练长度 <= 400 帧时,仍可外推到 1024 帧
  • K=4 在质量-效率上最平衡
  • 同一框架可跨医学体数据、自然视频、游戏序列

亮点

  • 充分利用成熟 2D DiT,而不是从头设计重型视频网络
  • 分解式建模把“时序一致性”和“高频细节”分别优化
  • 在实际可用性(速度+长度扩展)上优势明显

局限性

  • 两阶段信息瓶颈可能损失极细节
  • 网格自回归衔接点仍可能出现轻微伪影
  • 高分辨率长视频(如 1024p)表现仍需验证

方法迁移价值

  • 医学体数据: 对 CT/MRI 这类“高帧数但帧间变化平滑”的序列尤其友好
  • 机器人观测序列: 可先粗建全局动态,再局部细化关键帧
  • 工业检测视频: 在保证长程一致性的同时压低推理成本

可进一步改进的方向

  • 在 Stage 1 引入内容自适应网格密度,让运动剧烈区域分配更多表示预算
  • 在 Stage 2 加入跨帧一致性约束,缓解逐帧超分带来的时序闪烁
  • 将网格自回归与关键帧选择联合优化,进一步缩短推理链

个人总结

GriDiT 的核心价值不只是“更快”,而是给出一种可推广的方法论: 先把长序列问题降维成可学习的粗结构,再把高频细节做后验补偿。 这套思路对很多时空生成任务都可能成立。

复现清单

  • 先固定网格大小 K 做短序列(128 帧)验证,再扩到长序列
  • 分别监控 Stage 1 和 Stage 2 的误差,避免只看最终 FVD
  • 针对拼接区域单独评估伪影比例,定位 inpainting 失效点
  • 医学场景可加入器官连续性指标,补充纯生成指标
  • 建议记录“训练长度/推理长度”比值,形成外推稳定性曲线

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐(对长序列生成效率问题很有参考价值)