GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation¶
日期: 2026-03-20
arXiv: 2512.21276
代码: 论文称有 project page
领域: 长序列生成 / 视频与体数据生成
关键词: diffusion transformer, grid factorization, long sequence generation, autoregressive sampling, CT generation
一句话总结¶
提出 GriDiT:把长图像序列生成拆成“网格级低分辨率粗生成 + 逐帧超分精修”两阶段,并配套网格自回归采样,实现更好的长程一致性和显著更快推理,在 CT-RATE 上达到 3.4x 速度提升且 FVD 更优。
动机¶
- 传统方法把视频/序列当作大 3D 张量直接建模,计算昂贵
- 序列越长,时空联合建模越难稳定
- 很多方法要靠重模型或领域特定先验,通用性差
核心方法¶
Stage 1:Grid-Based Coarse Generation¶
- 从序列中按步长采样帧,排成 \(K\times K\) 网格图
- 用 2D DiT 直接生成网格图(而非 3D 视频张量)
- 加 3D 位置编码(行、列、时间)让模型理解帧间关系
Stage 2:Frame-Wise Super-Resolution¶
- 把网格中每个低分辨率元素拆回单帧
- 用条件扩散超分模型逐帧精修
- 细节恢复与时序建模解耦,计算更友好
Grid-based Autoregressive Sampling¶
- 通过扩散 inpainting 在网格间自回归扩展
- 支持任意长度 rollout(文中可到 1024 帧)
实验结果¶
| 数据集 | 方法 | FVD ↓ | 推理时间 |
|---|---|---|---|
| CT-RATE | GenerateCT | 1092.3 | 184s |
| CT-RATE | GriDiT | 998.43 | 53.8s |
| Minecraft (1024 帧) | Diffusion Forcing | 261.23 | - |
| Minecraft (1024 帧) | GriDiT | 243.21 | - |
消融¶
- 2D 位置编码:FVD-128 = 152.6
- 3D 位置编码:FVD-128 = 133.2(显著更优)
关键发现¶
- 训练长度 <= 400 帧时,仍可外推到 1024 帧
- K=4 在质量-效率上最平衡
- 同一框架可跨医学体数据、自然视频、游戏序列
亮点¶
- 充分利用成熟 2D DiT,而不是从头设计重型视频网络
- 分解式建模把“时序一致性”和“高频细节”分别优化
- 在实际可用性(速度+长度扩展)上优势明显
局限性¶
- 两阶段信息瓶颈可能损失极细节
- 网格自回归衔接点仍可能出现轻微伪影
- 高分辨率长视频(如 1024p)表现仍需验证
方法迁移价值¶
- 医学体数据: 对 CT/MRI 这类“高帧数但帧间变化平滑”的序列尤其友好
- 机器人观测序列: 可先粗建全局动态,再局部细化关键帧
- 工业检测视频: 在保证长程一致性的同时压低推理成本
可进一步改进的方向¶
- 在 Stage 1 引入内容自适应网格密度,让运动剧烈区域分配更多表示预算
- 在 Stage 2 加入跨帧一致性约束,缓解逐帧超分带来的时序闪烁
- 将网格自回归与关键帧选择联合优化,进一步缩短推理链
个人总结¶
GriDiT 的核心价值不只是“更快”,而是给出一种可推广的方法论: 先把长序列问题降维成可学习的粗结构,再把高频细节做后验补偿。 这套思路对很多时空生成任务都可能成立。
复现清单¶
- 先固定网格大小 K 做短序列(128 帧)验证,再扩到长序列
- 分别监控 Stage 1 和 Stage 2 的误差,避免只看最终 FVD
- 针对拼接区域单独评估伪影比例,定位 inpainting 失效点
- 医学场景可加入器官连续性指标,补充纯生成指标
- 建议记录“训练长度/推理长度”比值,形成外推稳定性曲线
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐(对长序列生成效率问题很有参考价值)