GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation¶

日期: 2026-03-20
arXiv: 2512.21276
代码: 论文称有 project page
领域: 长序列生成 / 视频与体数据生成
关键词: diffusion transformer, grid factorization, long sequence generation, autoregressive sampling, CT generation

一句话总结¶

提出 GriDiT：把长图像序列生成拆成“网格级低分辨率粗生成 + 逐帧超分精修”两阶段，并配套网格自回归采样，实现更好的长程一致性和显著更快推理，在 CT-RATE 上达到 3.4x 速度提升且 FVD 更优。

动机¶

传统方法把视频/序列当作大 3D 张量直接建模，计算昂贵
序列越长，时空联合建模越难稳定
很多方法要靠重模型或领域特定先验，通用性差

核心方法¶

Stage 1：Grid-Based Coarse Generation¶

从序列中按步长采样帧，排成 \(K\times K\) 网格图
用 2D DiT 直接生成网格图（而非 3D 视频张量）
加 3D 位置编码（行、列、时间）让模型理解帧间关系

Stage 2：Frame-Wise Super-Resolution¶

把网格中每个低分辨率元素拆回单帧
用条件扩散超分模型逐帧精修
细节恢复与时序建模解耦，计算更友好

Grid-based Autoregressive Sampling¶

通过扩散 inpainting 在网格间自回归扩展
支持任意长度 rollout（文中可到 1024 帧）

实验结果¶

数据集	方法	FVD ↓	推理时间
CT-RATE	GenerateCT	1092.3	184s
CT-RATE	GriDiT	998.43	53.8s
Minecraft (1024 帧)	Diffusion Forcing	261.23	-
Minecraft (1024 帧)	GriDiT	243.21	-

消融¶

2D 位置编码：FVD-128 = 152.6
3D 位置编码：FVD-128 = 133.2（显著更优）

关键发现¶

训练长度 <= 400 帧时，仍可外推到 1024 帧
K=4 在质量-效率上最平衡
同一框架可跨医学体数据、自然视频、游戏序列

亮点¶

充分利用成熟 2D DiT，而不是从头设计重型视频网络
分解式建模把“时序一致性”和“高频细节”分别优化
在实际可用性（速度+长度扩展）上优势明显

局限性¶

两阶段信息瓶颈可能损失极细节
网格自回归衔接点仍可能出现轻微伪影
高分辨率长视频（如 1024p）表现仍需验证

方法迁移价值¶

医学体数据: 对 CT/MRI 这类“高帧数但帧间变化平滑”的序列尤其友好
机器人观测序列: 可先粗建全局动态，再局部细化关键帧
工业检测视频: 在保证长程一致性的同时压低推理成本

可进一步改进的方向¶

在 Stage 1 引入内容自适应网格密度，让运动剧烈区域分配更多表示预算
在 Stage 2 加入跨帧一致性约束，缓解逐帧超分带来的时序闪烁
将网格自回归与关键帧选择联合优化，进一步缩短推理链

个人总结¶

GriDiT 的核心价值不只是“更快”，而是给出一种可推广的方法论：先把长序列问题降维成可学习的粗结构，再把高频细节做后验补偿。这套思路对很多时空生成任务都可能成立。

复现清单¶

先固定网格大小 K 做短序列（128 帧）验证，再扩到长序列
分别监控 Stage 1 和 Stage 2 的误差，避免只看最终 FVD
针对拼接区域单独评估伪影比例，定位 inpainting 失效点
医学场景可加入器官连续性指标，补充纯生成指标
建议记录“训练长度/推理长度”比值，形成外推稳定性曲线

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐（对长序列生成效率问题很有参考价值）