StoryGPT-V: Large Language Models as Consistent Story Visualizers¶

会议: CVPR 2025
arXiv: 2312.02252
代码: 无
领域: 图像生成
关键词: 故事可视化, 大语言模型, 潜在扩散模型, 指代消解, 角色一致性

一句话总结¶

本文提出StoryGPT-V，通过两阶段训练——先训练角色感知的潜在扩散模型（Char-LDM）实现高质量角色生成，再将LLM输出与Char-LDM输入空间对齐实现指代消解和上下文一致性——在故事可视化任务上生成准确、高质量且时间一致的角色图像，内存消耗低。

研究背景与动机¶

故事可视化（Story Visualization）是一个比单张图片生成更复杂的任务：它需要根据一系列叙事描述生成多帧图像，且要求角色和背景保持跨帧一致性。该任务面临两个核心挑战：

挑战一：角色生成质量。现有文生图模型虽能生成高质量单帧图像，但在故事可视化中难以精确生成特定角色。单纯的文本提示不足以提供角色外观的详细信息。

挑战二：指代消解（Anaphora Resolution）。故事描述中频繁使用代词（"他"、"她"、"他们"），模型需要从上下文推断代词指代的具体角色。Story-LDM虽首次引入指代消解，但其注意力记忆模块在CLIP空间中交互，丢失了细粒度语言理解能力，且需要保持所有先前帧的像素级表征，导致内存需求随帧数急剧增长。

本文的核心动机是：利用LLM强大的推理能力来解决指代消解问题，同时将视觉信息压缩为token级表征来降低内存消耗。通过LLM的因果语言建模能力，模型可以从交错输入的图像和文本上下文中隐式推断代词指代。

方法详解¶

整体框架¶

StoryGPT-V采用两阶段训练： - 第一阶段：训练角色感知的潜在扩散模型（Char-LDM），通过融合角色视觉特征到文本嵌入，并用角色分割掩码引导交叉注意力图，提升角色生成的准确性和保真度 - 第二阶段：将LLM（OPT-6.7B或Llama2-7B）的输出与Char-LDM的输入空间对齐，使LLM能接收交错的图像-文本输入并产生视觉输出，利用因果语言建模实现指代消解

关键设计¶

角色感知融合嵌入（Character-Augmented Fused Embedding）:
- 功能：将角色视觉特征融合到文本嵌入中，为扩散模型提供角色外观信息
- 核心思路：对文本描述中每个角色名token，将其CLIP文本嵌入与对应角色图像的CLIP视觉嵌入拼接后通过MLP映射：\(c^k = \text{MLP}(\text{concat}(\psi(S[i_c^k]), \phi(I_c^k)))\)
- 设计动机：纯文本描述（如"Fred"）无法传达角色的视觉外观细节，融合视觉特征后，扩散模型在去噪过程中能获得更丰富的角色信息
交叉注意力掩码引导（Cross-Attention Control with Segmentation Masks）:
- 功能：引导扩散模型中角色token的注意力集中到对应角色的空间区域
- 核心思路：使用SAM获取角色分割掩码 \(M_k\)，设计正则化损失 \(\mathcal{L}_{reg} = \frac{1}{K}\sum_{k=1}^K (A_k^- - A_k^+)\)，其中 \(A_k^+\) 是角色区域内的平均注意力，\(A_k^-\) 是角色区域外的平均注意力
- 设计动机：标准LDM中一个像素可以无约束地与所有文本token交互，导致角色生成位置和外观不精确。掩码引导强制角色token主要影响其对应的空间区域
LLM对齐用于指代消解（LLM Alignment for Reference Resolution）:
- 功能：利用LLM的推理能力隐式解析代词指代，并生成与Char-LDM输入空间对齐的视觉输出
- 核心思路：LLM接受交错的(I₁, S₁, .., I_{n-1}, S_{n-1}, S_n)作为输入，图像通过CLIP编码后映射为4个token嵌入。LLM生成R个[IMG] token，通过Transformer-based Mapper投影到Char-LDM的输入空间，训练目标为对齐损失 \(\mathcal{L}_{align} = \|\text{Mapper}_{LDM}(h_{[IMG_{1:R}]}, q_1,...q_L) - c_i\|_2^2\)，其中 \(c_i\) 是非指代文本的融合嵌入
- 设计动机：LLM通过因果建模和上下文记忆能力，从"They are talking"中推断出"Fred and Wilma are talking"，并生成包含正确角色信息的视觉条件

损失函数 / 训练策略¶

第一阶段： - 标准扩散损失 + 注意力正则化损失 \(\mathcal{L}_{reg}\) - 训练策略：10%无条件训练（classifier-free guidance）、10%纯文本训练、80%角色增强融合训练 - 冻结CLIP文本编码器，微调其余模块，25k步，lr=1e-5

第二阶段： - Token生成损失 \(\mathcal{L}_{gen}\)（[IMG] token的NLL）+ 对齐损失 \(\mathcal{L}_{align}\) - 使用OPT-6.7B或Llama2-7B，冻结LLM主体，训练Mapper和额外token嵌入 - 预计算非指代融合嵌入作为对齐目标

实验关键数据¶

主实验¶

FlintstonesSV数据集（含指代文本）：

模型	Char-Acc↑	Char-F1↑	BG-Acc↑	FID↓	BLEU4↑	CIDEr↑
StoryDALL-E	61.83	78.36	48.10	44.66	0.4460	1.3373
LDM	75.37	87.54	52.57	32.36	0.4911	1.5103
Story-LDM	77.23	88.26	54.97	36.34	0.4585	1.4004
StoryGPT-V	87.96	94.17	56.01	21.71	0.5070	1.6607

PororoSV数据集（含指代文本）：

模型	Char-Acc↑	Char-F1↑	FID↓	BLEU4↑	CIDEr↑
StoryDALL-E	21.03	50.56	40.39	0.2295	0.3666
Story-LDM	29.14	57.56	26.64	0.2420	0.4581
StoryGPT-V	36.06	62.70	19.56	0.2586	0.5279

消融实验¶

第一阶段消融（FlintstonesSV，无指代文本）：

配置	Char-Acc↑	FID↓	说明
w/o \(\mathcal{L}_{reg}\)	88.86	23.51	无掩码引导
w/o augmented text	87.45	21.27	无角色视觉增强
freeze vis	88.67	22.01	冻结视觉编码器
Default (w/ img)	90.36	21.13	完整Char-LDM

第二阶段消融：

配置	Char-Acc↑	FID↓	说明
Caption-Emb_text	69.70	21.32	仅文本输入+文本嵌入对齐
Interleave-Emb_text	86.10	21.30	交错输入+文本嵌入对齐
Interleave-Emb_fuse	87.96	21.71	交错输入+融合嵌入对齐

关键发现¶

交错图文输入（Interleave）相比纯文本输入（Caption）带来巨大提升（+18.26% Char-Acc），说明视觉上下文对指代消解至关重要
融合嵌入（Emb_fuse）相比纯文本嵌入（Emb_text）进一步提升准确率，证明角色视觉信息的融合有效
长序列（40+帧）生成时，Story-LDM内存超限(80G A100上42帧)，StoryGPT-V可超过50帧
更强的LLM骨干（Llama2-7B vs OPT-6.7B）带来一致性提升（Char-Acc: 89.08% vs 87.96%）

亮点与洞察¶

高效的上下文记忆：将视觉信息压缩为4个token嵌入（\(n \times 4 \times d\)），而非Story-LDM的像素级表征（\(n \times h \times w \times d\)），内存效率提升数量级
两阶段解耦设计：第一阶段专注角色生成质量，第二阶段专注指代消解，分工清晰，便于独立优化
掩码引导的注意力控制：通过分割掩码显式引导交叉注意力，比纯隐式学习更高效地建立角色token与空间区域的对应关系
多模态生成能力：模型不仅能根据文本生成图像，还能自主生成文本续写故事并配合生成图像
人类评估一致验证：MTurk评估中StoryGPT-V在视觉质量、文本对齐、角色准确性和时间一致性上全面优于Story-LDM

局限与展望¶

当前仅在FlintstonesSV和PororoSV两个卡通数据集上验证,未扩展到更真实的故事可视化场景
对于角色数量多或角色外观差异小的场景，准确率可能下降
推理时需要角色参考图像，这限制了完全开放式的故事生成
第二阶段的对齐损失为L2距离，可能不是语义对齐的最优度量
未来可探索更大规模LLM、扩展到视频连续生成、以及与更先进扩散模型（如SDXL）的结合

评分¶

新颖性: ⭐⭐⭐⭐ 首次将LLM推理能力与角色感知扩散模型结合用于故事可视化指代消解
实验充分度: ⭐⭐⭐⭐ 定量、定性、人类评估、消融实验和长序列分析全面
写作质量: ⭐⭐⭐ 整体清晰但公式排版稍显拥挤，部分细节需看补充材料
价值: ⭐⭐⭐⭐ 为故事可视化任务提供了高效实用的解决方案，高效的上下文记忆机制可推广到其他序列生成任务