Directing the Narrative: Controlling Coherence and Style in Story Generation¶
日期: 2026-03-18
arXiv: 2603.17295
领域: 图像生成 / 视频理解
关键词: 故事可视化, 角色一致性, Group-Shared Attention, DPO, FLUX.1
一句话总结¶
提出两阶段框架在 FLUX.1 上实现一致性故事生成:第一阶段用 Group-Shared Attention 在 batch 内共享高分辨率视觉 token 实现无损身份保持,第二阶段用 DPO 对齐人类审美,在 ViStoryBench 上 CIDS +10.0、CSD +18.7,6 项指标中 5 项 SOTA。
研究背景与动机¶
-
领域现状: 故事可视化要求从文本叙事生成连续图像序列,同时保持角色身份和视觉风格一致。现有方法分为优化型(LoRA/DreamBooth,需逐角色训练)和编码器型(IP-Adapter,用 CLIP 压缩参考图特征注入交叉注意力)。近期 StoryDiffusion 在 U-Net 上使用一致自注意力共享帧间特征,StoryAdapter 用全局参考交叉注意力迭代精炼,但它们都是为 U-Net 架构设计的。
-
现有痛点: 优化型方法计算密集、不可扩展;编码器型方法因外部 CLIP 压缩造成信息瓶颈,丢失细粒度身份细节(面部几何、服装纹理)并与文本控制产生语义冲突。标准扩散模型独立训练每个样本,缺乏跨帧对应机制,导致身份漂移和风格不一致。随着 Flow Matching + DiT 架构(如 FLUX.1)成为主流,如何在这种新范式上实现一致性生成是一个新挑战。
-
核心矛盾: 生成多样性 vs 身份一致性的 trade-off——模型需要灵活渲染不同场景和姿态,同时不能让角色外观漂移。
-
核心 idea: 一致性应是通过直接特征交互学习的内在能力,而非依赖压缩的外部注入。将 FLUX.1 改造为一致性故事生成器:第一阶段 GSA 实现结构一致性,第二阶段 DPO 实现审美对齐。最终模型 \(M = \Phi + \Phi^c + \Phi^d\)——冻结的 FLUX 骨干 + 一致性适配器 + DPO 精炼适配器。
方法详解¶
整体框架¶
参考图 + 文本提示 → FLUX.1 骨干 + LoRA 适配器(应用于所有 Q/K/V/O 投影和 FFN,rank=alpha=16)→ Stage 1 GSA 训练 40K 步建立结构一致性 → Stage 2 冻结 Stage 1 适配器,用零初始化 LoRA \(\Phi^d\) 做 DPO 精炼 4K 步 → 一致性多帧输出。
关键设计¶
-
Group-Shared Attention (GSA):
- 做什么:在不依赖外部编码器的情况下实现跨图像身份保持
- 核心思路:扩展 DiT 自注意力的上下文窗口。对于目标图(index 0),将 batch 内其他参考图的视觉 token(不含文本 token)拼接到 Key/Value 中。具体地,\(\tilde{K}^{(0)} = [K_{txt}^{(0)}, K_{img}^{(0)}] \oplus \bigcup_{j=1}^{N-1}[K_{img}^{(j)}]\),然后做标准 scaled dot-product attention。关键设计:只共享视觉 token 不共享文本 token(非对称多模态共享),避免文本语义冲突
- 设计动机:IP-Adapter 要把参考图压缩成 CLIP 嵌入再注入交叉注意力,信息损失严重;GSA 直接让目标图 attend 到参考图的高分辨率空间特征,实现无损信息流
- 非对称时间步采样:训练时目标图用随机噪声时间步 \(t \sim \text{Sigmoid}(\mathcal{N}(0,1))\),参考图强制 \(t=0\)(无噪声),确保参考图提供干净的视觉特征池。损失只在目标图上计算
-
DPO 审美对齐 (Stage 2):
- 做什么:消除 Stage 1 标准重建目标产生的解剖学伪影,对齐人类审美标准
- 偏好数据构建:用 Stage 1 模型生成多样候选 → 专家按三级标准(角色一致性 > 解剖完整性 > 视觉美感)手工标注 winner/loser → 组合采样策略动态构建偏好对
- DPO 损失:适配 Flow Matching 框架,用流匹配误差差值近似 log-likelihood ratio:\(\log\frac{\pi_\theta(I)}{\pi_{ref}(I)} \approx \|v_t - v_{ref}\|^2 - \|v_t - v_\theta\|^2\)
- 设计动机:GSA 只保证结构对应,DPO 将整体偏好信号注入模型,同时因为 \(\Phi^c\) 冻结,不会破坏一致性能力。温度参数 \(\beta_{DPO}=1800\)
-
数据构建流水线:
- Pipeline A(绘本):10K+ 开源绘本 → 微调 CLIP 做语义过滤(阈值 0.9,需手动标注 1K 样本训练)→ OCR 检测 + 结构感知修复去除页面文字 → 感知哈希去重 → 保留 ≥4 帧的书 → 4,000 张干净叙事图
- Pipeline B(视频):100+ 视频 → 镜头边界检测 + 帧质量过滤(排除强光/运动模糊/远景/侧脸)→ GroundingDINO 角色定位 → DINOv2 + Louvain 粗聚类 → Qwen-VL 语义验证精过滤 → 300 个高一致性角色簇(约 1,500 帧)
- Florence-2-large 做详细语义标注
实验关键数据¶
ViStoryBench 主实验(80 序列,多风格)¶
| 方法 | CSD-Cross ↑ | CSD-Self ↑ | CIDS-Cross ↑ | CIDS-Self ↑ | OCCM ↑ | Align ↑ |
|---|---|---|---|---|---|---|
| StoryGen | 37.1 | 53.1 | 37.1 | 51.2 | 80.3 | 41.4 |
| StoryDiffusion | 34.0 | 54.7 | 39.8 | 58.1 | 84.9 | 67.4 |
| StoryAdapter | 45.6 | 54.8 | 43.0 | 60.5 | 86.3 | 67.7 |
| UNO | 39.1 | 60.2 | 45.7 | 60.9 | 89.5 | 79.6 |
| 本文 | 57.8 | 61.8 | 55.7 | 63.3 | 89.6 | 76.9 |
CIDS-Cross 超越 UNO +10.0,CSD-Cross 超越 StoryAdapter +12.2。唯一不是最高的 Alignment Score 与 UNO 差距仅 <3%,是用极小的语义灵活性换取巨大的身份保持增益。
消融实验¶
| 配置 | CIDS-Cross ↑ | CIDS-Self ↑ | CSD-Cross ↑ | CSD-Self ↑ |
|---|---|---|---|---|
| w/o GSA | 34.4 | 53.6 | 29.6 | 60.6 |
| w/o DPO | 46.4 | 58.2 | 46.7 | 56.6 |
| Full | 55.7 | 63.3 | 57.8 | 61.8 |
关键发现¶
- GSA 是身份保持的根基:去掉 GSA 后 CIDS-Cross 从 55.7 暴降到 34.4(-21.3),标准自注意力完全无法跨帧保持一致
- DPO 是质量精炼的关键:去掉 DPO 后 CIDS-Cross 降 9.3、CSD-Cross 降 11.1,Stage 1 只建立粗糙对应,DPO 负责精细化
- 用户研究(30 人 × 5 分制):角色一致性 4.60 vs UNO 3.48,主观美感 4.61,显著领先所有基线
亮点与洞察¶
- 无损 vs 有损的范式转换:用 batch 内 token 共享代替 CLIP 压缩嵌入注入,身份保持上限根本性提高。GSA 的非对称设计(只共享视觉 token + 参考图 t=0)非常巧妙,既避免文本冲突又保证信息干净
- 两阶段分工清晰:GSA 管结构,DPO 管审美——各司其职互不冲突。DPO 在 Flow Matching 上的适配(用匹配误差差值近似似然比)为其他 DiT 模型的偏好对齐提供参考
- FLUX.1 上的首次一致性探索:之前的一致性注意力方案(StoryDiffusion 等)主要为 U-Net 设计,本文是首次在 Rectified Flow Transformer 上验证这类方法
局限性 / 可改进方向¶
- GSA 计算开销与参考图数量线性增长,长叙事序列可能受限于 GPU 显存
- 数据构建依赖 CLIP 过滤 + GroundingDINO + Qwen-VL + Florence-2 的复杂流水线,可复现性有挑战
- DPO 偏好数据需要专家手工策划,泛化到更多风格/领域需要额外工作。自动化偏好数据生成是一个方向
- 仅在故事可视化上验证,多角色交互、非拟人角色的复杂场景效果未知
评分¶
- 新颖性: ⭐⭐⭐⭐ GSA 在 Flow Transformer 上的一致性注意力 + DPO 在 Flow Matching 上的适配都是新探索
- 实验充分度: ⭐⭐⭐⭐ ViStoryBench 6 指标 5 项 SOTA + 消融 + 用户研究,但只有一个基准
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,数据流水线透明
- 价值: ⭐⭐⭐⭐ 对连续叙事生成和 DiT 架构上的一致性控制有直接指导意义