Directing the Narrative: Controlling Coherence and Style in Story Generation¶

日期: 2026-03-18
arXiv: 2603.17295
领域: 图像生成 / 视频理解
关键词: 故事可视化, 角色一致性, Group-Shared Attention, DPO, FLUX.1

一句话总结¶

提出两阶段框架在 FLUX.1 上实现一致性故事生成：第一阶段用 Group-Shared Attention 在 batch 内共享高分辨率视觉 token 实现无损身份保持，第二阶段用 DPO 对齐人类审美，在 ViStoryBench 上 CIDS +10.0、CSD +18.7，6 项指标中 5 项 SOTA。

研究背景与动机¶

领域现状: 故事可视化要求从文本叙事生成连续图像序列，同时保持角色身份和视觉风格一致。现有方法分为优化型（LoRA/DreamBooth，需逐角色训练）和编码器型（IP-Adapter，用 CLIP 压缩参考图特征注入交叉注意力）。近期 StoryDiffusion 在 U-Net 上使用一致自注意力共享帧间特征，StoryAdapter 用全局参考交叉注意力迭代精炼，但它们都是为 U-Net 架构设计的。
现有痛点: 优化型方法计算密集、不可扩展；编码器型方法因外部 CLIP 压缩造成信息瓶颈，丢失细粒度身份细节（面部几何、服装纹理）并与文本控制产生语义冲突。标准扩散模型独立训练每个样本，缺乏跨帧对应机制，导致身份漂移和风格不一致。随着 Flow Matching + DiT 架构（如 FLUX.1）成为主流，如何在这种新范式上实现一致性生成是一个新挑战。
核心矛盾: 生成多样性 vs 身份一致性的 trade-off——模型需要灵活渲染不同场景和姿态，同时不能让角色外观漂移。
核心 idea: 一致性应是通过直接特征交互学习的内在能力，而非依赖压缩的外部注入。将 FLUX.1 改造为一致性故事生成器：第一阶段 GSA 实现结构一致性，第二阶段 DPO 实现审美对齐。最终模型 \(M = \Phi + \Phi^c + \Phi^d\)——冻结的 FLUX 骨干 + 一致性适配器 + DPO 精炼适配器。

方法详解¶

整体框架¶

参考图 + 文本提示 → FLUX.1 骨干 + LoRA 适配器（应用于所有 Q/K/V/O 投影和 FFN，rank=alpha=16）→ Stage 1 GSA 训练 40K 步建立结构一致性 → Stage 2 冻结 Stage 1 适配器，用零初始化 LoRA \(\Phi^d\) 做 DPO 精炼 4K 步 → 一致性多帧输出。

关键设计¶

Group-Shared Attention (GSA):
- 做什么：在不依赖外部编码器的情况下实现跨图像身份保持
- 核心思路：扩展 DiT 自注意力的上下文窗口。对于目标图（index 0），将 batch 内其他参考图的视觉 token（不含文本 token）拼接到 Key/Value 中。具体地，\(\tilde{K}^{(0)} = [K_{txt}^{(0)}, K_{img}^{(0)}] \oplus \bigcup_{j=1}^{N-1}[K_{img}^{(j)}]\)，然后做标准 scaled dot-product attention。关键设计：只共享视觉 token 不共享文本 token（非对称多模态共享），避免文本语义冲突
- 设计动机：IP-Adapter 要把参考图压缩成 CLIP 嵌入再注入交叉注意力，信息损失严重；GSA 直接让目标图 attend 到参考图的高分辨率空间特征，实现无损信息流
- 非对称时间步采样：训练时目标图用随机噪声时间步 \(t \sim \text{Sigmoid}(\mathcal{N}(0,1))\)，参考图强制 \(t=0\)（无噪声），确保参考图提供干净的视觉特征池。损失只在目标图上计算
DPO 审美对齐 (Stage 2):
- 做什么：消除 Stage 1 标准重建目标产生的解剖学伪影，对齐人类审美标准
- 偏好数据构建：用 Stage 1 模型生成多样候选 → 专家按三级标准（角色一致性 > 解剖完整性 > 视觉美感）手工标注 winner/loser → 组合采样策略动态构建偏好对
- DPO 损失：适配 Flow Matching 框架，用流匹配误差差值近似 log-likelihood ratio：\(\log\frac{\pi_\theta(I)}{\pi_{ref}(I)} \approx \|v_t - v_{ref}\|^2 - \|v_t - v_\theta\|^2\)
- 设计动机：GSA 只保证结构对应，DPO 将整体偏好信号注入模型，同时因为 \(\Phi^c\) 冻结，不会破坏一致性能力。温度参数 \(\beta_{DPO}=1800\)
数据构建流水线:
- Pipeline A（绘本）：10K+ 开源绘本 → 微调 CLIP 做语义过滤（阈值 0.9，需手动标注 1K 样本训练）→ OCR 检测 + 结构感知修复去除页面文字 → 感知哈希去重 → 保留 ≥4 帧的书 → 4,000 张干净叙事图
- Pipeline B（视频）：100+ 视频 → 镜头边界检测 + 帧质量过滤（排除强光/运动模糊/远景/侧脸）→ GroundingDINO 角色定位 → DINOv2 + Louvain 粗聚类 → Qwen-VL 语义验证精过滤 → 300 个高一致性角色簇（约 1,500 帧）
- Florence-2-large 做详细语义标注

实验关键数据¶

ViStoryBench 主实验（80 序列，多风格）¶

方法	CSD-Cross ↑	CSD-Self ↑	CIDS-Cross ↑	CIDS-Self ↑	OCCM ↑	Align ↑
StoryGen	37.1	53.1	37.1	51.2	80.3	41.4
StoryDiffusion	34.0	54.7	39.8	58.1	84.9	67.4
StoryAdapter	45.6	54.8	43.0	60.5	86.3	67.7
UNO	39.1	60.2	45.7	60.9	89.5	79.6
本文	57.8	61.8	55.7	63.3	89.6	76.9

CIDS-Cross 超越 UNO +10.0，CSD-Cross 超越 StoryAdapter +12.2。唯一不是最高的 Alignment Score 与 UNO 差距仅 <3%，是用极小的语义灵活性换取巨大的身份保持增益。

消融实验¶

配置	CIDS-Cross ↑	CIDS-Self ↑	CSD-Cross ↑	CSD-Self ↑
w/o GSA	34.4	53.6	29.6	60.6
w/o DPO	46.4	58.2	46.7	56.6
Full	55.7	63.3	57.8	61.8

关键发现¶

GSA 是身份保持的根基：去掉 GSA 后 CIDS-Cross 从 55.7 暴降到 34.4（-21.3），标准自注意力完全无法跨帧保持一致
DPO 是质量精炼的关键：去掉 DPO 后 CIDS-Cross 降 9.3、CSD-Cross 降 11.1，Stage 1 只建立粗糙对应，DPO 负责精细化
用户研究（30 人 × 5 分制）：角色一致性 4.60 vs UNO 3.48，主观美感 4.61，显著领先所有基线

亮点与洞察¶

无损 vs 有损的范式转换：用 batch 内 token 共享代替 CLIP 压缩嵌入注入，身份保持上限根本性提高。GSA 的非对称设计（只共享视觉 token + 参考图 t=0）非常巧妙，既避免文本冲突又保证信息干净
两阶段分工清晰：GSA 管结构，DPO 管审美——各司其职互不冲突。DPO 在 Flow Matching 上的适配（用匹配误差差值近似似然比）为其他 DiT 模型的偏好对齐提供参考
FLUX.1 上的首次一致性探索：之前的一致性注意力方案（StoryDiffusion 等）主要为 U-Net 设计，本文是首次在 Rectified Flow Transformer 上验证这类方法

局限性 / 可改进方向¶

GSA 计算开销与参考图数量线性增长，长叙事序列可能受限于 GPU 显存
数据构建依赖 CLIP 过滤 + GroundingDINO + Qwen-VL + Florence-2 的复杂流水线，可复现性有挑战
DPO 偏好数据需要专家手工策划，泛化到更多风格/领域需要额外工作。自动化偏好数据生成是一个方向
仅在故事可视化上验证，多角色交互、非拟人角色的复杂场景效果未知

评分¶

新颖性: ⭐⭐⭐⭐ GSA 在 Flow Transformer 上的一致性注意力 + DPO 在 Flow Matching 上的适配都是新探索
实验充分度: ⭐⭐⭐⭐ ViStoryBench 6 指标 5 项 SOTA + 消融 + 用户研究，但只有一个基准
写作质量: ⭐⭐⭐⭐ 方法描述清晰，数据流水线透明
价值: ⭐⭐⭐⭐ 对连续叙事生成和 DiT 架构上的一致性控制有直接指导意义