ViStoryBench: Comprehensive Benchmark Suite for Story Visualization¶

会议: CVPR 2026
arXiv: 2505.24862
代码: https://github.com/ViStoryBench/ViStoryBench
领域: 扩散模型 / 图像生成
关键词: 故事可视化、基准测试、角色一致性、多维度评估、叙事生成

一句话总结¶

ViStoryBench 构建了一个包含 80 个多风格故事、344 个角色、1317 个镜头的综合基准，提出 12 项自动化评估指标（涵盖角色一致性、风格相似度、提示对齐、copy-paste 检测等），系统评估了超过 25 种开源/商业故事可视化方法，填补了该领域缺乏统一评估标准的空白。

研究背景与动机¶

领域现状：故事可视化旨在根据叙事文本和角色参考图生成一组视觉一致的图像序列。近年来，扩散模型和自回归模型的进步推动了这一领域的快速发展，出现了 StoryDiffusion、UNO、USO 等训练无关方法和基于 LLM 的多阶段 pipeline（如 MMStoryAgent、MovieAgent）。

现有痛点：现有基准测试存在三大局限：(1) 测试场景单一，多局限于短文本提示或单图生成，无法反映真实叙事的复杂性；(2) 缺少角色参考图，无法测试角色一致性；(3) 评估指标不全面，通常只用 FID/CLIP-Score 等通用指标，忽略了故事可视化特有的维度如角色匹配精度、风格一致性、copy-paste 行为等。

核心矛盾：故事可视化本质上是一个多维度问题——需要同时保证角色身份一致、风格统一、叙事对齐、画面美观，但现有评估框架无法系统化地度量这些维度，导致不同方法间的对比缺乏可信度。

本文目标 (1) 构建多样化的故事脚本+角色参考数据集；(2) 设计覆盖多个关键维度的自动化指标体系；(3) 在统一框架下对比评测大量方法。

切入角度：作者从"真实叙事场景"出发，收集文学、电影、民间故事等 80 个故事片段，涵盖 10 种视觉风格，用 LLM 辅助生成结构化剧本（含场景描述、角色动作、镜头设计），并经人工审核。

核心 idea：构建首个涵盖多风格、多角色、多指标的故事可视化综合基准，系统性揭示现有方法的优劣。

方法详解¶

整体框架¶

ViStoryBench 的流程分为三步：(1) 数据集构建——从多源故事中提取脚本、收集角色参考图；(2) 指标设计——定义 12 项涵盖角色/风格/提示/美学/copy-paste 的自动化指标；(3) 模型评测——在统一框架下评估 25+ 种方法（含故事图像方法和故事视频方法）。

关键设计¶

结构化剧本生成（Structured Script Generation）:
- 功能：将自然语言故事转化为可量化评估的结构化脚本
- 核心思路：采用 5 种提示工程策略引导 LLM 进行故事摘要和脚本生成，每个镜头（Shot）包含 5 个标准化组件——场景描述、剧情对应、在场角色列表、静态镜头描述、镜头视角设计（含景别、拍摄类型、机位角度）。所有 LLM 输出经人工审核确保叙事连贯性和逻辑一致性
- 设计动机：结构化的脚本为多维度评估提供了明确的 ground truth，特别是可以分别评估角色动作对齐、镜头设计对齐等细粒度维度
角色身份相似度指标 CIDS（Character Identification Similarity）:
- 功能：量化生成角色与参考角色之间的视觉一致性
- 核心思路：四阶段流水线：先用 Grounding DINO 从参考图和生成图中裁剪角色区域 → 用 CLIP（非真实风格）或 ArcFace/AdaFace/FaceNet（真实人脸风格）提取 512 维特征向量 → 计算相似度矩阵并做二分图匹配找最优角色对应 → 取匹配对的平均余弦相似度。分为 Cross-CIDS（生成图 vs 参考图）和 Self-CIDS（生成图之间）两种
- 设计动机：直接用全图 CLIP 相似度无法精确度量"角色"的一致性，需要先检测裁剪角色区域再做特征对比
多粒度提示对齐评估（Multi-grained Prompt Alignment）:
- 功能：衡量生成图像在不同粒度上与文本描述的一致程度
- 核心思路：将对齐度拆分为 4 个子维度——Scene Score（场景与叙事整体对应）、Shot Score（镜头视角一致性）、Character Interaction（群体交互对齐）、Individual Actions（个体动作准确性）。每个维度通过 Gemini-3-Pro（主评估）或 Qwen3-VL（可复现评估）按 Likert 5 级量表打分（0-4），最终映射到百分制
- 设计动机：粗粒度的 CLIP-Score 无法区分"场景对了但角色动作错了"或"构图对了但交互关系错了"等细微差异
Copy-Paste 检测指标:
- 功能：检测模型是否偷懒直接复制参考图而非生成新内容
- 核心思路：对每个生成角色特征 \(g\)，比较它与输入参考图特征 \(r\) 和同一角色的另一张参考图特征 \(t\) 的距离关系。如果 \(g\) 更接近 \(r\) 而非 \(t\)，说明生成结果可能直接复制了输入参考。通过几何归一化计算 Copy-Paste Rate
- 设计动机：一些方法（如 Story-Adapter）虽然角色相似度高，但实际是直接粘贴参考图，这种"虚假一致性"需要被识别

损失函数 / 训练策略¶

ViStoryBench 本身是评测基准，不涉及模型训练。其核心贡献在评估协议设计和指标验证上。

实验关键数据¶

主实验¶

方法	CSD-Cross↑	CIDS-Cross↑	PA-Avg↑	OCCM↑	Inc↑	Aes↑
OmniGen2	0.454	0.548	2.49	70.2	11.05	5.25
UNO (FLUX1)	0.391	0.485	2.30	74.2	12.40	5.23
QwenImageEdit	0.381	0.475	2.51	59.8	13.42	5.50
AnimDirector (SD3)	0.288	0.401	2.55	67.4	12.02	5.59
Story-Adapter (scale=0)	0.456	0.460	1.90	69.0	12.98	4.99
StoryDiffusion (SDXL)	0.269	0.397	1.85	62.9	15.72	5.76

消融实验（指标验证）¶

指标维度	人工评估相关性	说明
CIDS (Cross)	高	与人工角色一致性评分显著正相关
PA (Scene)	中高	VLM 评估稳定性分析方差低
Copy-Paste Rate	-	Copy-Paste Baseline 得分 0.474，正常方法 <0.28
Inception Score	高	多样性指标区分度好，StoryDiffusion(15.72) vs SEED-Story(6.30)

关键发现¶

OmniGen2 在角色一致性上表现最佳（CIDS-Cross=0.548），但 copy-paste 率也最高（0.275），暗示其可能过度依赖参考图复制
提示对齐与角色一致性存在 trade-off：AnimDirector 在 PA-Avg（2.55）上领先，但 CIDS 仅 0.401；Story-Adapter 角色相似度高但提示对齐弱
视频方法在场景一致性上更好：MovieAgent-SD3 的 PA-Avg 达到 2.54，与最佳图像方法持平，但角色一致性和美学得分偏低
OCCM 指标揭示角色数量幻觉严重：最高的 Vlogger 也仅 76.6%，说明多角色场景中角色数量控制是普遍难题

亮点与洞察¶

Copy-Paste 检测指标是本文最巧妙的设计：通过引入同一角色的"第二参考图"作为 proxy target，用几何归一化区分"生成的一致"和"粘贴的一致"，这个思路可以迁移到任何需要检测模型"作弊行为"的评测场景
多粒度提示对齐的拆分策略值得借鉴：将 prompt alignment 拆为 scene/shot/CI/IA 四个子维度，比单一 CLIP-Score 信息量大得多，可推广到视频生成等其他条件生成任务的评估
VLM 作为评估器的方案经过严格的稳定性验证（低方差），为未来大规模自动化评估提供了可靠范式

局限与展望¶

角色检测依赖 Grounding DINO：当检测失败时（特别是非写实风格），CIDS 和 OCCM 指标会受到影响，检测器本身引入的误差未被充分量化
数据集规模有限：80 个故事、344 个角色在统计意义上仍然偏少，特别是某些稀有风格（如 3D 渲染）样本不足
缺少时序评估：对于视频方法只取关键帧评估，丢失了帧间连贯性和动画流畅度信息
VLM 评估偏差：Gemini-3-Pro 的评估标准可能与人类偏好存在系统性偏移，且闭源模型难以复现

评分¶

新颖性: ⭐⭐⭐⭐ 指标设计体系全面且有创新（如 copy-paste 检测），但作为 benchmark 论文核心贡献在于"系统性"而非"理论突破"
实验充分度: ⭐⭐⭐⭐⭐ 评测了 25+ 种方法，指标与人工评估的相关性验证充分，统计分析严谨
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，不过表格因方法数量过多略显拥挤
价值: ⭐⭐⭐⭐⭐ 填补了故事可视化领域缺乏统一评估标准的空白，对后续研究有重要参考价值