BookAgent: Orchestrating Safety-Aware Visual Narratives via Multi-Agent Cognitive Calibration¶

会议: ACL 2026
arXiv: 2604.16541
代码: https://github.com/bogao-code/BookAgent
领域: 多模态生成 / AI安全
关键词: 绘本生成、多智能体协作、安全对齐、跨帧一致性、视觉叙事

一句话总结¶

BookAgent 是一个安全感知的多智能体框架，通过价值对齐故事板（VAS）+ 迭代跨模态精炼（ICR）+ 时序认知校准（TCC）三阶段闭环架构，从用户草稿端到端生成高质量、角色一致、内容安全的绘本故事。

研究背景与动机¶

领域现状：大型生成模型在文本和图像生成上取得惊人进展，但自动生成绘本仍是开放挑战。现有方法将故事可视化分解为独立阶段（先固定故事线、再逐页生成图片），缺乏整体多模态对齐。

现有痛点：(1) 跨模态对齐弱——视觉内容很少提供结构化反馈来修正脚本，双向对齐不足；(2) 全局一致性差——长序列生成中角色外观漂移、道具丢失、因果关系断裂；(3) 儿童安全未被整合——现有安全方法多为后置过滤，未嵌入叙事规划和全局一致性检查。

核心矛盾：需要一个统一系统同时解决跨模态对齐、长程一致性和领域安全三个问题，但现有方法只能分别处理其中一个。

本文目标：构建一个端到端的绘本合成系统，从用户草稿出发同时生成脚本和插图，确保页级对齐、全局角色一致性和儿童安全合规。

切入角度：将绘本生成视为协作认知过程而非流水线——多个专职代理（审稿人、导演、安全审计员等）通过闭环反馈协作。

核心 idea：三阶段层级化工作流——VAS 保证安全的叙事蓝图，ICR 保证单页质量，TCC 保证跨页全局一致性。

方法详解¶

整体框架¶

将绘本合成形式化为受约束优化问题：最大化文本-图像忠实度 \(\alpha\)、角色身份一致性 \(\eta\)、全局序列连贯性 \(\beta\)，约束为所有文本和图像通过安全审计 \(\mathcal{S}_T=1, \mathcal{S}_I=1\)。系统包含 10 个专职代理（详见 Table 1），通过三阶段工作流协作：VAS→ICR→TCC。

关键设计¶

价值对齐故事板（VAS）:
- 功能：在可视化之前确保叙事安全并建立视觉锚点
- 核心思路：Reviewer-Refiner 将用户草稿改写为 K 页结构化故事 \(\hat{x}\)，经文本安全审计员验证；Character Extractor 提取 ≤5 个主要角色及视觉描述符；Character Sheet Renderer 为每个角色生成中性背景的参考图作为后续身份验证的 ground truth；Page Planner 将故事分解为逐页计划
- 设计动机：预生成阶段的安全审计将安全从"被动后置过滤"提升为"主动规划约束"，角色参考图为后续帧间一致性提供可靠锚点
迭代跨模态精炼（ICR）:
- 功能：通过"生成-验证-修订"闭环确保单页的文图对齐和角色一致
- 核心思路：每页执行预算化循环：(1) 检索相关角色参考图 \(\mathcal{R}_i\)，条件化生成图片 \(y_i^{(r)}\)；(2) Frame Director 评分文图忠实度 \(\alpha_i^{(r)}\)，Identity Director 检查角色一致性 \(\eta_i^{(r)}\)；(3) 如果安全审计不通过则添加安全负约束，否则融合语义/身份反馈修订提示 \(p_i^{(r+1)}\)。局部记忆 \(\mathcal{M}_i\) 累积历史约束防止回退
- 设计动机：单次生成的扩散模型无法保证满足复杂约束（如精确的按钮数量），迭代验证-修订将生成从静态采样转变为动态自纠正
时序认知校准（TCC）:
- 功能：检测和修复跨页的全局不一致
- 核心思路：Sequence Director 对完整序列 \(\mathcal{B}^{(m)}\) 做全局审计，输出一致性分数 \(\beta^{(m)}\)、全局批评 \(\Gamma^{(m)}\)、问题页索引 \(\mathcal{I}^{(m)}\)。若 \(\beta^{(m)} < \tau_\beta\)，仅对问题页做选择性修复（带全局上下文约束重入 ICR），迭代至收敛
- 设计动机：仅靠局部历史条件化（如前页作为上下文）无法防止长程外观漂移；全局审计+选择性修复将范式从线性自回归累积提升为整体时序推理

损失函数 / 训练策略¶

无训练，纯推理时多智能体协作。使用 Google Gemini 3.0 做推理，Nano-Banana 做生成。所有方法在相同提示协议和生成设置下对比。

实验关键数据¶

主实验¶

方法	图文一致性(1-5)	跨帧角色一致性(1-5)	安全(1-5)
BookAgent	4.6	4.7	4.8
StoryGPT-V	3.1	2.4	4.5
MovieAgent	2.8	2.1	3.6
StoryGen	2.5	1.9	4.4

消融实验¶

配置	图文一致性	跨帧一致性	安全	说明
Baseline (无VAS/ICR/TCC)	2.7	2.0	4.2
+ VAS	2.8	2.1	4.8	安全大幅提升
+ VAS + ICR	4.6	3.0	4.8	图文一致性大幅提升
+ VAS + ICR + TCC	4.6	4.7	4.8	跨帧一致性大幅提升

关键发现¶

ICR 是图文一致性的关键（2.8→4.6），证明单次生成根本无法满足复杂约束
TCC 是跨帧一致性的关键（3.0→4.7），证明局部条件化不足以维护长程一致
VAS 将安全从 4.2 提升到 4.8，预规划阶段的安全审计比后置过滤更有效
家长用户研究中 BookAgent 获得最高偏好评分，改善的长程一致性使故事更易于儿童理解

亮点与洞察¶

"先建锚点再迭代精炼"的设计范式非常值得借鉴：角色参考图作为一致性锚点，后续所有生成和验证都以此为基准，避免了自回归漂移的根源性问题
选择性修复（仅修复问题页而非重新生成整个序列）是效率和质量的良好折中
安全审计深度嵌入各阶段（VAS文本审计、ICR图像审计、TCC全局审计）的分层安全设计，可作为安全感知系统的范式

局限与展望¶

依赖 Gemini 3.0 和 Nano-Banana 等商业模型，开源复现性受限
迭代精炼和全局校准引入显著的推理成本（每页可能多次生成-验证循环）
评估主要基于 LLM 评委自动评分，人类评估规模较小
最长测试 20 页，更长绘本（如 50+ 页）的一致性维护未验证

评分¶

新颖性: ⭐⭐⭐⭐ 端到端绘本合成+分层安全+时序校准是新颖的系统组合
实验充分度: ⭐⭐⭐ 评估以定性和 LLM 评委为主，缺乏大规模自动化指标
写作质量: ⭐⭐⭐⭐ 系统设计清晰，形式化严谨，但公式过多影响可读性