Rethinking Layered Graphic Design Generation with a Top-Down Approach¶

元信息¶

会议: ICCV 2025
arXiv: 2507.05601
代码: 未开源
领域: 扩散模型 · 图形设计生成
关键词: 分层设计, VLM, 自顶向下, 文本渲染, 设计自动化

一句话总结¶

提出Accordion框架，采用自顶向下策略将AI生成的栅格化设计图转换为可编辑的分层设计（含背景、前景对象、矢量化文本层），由VLM在参考创建、设计规划和层生成三个阶段扮演不同角色。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：图形设计（海报、广告等）本质上是分层格式——背景层、前景对象层、矢量化文本层。GenAI模型可以生成视觉上精美的栅格化设计图，但缺乏可编辑性（如文本不可修改、元素不可分离）。

现有方法采用自底向上策略（如COLE先生成背景、再添加对象、最后放置文本），导致： 1. 视觉元素之间缺乏全局协调——后期添加的元素可能与先前决定冲突 2. 文本可能占据过多空间，或与前景对象重叠 3. 没有全局视觉参考作为设计总蓝图

核心洞察：人类设计师通常先参考已有设计获取灵感（颜色、布局、排版风格），再分层创建——这就是自顶向下策略。本文首次尝试将AI生成的栅格化设计图转化为可编辑的分层设计。

方法详解¶

整体框架：三阶段VLM管线¶

Accordion围绕VLM（LLaVA-1.5-7B）构建，在三个阶段扮演不同角色：

Stage 1: 参考创建¶

VLM角色：提示词增强器 - 输入用户短意图\(I\)或草图稿\(S\) - VLM通过In-context Learning将简短描述扩展为详细提示词\(P_{des}\) - 送入T2I模型（Flux）生成参考图像\(R\)

Stage 2: 设计规划¶

VLM角色：设计规划器 - 输入参考图像\(R\)和组合提示\(P = P_{task} + P_{des} + P_{ocr}\) - VLM输出有序字典序列\(\{D_*\}\)：每个元素包含边界框和属性 - 文本属性包括内容、颜色、字体、对齐方式、行数、角度等 - 关键能力：修正AI生成的无意义文本为有意义内容

Stage 3: 层生成¶

VLM角色：质量选择器 - 按规划顺序逐层提取： 1. 文本移除：根据文本边界框条件移除文本区域 2. 对象提取：SAM提取前景对象 → 修复模型填充背景 3. 结果选择：VLM评估多个候选结果，选择最优 - 最终堆叠：背景\(B\) + 对象层\(\{O_n\}\) + 矢量文本层\(T\)

训练数据构建¶

利用3类参考训练VLM： 1. 原始设计：直接解析训练文本去渲染能力 2. 含无意义文本的设计：用SD1.5修复模型污损文本区域（强度0.5-0.7），训练修复能力 3. 无文本背景：移除所有文本，训练从背景添加文本的能力

共156,932个训练样本（39K × 3类参考 + 问卷数据集）。

实验¶

主实验：DesignIntention基准定量对比¶

方法	设计与布局	内容相关性	排版与颜色	图形与图像	创新性	平均
COLE	6.0	6.9	5.7	6.2	5.1	6.0
Open-COLE	6.3	7.0	5.6	7.1	5.3	6.3
Accordion	6.7	7.4	6.1	7.3	5.1	6.5

Accordion以平均6.5分超越COLE（6.0）和Open-COLE（6.3），且训练数据仅39K远少于COLE的100K。

设计师用户研究（29名设计师，30个案例）¶

评估维度	Accordion优于COLE(%)
文本到模板可编辑性	73.5%
草图到描述合理性	87.2%

关键发现¶

Accordion的文本长度平均61.7字符 vs COLE的42.3字符（1.5倍）——更充分利用空间
美学评分4.98 vs COLE的4.72——全局参考确保元素间的视觉和谐
层数检测MAE：文本层0.494、对象层0.274——分层准确度较高
VLM问卷选择提升文本移除PSNR从18.01到21.18

亮点与洞察¶

范式转变：自顶向下 vs 自底向上——先有全局参考再分层提取，避免了逐步累积的视觉冲突
三重角色VLM：同一个VLM在不同阶段扮演提示增强器、设计规划器和质量选择器
模型无关性：可组合任意T2I模型（Flux/SD3/未来模型）作为参考源，不需重新训练
设计变体：支持上游模型变体、推理时变体和下游模型变体三种创意探索路径

局限与展望¶

SAM的IOU仅68.4%，对透明/中空对象的提取存在困难
假设文本层始终在对象层之上，不支持更复杂的层次关系
文本层仅支持2,000种预定义样式，不支持自由形式文本或特效文字
推理时间36.7秒/样本，交互体验有待优化

评分¶

新颖性：★★★★☆ — 自顶向下策略和AI设计图到可编辑设计的首次尝试
技术深度：★★★★☆ — 三阶段管线设计精巧，训练数据构建有巧思
实用性：★★★★★ — 直接面向设计实际需求