GIST: Towards Design Compositing¶

会议: CVPR 2026
arXiv: 2604.14605
代码: abhinav-mahajan10.github.io/GIST/
领域: 图像生成
关键词: design compositing, identity preservation, image harmonization, diffusion model, graphic design

一句话总结¶

提出 GIST，一种免训练的身份保持图像合成方法，通过交叉注意力引导的 token 注入和 Flow Matched 潜空间初始化，在布局预测和排版生成之间作为即插即用的合成阶段，实现多来源视觉元素的风格协调。

研究背景与动机¶

平面设计中需将来自不同来源的图像、文本、logo 等多模态组件组合成视觉协调的设计。现有方法要么关注布局预测要么关注互补元素生成，都保留输入组件不变，隐含假设组件已在风格上协调。实际中不同来源的组件往往存在色调、风格、纹理等视觉不匹配，简单排列无法产生真正协调的设计。现有工作最多处理文本排版的风格化，对图像元素的合成基本忽视。

方法详解¶

整体框架¶

GIST 定位在布局预测与排版生成之间的合成阶段。给定前景元素及其预测位置，利用 Emu-2 的 MLLM 架构，通过 LLaMA 解码器生成风格化 token 和视觉编码器生成身份 token，结合两项免训练增强技术产出协调的背景图像。

关键设计¶

交叉注意力引导 Token 注入: 利用 Emu-2 视觉编码器的自编码特性获取身份 token \(T_{auto}\)，LLaMA 产出的风格化 token \(T_{gen}\)。通过 SDXL UNet 的交叉注意力图计算每个 token 的前景/背景相关度分数 \(r_{fg}[i] = \frac{\max(CA[i] \odot \mathbf{m}_{fg})}{\max(CA[i])}\)，选择 Top-N 相关 token 进行加权混合 \(T_{final}[\mathcal{S}_{fg}] = (1-\beta_{fg}) \cdot T_{gen} + \beta_{fg} \cdot T_{auto}\)，前景 \(\beta_{fg}=0.3\)、背景 \(\beta_{bg}=0.2\)。评分前通过一次轻量 UNet 前向传播获取 CA map，并跨所有注意力层平均。
Flow Matched Euler 离散采样潜空间初始化: 通过将背景画布的 VAE 编码潜码进行 DDIM 反演获取初始噪声潜码，为扩散过程提供与原始背景结构对齐的起点，显著提升背景保真度。
顺序元素合成: 多个视觉元素按预测布局顺序合成，每步更新后的画布作为下一步的背景。最终合成结果传递给排版预测模块完成完整设计生成。支持图像和 SVG 两种类型的视觉元素。

损失函数 / 训练策略¶

免训练方法，仅利用预训练 Emu-2 和 SDXL 的现有能力。通过操控 64 个 token 瓶颈实现生成式图像合成。

实验关键数据¶

主实验¶

与朴素粘贴方法对比，集成到 LaDeCo 和 Design-o-meter 两个不同流水线：

指标	朴素粘贴	+GIST	评估者
视觉协调性	基线	显著提升	LLaVA-OV, GPT-4V
审美质量	基线	显著提升	LLaVA-OV, GPT-4V
配对偏好	-	优于朴素粘贴	GPT-4V

关键发现¶

身份保持与风格协调之间需要精细平衡
交叉注意力图提供了空间精确的 token 级控制信号
潜空间初始化对背景保真度至关重要

亮点与洞察¶

"合成"作为布局和排版之间缺失环节的定位精准
利用 MLLM 的架构瓶颈实现免训练操控的思路巧妙
即插即用设计使其可与任意现有流水线组合
Emu-2 的 64-token 瓶颈是关键设计约束：视觉编码器和 SDXL 解码器联合训练为自编码器，直接通过视觉编码器编码可获得富含细粒度身份信息的 token
多个视觉元素按预测布局顺序合成，每步更新后的画布作为下一步的背景，支持图像和 SVG 两种类型

局限与展望¶

依赖 Emu-2 的 64-token 瓶颈，限制了向更新模型迁移
顺序合成可能导致元素间的排序敏感性
大量视觉元素场景下的计算开销和质量保持需验证
FLUX Kontext 等更新模型生成质量更好但缺乏可操控的内部瓶颈，难以免训练干预
与 Design-o-meter 和 LaDeCo 两种流水线的集成验证了即插即用特性
Flow Matched Euler 离散采样潜空间初始化通过 DDIM 反演背景画布的 VAE 编码，为扩散过程提供结构对齐的起点
LLaVA-OV 和 GPT-4V 两种评估器均确认视觉协调性和审美质量的显著提升

评分¶

6/10 — 问题定位新颖，方法实用，但依赖特定模型架构，泛化性受限。