InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation¶

会议: CVPR 2026 arXiv: 2603.05898 代码: 无领域: 图像生成 / 可控生成 关键词: 电商海报生成, 多条件合成, MM-DiT, 文字渲染, 条件重要性分析

一句话总结¶

提出 InnoAds-Composer，一个基于 MM-DiT 的单阶段电商海报生成框架，通过统一 token 化将商品主体、字形文本和背景风格三类条件映射到同一空间，结合文本特征增强模块（TFEM）和重要性感知条件注入策略，在保持高质量生成的同时显著降低推理开销。

研究背景与动机¶

电商海报生成需要同时满足商品保真度、文字准确性和风格一致性三个目标，但现有方法存在明显不足：

多阶段流水线不可靠：先合成场景再渲染文字的方案导致风格不一致和主体保真度下降
中文文字渲染困难：单阶段方法难以准确渲染复杂脚本和小字形
风格控制依赖 prompt：容易偏离全局风格或语义约束
训练数据稀缺：缺乏包含主体+文字+风格联合标注的数据集

核心 gap：现有方法无法在单模型中端到端地联合控制背景风格、商品主体和文字三类条件，且多条件 token 拼接引发注意力的二次方复杂度膨胀。

方法详解¶

整体框架¶

InnoAds-Composer 建立在 MM-DiT 骨干上，包含三个核心模块： - 多条件 Token 化：将风格/主体/字形条件映射到统一 token 空间 - 重要性感知条件注入：按层和时间步路由条件到最响应位置 - 解耦注意力：移除条件→噪声潜码的冗余交叉注意力路径

关键设计¶

多条件 Token 化
背景风格控制：风格图像经 VAE 编码+patchify 得到视觉 token $h^i$，或纯文本 token $h^p$；$h^b = \mathcal{C}(h^i, h^{p_0})$（$h^{p_0}$ 为固定锚点 prompt）
商品主体控制：主体外区域填黑形成 mask，VAE 编码后得到 $h^s$，抑制背景泄漏
字形控制 + TFEM：双分支设计——分支1：整图字形 VAE 编码得 $h^{c1}$；分支2：单字裁剪经 OCR backbone + 三重位置编码（绝对位置、字号、局部位置）得 $h^{c2}$；轻量字符编码器融合：$h^c = \mathbf{GlyphEnc}(h^{c1}, h^{c2})$
重要性感知条件注入

对预训练全条件模型的注意力权重进行分析：提取每层 $b$ 每时间步 $t$ 的条件重要性：

$$S_{ci}(b,t) = \mathbf{Mean}(A^{b,t,c} \odot mask_{ci})$$

发现三类条件呈非均匀互补模式：背景风格主导早期层/早期步，主体在中深层形成高强度带，字形在中层/后期步渐增。据此仅在最响应位置注入条件 token（默认保留风格40%、主体50%、字形20%），大幅缩短有效序列。

解耦注意力

移除条件 query→噪声 key 的注意力路径（条件 token 演化缓慢，该路径冗余），保留噪声 query→条件 key 路径：

$$O_n = \mathbf{Attn}(Q_n, [K_n; K_{ci}], [V_n; V_{ci}])$$ $$O_{ci} = \mathbf{Attn}(Q_c, K_{ci}, V_{ci})$$

条件分支不依赖时间步，激活可缓存复用。

损失函数 / 训练策略¶

两阶段训练：Stage I 保留全部条件 token 训练完整海报生成器；Stage II 按重要性裁剪 token 并微调，时间步采样按全局重要性图的质量分布加权，缓解裁剪导致的性能下降。

实验关键数据¶

主实验¶

InnoComposer-Bench 评测（300样本）：

方法	Sen. Acc↑	NED↑	DINO↑	IoU↑	CSD↑	FID↓
Flux-Kontext	-	-	0.831	0.793	0.573	76.76
PosterMaker	0.765	0.848	0.916	0.954	-	60.55
Qwen-Image-Edit	0.831	0.960	0.922	0.903	0.722	69.86
Seedream 4.0	0.865	0.972	0.864	0.837	0.700	64.21
Ours (Stage I)	0.857	0.976	0.923	0.972	0.729	54.39
Ours (Stage II)	0.847	0.969	0.914	0.960	0.727	55.24

效率对比：

方法	Latency(s)	FLOPs(T)	Memory(G)
Flux-Kontext	76.02	218.45	55.29
Ours (Stage I)	55.87	165.56	39.71
Ours (Stage II)	47.32	135.25	39.41

消融实验¶

配置	关键指标	说明
w/o TFEM	Sen. Acc 下降约5%	文字渲染质量明显退化
随机裁剪 vs 均匀裁剪 vs 重要性裁剪	重要性裁剪远优于前两者	字形可承受80%裁剪，主体~50%，风格~60%
Stage I vs Stage II	质量微降但效率大增	Latency 降低37.8%，FLOPs 降低38.1%

关键发现¶

Stage I 在几乎所有指标上取得最佳，FID 54.39 大幅领先所有开源和商业竞品
Stage II 牺牲极少质量换取近40%推理加速，体现了选择性注入的高效性
TFEM 的双分支字形编码对中文渲染尤为关键

亮点与洞察¶

条件重要性可视化：首次系统分析 MM-DiT 中不同条件在层/时间步上的重要性分布，揭示非均匀互补模式
解耦注意力+条件缓存：条件分支不依赖时间步，可预计算并缓存，推理开销仅增加主流 attention
配套数据集 InnoComposer-80K：首个包含主体+文字+风格联合标注的电商海报数据集

局限性 / 可改进方向¶

训练数据由合成管线构建，背景风格的多样性可能受限于生成模型质量
重要性分析基于全条件预训练模型的固定 attention pattern，是否可学习动态路由值得探索
缺乏对视频海报或动态内容的扩展

评分¶

新颖性: ★★★★☆ — 重要性感知注入和解耦注意力的组合设计有创新
技术深度: ★★★★☆ — 条件分析系统、TFEM 设计完善
实验充分度: ★★★★☆ — 多维度指标+效率分析+消融，但测试集仅300样本
实用性: ★★★★★ — 电商场景直接可用，效率提升显著