AutoPP: Towards Automated Product Poster Generation and Optimization¶

会议: AAAI2026 arXiv: 2512.21921 代码: JD-GenX/AutoPP 领域: recommender 关键词: product poster generation, CTR optimization, diffusion model, DPO, multimodal generation

一句话总结¶

提出 AutoPP，首个将商品海报自动生成与基于 CTR 反馈的自动优化统一到一个框架中的流水线，通过 unified design module 联合设计背景/文字/排版，element rendering module 高效可控地生成海报，并利用 Isolated DPO (IDPO) 实现元素级别的点击率优化。

背景与动机¶

商品海报需要将产品、文字和背景巧妙组合以吸引用户点击，但手工制作和迭代优化非常耗时耗力
现有方法存在明显的自动化瓶颈：
PAID 采用四阶段流水线（提示词→排版→背景→文字渲染），其中文字属性（字体、颜色）依赖人工规则，限制了自动化且破坏视觉和谐
PosterMaker 虽然利用 SD3 + ControlNet 实现了背景与文字的同步渲染，但仍需用户为每张海报单独设计排版和卖点文案，无法高效大规模生产
在线优化方面，CG4CTR 和 CAIG 仅优化背景元素的 CTR，忽略了文字和排版对点击率的影响，且粗粒度的联合优化无法归因到具体元素

核心问题¶

生成端：如何仅凭基础产品信息（产品图 + 候选文案）就自动生成高质量海报，不需要人工设计排版、撰写卖点、指定文字属性？
优化端：如何将 CTR 改进精确归因到海报的具体元素（背景/文字/排版），实现细粒度的元素级优化，而非整体粗粒度调整？

方法详解¶

整体框架¶

AutoPP 由生成器和优化器两大部分组成：

1. Unified Design Module（统一设计模块）¶

使用 MLLM（基于 LLaVA 初始化）联合生成三个关键元素：背景提示词 \(b\)、选定文案 \(T^*\)、排版 \(l\)
输入：产品图 \(I_{\text{product}}\) + 候选文案集合 \(T\)
通过自回归方式建模联合分布：\(\pi(y|I_{\text{product}}, X_{\text{instr}}) = \prod_i p(y_i | I_{\text{product}}, X_{\text{instr}}, y_{<i})\)
相比分散的多模型方案，单一模型联合推理保证了设计一致性

2. Element Rendering Module（元素渲染模块）¶

基于 FLUX.1 dev，将产品图和字形图编码为 condition tokens
关键创新：Decomposed Attention (DA) 机制替代 MM-DiT 中的 full attention
Condition Self-Attention：字形和产品 tokens 各自独立进行自注意力，捕获元素内部依赖
Image-Condition Cross-Attention：Query = [prompt tokens; noise tokens]，Key/Value = [所有类型 tokens 拼接]，实现跨模态信息交换
token 机制的优势：无需像素级对齐，对字形图与目标图的空间偏差鲁棒
训练损失：flow matching loss + OCR perceptual loss（利用 PaddleOCRv4 backbone 中间特征强制文字区域清晰度，\(\lambda=0.1\)）

3. Systematic Element Replacement（系统化元素替换策略）¶

从生成的海报出发，每次只替换一个元素（保持其余不变）来创建变体：
背景替换：用 GPT-4o 基于原提示词生成不同背景描述
文字替换：从候选文案集中选等长替代文案
排版替换：由统一设计模块重新生成排版
变体海报在京东平台进行随机展示实验，收集 CTR 反馈

4. Isolated Direct Preference Optimization (IDPO)¶

标准 DPO 对整体输出做粗粒度对齐，无法区分各元素的贡献
IDPO 引入元素感知权重：\(w_i = \sum_{c \in \{b, T^*, l\}} \alpha_c \cdot \mathbb{I}(y_i \in c)\)
被替换的元素权重 \(\alpha=5\)，未变元素 \(\alpha=1\)，使 CTR 反馈精确引导最具影响力的元素
加权后的对数似然归一化：\(\log \pi^w(y|I,X) = \frac{\sum_i w_i \log p(y_i|I,X,y_{<i})}{\sum_i w_i}\)

AutoPP1M 数据集¶

生成子集：100 万张高质量商品海报（1:1，≥800×800），来自京东平台，经美学过滤、模糊检测、水印去除等清洗
优化子集：5 万组配对比较，通过 10 天随机展示实验收集，每张海报至少 50 位用户浏览，共 111.8 万用户参与，配对间 CTR 差异≥1%

实验关键数据¶

海报生成（离线评估，500 张海报）¶

方法	FID↓	CLIP-T↑	Alignment↓	Overlap↓	MIoU↑
P&R	104.05	27.21	0.014	0.024	0.203
PAID	83.55	28.92	0.013	0.041	0.215
GPT-4o	63.47	29.58	0.009	0.018	0.140
AutoPP	60.71	29.75	0.007	0.011	0.256

文字渲染质量¶

方法	Sen. Acc↑	NED↓	FID↓	CLIP-T↑
PosterMaker	57.87	21.93	49.76	30.43
AutoPP	65.19	12.94	43.19	30.49

在线 CTR 优化（京东 1 周实验，10000 个产品）¶

AutoPP (IDPO)：CTR 相对提升 +4.49%
AutoPP (标准 DPO)：+3.10%
CG4CTR / CAIG：CTR 为负（因仅优化背景，忽略文字和排版）

效率¶

DA 机制在 800×800 分辨率下减少 MM-DiT block 18% GFLOPs，1024×1024 下减少 24%
不引入额外参数（PosterMaker +1.6B，Flux-ControlNet +4.2B）

数据量影响¶

Reward Accuracy 随数据量增长：10K→51.20%，30K→67.19%，50K→75.99%

亮点¶

端到端全自动化：从基础产品信息到最终优化海报，完全无需人工输入排版、文案属性或手动调整
IDPO 的细粒度归因：通过系统化的单元素替换 + 元素感知权重的 DPO，首次实现了将 CTR 改进精确归因到孤立元素
Decomposed Attention：在不增加参数的前提下，通过将 full attention 分解为 condition SA + image-condition CA，降低了长序列的计算开销
大规模工业验证：AutoPP1M 是目前最大的商品海报数据集，在线实验有超百万真实用户参与
跨语言泛化：主要以中文训练，但在英文、日文、韩文上展现了涌现的跨语言生成能力

局限性 / 可改进方向¶

CTR 优化使用所有用户的聚合数据，可能忽略少数群体偏好，未来可探索个性化偏好学习
设计模块和渲染模块仍是分离的两阶段，未来可整合为单一自回归模型并用 RLHF 统一优化
元素替换策略依赖 GPT-4o 生成背景变体，引入了外部模型依赖
仅在京东平台验证，跨平台泛化性未知

与相关工作的对比¶

方法	全自动生成	文字渲染	排版设计	CTR 优化	元素归因
PAID	✗（需手工文字规则）	规则渲染	自动	✗	✗
PosterMaker	✗（需用户提供排版和卖点）	SD3+ControlNet	手动	✗	✗
CG4CTR	-	-	-	✓（仅背景）	✗
CAIG	-	-	-	✓（仅背景）	✗
AutoPP	✓	Token+DA	自动	✓（全元素）	✓（IDPO）

启发与关联¶

IDPO 的元素隔离优化思路可推广到其他多元素组合优化场景（如广告创意、网页设计、推荐 feed 卡片）
Decomposed Attention 的 condition SA + cross-attention 分解策略适用于任何多条件控制生成任务
系统化元素替换 + 偏好优化的范式可应用于其他需要在线 A/B 测试反馈的场景
将 MLLM 用于联合设计（同时输出布局、文案选择、背景描述）的做法值得在其他多步设计任务中借鉴

评分¶

新颖性: ⭐⭐⭐⭐ — IDPO 的元素级归因优化和全自动化流水线设计新颖，但各子模块（MLLM 设计、FLUX 渲染）基于成熟架构
实验充分度: ⭐⭐⭐⭐⭐ — 离线+在线双验证，百万用户规模实验，消融实验完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示丰富，方法描述完整
价值: ⭐⭐⭐⭐⭐ — 强工业落地价值，京东实际部署，0.5% CTR 提升即有显著商业回报