SciPostGen: Bridging the Gap between Scientific Papers and Poster Layouts¶

会议: CVPR 2026
arXiv: 2511.22490
代码: https://omron-sinicx.github.io/paper2layout/
领域: 多模态VLM / 文档理解
关键词: 海报布局生成, 科学论文, 检索增强生成, 对比学习, 文档布局分析

一句话总结¶

构建了包含 18,097 个论文-海报对的大规模数据集 SciPostGen，分析发现论文结构与海报布局元素数量存在中等相关性，并提出检索增强海报布局生成框架，通过对比学习检索与论文匹配的布局模板来指导 LLM 生成海报布局。

研究背景与动机¶

科学论文数量持续增长（arXiv 月投稿量从 2015 年约 8000 篇增长到 2025 年超 2 万篇），海报是高效传达研究成果的重要媒介。自动从论文生成海报需解决两个问题：内容摘要（放什么）和布局生成（怎么排）。

现有工作主要聚焦内容摘要，布局要么用固定模板要么用基于论文结构的规则生成。然而，布局设计对信息传达效果有重要影响，值得数据驱动地学习论文到布局的映射关系。

核心瓶颈是缺乏大规模配对数据集。现有海报生成数据集仅包含几百个论文-海报对，不足以支持数据驱动的方法。SciPostGen 通过结合自动标注和人工校正，将规模扩大到 18,097 对，同时提供论文（OCR 文本、图表包围框）和海报（8 类布局元素标注）的细粒度标注。

分析发现论文结构与海报布局存在可利用的相关性：论文文本量越多，海报中图元素越少（Spearman \(\rho < -0.40\)）；论文图表数量与海报图元素正相关。这启发了检索增强的布局生成策略——检索结构相似的论文的海报布局作为生成参考。

方法详解¶

整体框架¶

系统由两个模块组成：(1) 布局检索器——基于对比学习训练的论文编码器和布局编码器，将论文页面图像和海报布局图像映射到共享嵌入空间，推理时检索 top-3 最相似布局；(2) 布局生成器——基于 LLM（Llama-3.1-8B-Instruct），接收检索到的布局和论文结构信息作为输入，输出最终布局（类别+归一化包围框）。支持自动和半自动两种模式。

关键设计¶

对比学习布局检索器:
- 功能：检索与给定论文结构匹配的海报布局
- 核心思路：论文编码器将多页论文 PDF 渲染为图像序列，每页经 DiT（文档图像 Transformer）提取 patch 特征，两级注意力池化（页内→页间）聚合为论文嵌入 \(x^p\)。布局编码器对布局渲染图像做类似处理得到 \(x^l\)。用 InfoNCE 对比损失训练，配对的论文-布局为正样本，batch 内其他为负样本。推理时用余弦相似度从训练集检索 top-3 布局
- 设计动机：论文结构（文本量、图表数）与海报布局存在中等相关性，直接用图像编码可隐式捕获这些结构特征。检索多个布局而非单一模板，适应海报设计的多样性
LLM 布局生成器:
- 功能：整合检索结果和论文结构约束，生成最终布局
- 核心思路：将论文结构（章节数、图表数量和宽高比）和检索到的布局以文本序列形式输入 LLM，指示模型生成布局序列 \(L = \{(c_i, b_i)\}\)。在半自动模式下还接收用户指定的部分布局约束（如预放置的两个最大元素），模型需在约束内补全剩余元素
- 设计动机：LLM 具有灵活整合非结构化输入的能力，比 GAN/Transformer/Diffusion 等专用布局模型更容易融合检索结果、论文结构和用户约束等异构信息
半自动约束机制:
- 功能：模拟实际工作流，创作者放置主要元素后系统补全剩余布局
- 核心思路：取 gold layout 中面积最大的两个元素作为约束条件输入，系统生成剩余元素。这模拟了"人先定大框架、AI 补充细节"的协作模式
- 设计动机：完全自动生成难以满足个性化需求，半自动模式在实用性和自动化之间取得平衡

损失函数 / 训练策略¶

检索器用 InfoNCE 对比损失训练：\(\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N} \log \frac{\exp(s_{ii})}{\sum_{j=1}^{N}\exp(s_{ij})}\)，其中 \(s_{ij}\) 为论文和布局嵌入的余弦相似度。生成器基于 Llama-3.1-8B-Instruct 微调，使用 SciPostGen 训练集的 silver layout 标注。

实验关键数据¶

主实验¶

布局检索性能（论文→布局检索）

方法	Recall@1	Recall@3	Recall@5
Random	0.05	0.15	0.25
仅论文编码器	4.83	12.12	18.11
完整检索器	8.20	19.87	28.37

布局生成质量（FID / mIoU / Alignment）

配置	FID ↓	mIoU ↑	Overlap ↓
无检索	基线	基线	基线
+ 检索增强	改善	改善	减少
+ 检索 + 约束（半自动）	最优	最优	最低

消融实验¶

配置	检索 Recall@3	生成 FID	说明
仅图像编码（DiT）	19.87	-	基础检索性能
仅布局标注编码	更低	-	图像编码优于结构化标注
无检索直接生成	-	更高	无参考布局质量差
检索 top-1	-	中等	单模板多样性不足
检索 top-3	-	最低	多模板提供更好指导

关键发现¶

论文结构与海报布局的 Spearman 相关性为中等水平（|ρ| 约 0.40-0.50），说明结构信息有用但不足以完全决定布局
图像编码比直接用布局标注作为输入效果更好——图像隐式保留了空间关系
半自动模式下约束的加入显著提升了布局与真实布局的一致性
silver（自动标注）和 gold（人工校正）布局的 mAP@0.50:0.95 为 0.53，属中等一致性

亮点与洞察¶

数据集构建方法论值得借鉴：自动标注（Azure Document Intelligence + Nougat OCR）+ 人工校正验证/测试集，兼顾规模和质量。在标注资源有限时的实用策略
"论文结构→海报布局"这一研究问题本身有新意：之前工作聚焦内容摘要，本文首次系统研究结构到布局的映射关系，定量分析了两者的相关性
检索增强策略：通过检索相似论文的布局作为"参考设计"来指导生成，比从零生成更可控且多样性更好

局限与展望¶

仅生成布局（包围框），不生成实际海报内容（文字、图片），离端到端海报生成仍有距离
数据集限于计算机科学会议（CVPR/ICLR/ICML/NeurIPS），其他学科海报风格可能不同
检索 Recall@1 仅 8.2%，说明论文到布局的映射关系仍较弱，可能需要更丰富的论文表示
未评估生成布局的主观质量（如可读性、美观度），仅用数值指标衡量

评分¶

新颖性: ⭐⭐⭐⭐ 研究问题新颖（论文→海报布局），数据集有价值，但方法本身是标准的检索增强+LLM 组合
实验充分度: ⭐⭐⭐ 缺乏用户研究和主观评估，检索和生成的定量指标不够全面
写作质量: ⭐⭐⭐⭐ 数据集构建和分析部分清晰，整体结构合理
价值: ⭐⭐⭐⭐ 数据集对社区有价值，框架为自动化学术海报生成奠定基础