HybriDLA: Hybrid Generation for Document Layout Analysis¶

会议: AAAI 2026
arXiv: 2511.19919
代码: GitHub
领域: 文档分析 / 目标检测
关键词: 文档版面分析, 扩散模型, 自回归生成, 混合解码, 多尺度特征融合

一句话总结¶

HybriDLA 首次将扩散式边框精炼与自回归查询扩展统一在一个解码层中，模拟人类由粗到细的阅读策略来处理文档版面分析，在 DocLayNet 上纯视觉模型达到 83.5% mAP，逼近多模态系统。

研究背景与动机¶

文档版面分析（DLA）是文档理解和信息抽取的基础任务。当前文档形式日趋复杂，同一页面中的版面元素数量可能从 2 个到 200 个不等。传统方法如 Faster R-CNN 依赖固定数量的候选框，DETR 类方法则预设固定数量的可学习查询。当文档中实际元素数量与预设查询数量差异较大时，固定查询模式要么漏检、要么引入大量无效的"空对象"查询，造成效率和精度的双重损失。

现有的扩散式检测器（如 DiffusionDet）虽然引入了迭代精炼机制，但仍依赖固定大小的初始噪声框池；自回归检测器（如 Pix2Seq）可以处理变长序列，但计算代价线性增长且缺乏空间精炼能力。

HybriDLA 的核心出发点是模拟人类阅读文档的策略：先大致扫描整个页面把握主要区域，然后逐步深入每个区域，动态调整注意力的粒度。据此，作者将扩散精炼（负责空间坐标的迭代去噪）和自回归扩展（负责语义感知和动态生成新查询）两种范式互补地融合在统一的解码器中。

方法详解¶

整体框架¶

HybriDLA 采用两阶段层级生成流水线：多尺度特征融合编码器（Feature Fusion Encoder）+ 混合生成解码器（Hybrid Generative Decoder）。编码器处理骨干网络提取的多尺度特征，生成粗略版面先验；解码器利用这些先验进行自回归查询扩展和扩散式边框精炼，逐层从粗到细地输出精确的版面元素和语义标签。

关键设计¶

多尺度特征融合编码器（FFE）:
- 功能：将骨干网络输出的多尺度特征图 \(F_{l=1}^{L}\) 融合为统一的空间感知表示 \(G\)
- 核心思路：分为局部特征编码和跨尺度融合两步。局部编码 \(H_l = \phi(F_l)\) 通过自注意力+卷积组合在每个尺度内捕获长距离依赖和局部纹理模式；跨尺度融合 \(G = \Psi(H_{l=1}^L)\) 通过跨尺度注意力和横向卷积层实现不同尺度间的自适应信息交换，使精细特征图获取全局上下文、粗糙特征图获取细节信息
- 设计动机：文档版面元素尺度差异极大（标题、脚注、图表大小迥异），单尺度表示不足以兼顾全局结构和局部细节
自回归查询扩展（AQE）:
- 功能：将查询生成过程建模为自回归过程，动态决定生成多少查询并确定其语义内容
- 核心思路：给定图像特征 \(X\)，模型定义变长查询序列 \(Q = (q_1, q_2, \dots, q_N)\) 的联合分布，分解为 \(P(Q|X) = \prod_{t=1}^{N} P(q_t | X, q_{1:t-1}) \cdot P(\text{EOS} | X, q_{1:N})\)。每一步根据已有查询上下文决定下一个查询，通过学习到的 EOS 停止准则自适应终止扩展
- 设计动机：不同文档的元素数量差异巨大，固定查询数量的方法（如 DETR）天然受限。自回归方式让模型"查询查询自身"，根据数据复杂度动态调整查询数
扩散式精炼（DR）:
- 功能：将版面预测建模为隐式去噪操作，每个解码层对当前预测施加残差修正
- 核心思路：更新规则为 \(\hat{y}^{(t+1)} = \hat{y}^{(t)} + \Delta^{(t)}\)，其中 \(\Delta^{(t)}\) 为第 \(t\) 步的预测残差。解码层的自注意力让查询共享上下文，交叉注意力整合视觉特征，前馈网络施加残差修正
- 设计动机：直接预测精确坐标困难，迭代去噪可逐步消除空间误差。训练时使用含扰动的真值框初始化部分查询（去噪查询），配合逐层中间监督，加速收敛

损失函数 / 训练策略¶

采用匈牙利匹配的集合预测损失（与 DETR 一致）
去噪训练：部分查询用扰动后的 ground-truth 初始化，强制网络学习从退化版本恢复正确版面
逐层中间监督：每个解码层都有辅助损失和辅助预测头，确保中间预测结果逼近真值
统一 batch size 40 训练所有模型，保证公平对比

实验关键数据¶

主实验（DocLayNet）¶

方法类别	骨干网络	检测器	mAP(%)
传统区域法	ResNet-101	Mask R-CNN	73.5
DETR 类	InternImage	RoDLA	80.5
DETR 类（多模态）	—	DLAFormer	83.8
扩散式	Swin-L	DiffusionDet	76.3
自回归	ViT-L	Pix2Seq	72.5
混合（本文）	InternImage	HybriDLA	83.5
混合（本文）	Swin-L	HybriDLA	80.4
混合（本文）	ResNet-50	HybriDLA	74.4

HybriDLA 以纯视觉输入达到 83.5% mAP，仅差多模态 DLAFormer 0.3%。与同骨干网络的其他方法相比，平均提升约 3% mAP。

主实验（M6Doc，74类）¶

方法类别	骨干网络	检测器	mAP(%)
传统区域法	DiT	Cascade R-CNN	70.2
DETR 类	InternImage	RoDLA	70.0
扩散式	Swin-L	DiffusionDet	62.7
混合（本文）	InternImage	HybriDLA	71.4
混合（本文）	ViT-L	HybriDLA	68.6

消融实验¶

配置	mAP(%)	说明
DETR baseline（ResNet-50）	74.2	无 AQE
+ AQE	74.4	自回归扩展带来边际提升
Deformable DETR + AQE	76.3	搭配更强基线，AQE 增益更明显
DINO + AQE	76.8	+1.5%
DE + DR + AQE（Swin-L）	78.1	标准编码器
FFE + AQE（Swin-L）	79.1	FFE 比 DE 高 1.0%
FFE + DR + AQE（Swin-L）	80.4	DR 再提 1.3%
FFE + DR + AQE（InternImage）	83.5	最佳

关键发现¶

AQE 的增益在更强的基线检测器上更加显著，表现出互补性
FFE 在特征丰富的大骨干网络上收益明显（Swin-L: +2.3% vs DE），小模型反而可能下降
DR 在几乎所有骨干上提供一致增益（0.8%~1.3%），但 ResNet-50 上无变化
查询数量分析显示每种模型有最优查询预算：小模型 30 个扩展查询即可饱和，大模型需 300 个

亮点与洞察¶

首次将扩散和自回归两种生成范式统一到文档版面分析任务中，概念新颖
人类认知启发的由粗到细策略有清晰的方法论对应：AQE 对应"扫描页面发现新区域"，DR 对应"聚焦细节精确定位"
纯视觉模型几乎追平多模态系统（83.5% vs 83.8%），说明视觉特征的挖掘仍有很大空间
架构无关设计：可与 ResNet、ViT、Swin、InternImage 等多种骨干无缝集成

局限与展望¶

仅使用视觉输入，未利用 OCR 文本和布局坐标等多模态信息，可能在语义消歧上有短板
混合生成机制的推理计算代价较高，限制了实时处理和大规模部署
未来可引入多模态特征或元数据来增强语义理解
可通过模型蒸馏或架构优化降低推理开销

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐