LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis¶

日期: 2026-03-18
arXiv: 2603.17265
领域: 多模态/文档理解
关键词: 文档布局分析, 结构错误检测, 文档AI, 评估基准, LLM推理, 细粒度诊断

一句话总结¶

首次定义文档布局分析中 8 种结构错误类型（缺失、幻觉、大小错误、分割、合并、重叠、重复、误分类），通过可控合成错误注入构建 LED 基准（5K 文档、70K 元素），用三层递进任务评估多模态模型，揭示即使 GPT-4V 在元素级诊断上也极弱（F1<0.35），填补文档评估十年空白。

领域现状: 传统 DLA 评估用 IoU/mAP 等几何度量——衡量边界框重叠度，完全忽略文档的语义结构。两个表格被错误合并成一个大框，IoU 可能还不错，但下游 OCR 会把两张表混在一起，信息抽取失败。
现有痛点的三个层面：
- 无法诊断根因：传统评估只输出"准确率 87%"，无法回答"哪类错误最多？小目标漏检吗？"
- 缺乏可解释性：生产系统出错需要知道是漏检、误分类还是分割错——IoU 无法指导迭代改进
- 文档语义结构被忽视：区别于自然图像检测，文档的正确性在于逻辑结构而非几何精度
核心 idea: 系统定义 8 种文档特定结构错误，用合成注入构建可控基准，通过三层递进任务（文档级检测→错误分类→元素级诊断）评估真实结构理解能力。

每种错误有精确的几何/语义定义和对应的合成注入方法（概率来自实际商用 DLA 系统输出统计）。

T1 文档级检测：二分类——页面是否含结构错误 T2 文档级分类：多标签——预测 8 维错误向量 T3 元素级分类：细粒度——每个检测框分类为 8 种错误或"正常"

任务	GPT-4V P1	GPT-4V P3	LLaVA-7B P3
T1 (检测 Acc)	72.5%	74.1%	61.4%
T2 (分类 F1)	0.58	0.61	0.44
T3 (元素级 F1)	<0.35	<0.35	<0.25

配置	T1 Acc	T2 F1	T3 F1
P1 (JSON)	78%	0.65	0.38
P2 (纯视觉)	72%	0.58	0.31
P3 (混合)	76%	0.62	0.36

核心贡献：8 种结构错误的系统化定义 + 三层分层诊断框架 + 可控合成注入，填补文档布局评估的细粒度空白