跳转至

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

会议: ACL 2025 (Long Paper)
arXiv: 2412.18424
代码: https://github.com/dengc2023/LongDocURL
领域: 多模态VLM
关键词: 长文档理解, 多模态文档QA, 跨元素定位, LVLM评测, 文档结构解析

一句话总结

提出LongDocURL基准(396篇文档、2,325 QA对、33,000+页,含理解/推理/定位三类20个子任务),通过半自动构建流程生成高质量长文档评测数据,26种配置的实验结果显示最强GPT-4o仅64.5分,开源最高30.6分,远低于人类84.8分。

背景与动机

现有文档理解基准存在三大不足:(1) 仅处理少量页面——DocVQA仅单页,MP-DocVQA不超过20页,而实际文档经常50-150页甚至更长;(2) 缺少对文档元素交互关系的评测——如段落→标题、图→表的跨元素定位能力几乎未被评测;(3) 任务多样性不足——主要关注OCR和简单QA,忽略数值推理和定位能力。MMLongBench-Doc虽支持较长文档但仅~1k有效样本且仅33%问题涉及跨页信息。

核心问题

如何构建一个能全面评测LVLM在长文档场景下的理解(Understanding)、推理(Reasoning)和跨元素定位(Locating)能力的基准?

方法详解

整体框架

LongDocURL定义三大任务类别 × 四种证据元素类型(文本Text、布局Layout、图表Figure、表格Table)形成20个子任务。通过四阶段半自动流程构建:(1) 提取与过滤→筛选合适长度的PDF文档;(2) QA生成→多步迭代GPT-4o生成QA对;(3) 自动验证→三标准(任务相关性、格式正确性、忠实性)筛选;(4) 人工验证→标注员复核+交叉检查。

关键设计

  1. 三类任务的系统化定义:Understanding(直接从文档中提取答案)→ Reasoning(需要在提取信息基础上做计算/比较/总结等数值推理)→ Locating(跨元素定位,如给定段落摘要找对应标题、将图表信息与表格关联),其中Locating是全新提出的评测维度,占37.1%。

  2. 四类跨元素定位子任务:Cross-Title(跨标题定位)、Cross-Table(跨表格定位)、Para-Title(段落-标题定位)、Figure-Table(图-表定位),评测模型在不同元素类型间切换推理的能力。

  3. 半自动高质量构建流程:先用PyMuPDF和Docmind解析PDF为"text-type-bbox"三元组(区域级元素),再设计分步prompt让GPT-4o基于结构化文本生成QA。自动验证筛除45-75%不合格数据(取决于任务类型),人工阶段21名全职标注员+6名专业人员交叉检查。

损失函数 / 训练策略

纯评测,无训练。评测采用三阶段协议:自由回答→GPT-4o提取答案→规则打分(按String/Integer/Float/List/None分类计分)。图像输入用cut-off范式(截取答案证据周围30页)。

实验关键数据

LVLM(图像输入): | 模型 | Understanding | Reasoning | Locating | Total | |------|------|------|------|------| | GPT-4o | 68.6 | 59.9 | 59.6 | 64.5 | | Gemini-1.5-Pro | 55.7 | 43.4 | 46.4 | 50.9 | | Qwen-VL-Max | 58.8 | 43.9 | 36.0 | 49.5 | | Qwen2-VL-7B (开源最佳) | 36.9 | 24.8 | 22.6 | 30.6 | | LLaVA-OneVision-Chat-7B | 31.7 | 20.9 | 18.7 | 25.0 | | InternLM-XC2.5-7B | 3.6 | 1.8 | 0.7 | 2.4 | | Human | - | - | - | 84.8 |

LLM(OCR文本输入,PyMuPDF): | 模型 | Total | |------|------| | O1-preview | 35.8 | | GPT-4o | 34.7 | | Qwen2.5-72B | 32.9 |

消融实验要点

  • 图像 vs 文本输入:LVLM图像输入(64.5)远优于LLM文本输入(34.7),因为文本解析丢失了表格/图表的结构和视觉信息。
  • OCR引擎影响巨大:Docmind解析的文本比PyMuPDF高25+分(闭源模型),因为后者无法保持表格markdown格式。
  • cut-off vs merge:cut-off(截取30页含证据区域)优于merge(拼接所有页面),因为重点信息密度更高。
  • 错误分析(GPT-4o):感知错误占32.7%(元素识别/解析不准)、格式不一致20.6%、推理错误16.8%、证据不完整/幻觉/无关回答等共29.9%。
  • Locating任务最难:开源模型在Locating上远低于Understanding和Reasoning,甚至不到10分(如LLaVA-Next 3.8分),说明跨元素交互能力严重不足。

亮点

  • Locating(跨元素定位)是全新的评测维度,填补了现有benchmark的空白
  • 半自动构建流程可复用——特别是结构化元素解析→多步QA生成→自动+人工双验证的pipeline
  • 20个细分子任务的设计允许对模型能力做非常精细的诊断
  • 覆盖8种文档类型(报告、手册、书籍、论文等),代表性强
  • 33,000+页的规模远超现有同类benchmark

局限性 / 可改进方向

  • 文档类型仍有限(未覆盖发票、法律文件、医疗报告等特殊领域)
  • cut-off范式给模型提供了证据位置的先验信息,实际场景需要模型自行定位
  • 仅评测了理解/推理/定位,未包括文档编辑、信息抽取、文档摘要等任务
  • 未探索RAG系统在该benchmark上的表现

与相关工作的对比

  • vs MMLongBench-Doc (Ma et al. 2024):MMLongBench仅1,082 QA对/47.5页均/33%跨页/22.6%跨元素;LongDocURL有2,325 QA对/85.6页均/52.9%跨页/37.1%跨元素,且新增Locating任务。
  • vs M-Longdoc (Chia et al. 2024):M-Longdoc页数更多(210.8页)但仅851个QA对,无Locating评测。
  • vs DocVQA/MP-DocVQA:单页/短文档基准,模型正确率已>95%,不再有区分力。

启发与关联

  • 跨元素定位能力对RAG系统设计有直接指导意义——检索不应只看文本块,还需关联表格、图、标题等结构元素
  • 文档结构解析是当前LVLM的主要瓶颈(感知错误占32.7%),可能需要专门的布局感知预训练
  • 切割vs拼接的对比实验对多模态RAG系统的chunk策略有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ Locating任务维度新颖,半自动流程有工程价值,但整体仍是benchmark贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 26种配置、20个子任务的细粒度评测极为全面
  • 写作质量: ⭐⭐⭐⭐ 结构化好,表格信息密度大,但部分分析可以更深入
  • 价值: ⭐⭐⭐⭐ 长文档理解是LVLM的重要应用场景,该benchmark填补了多个评测空白