LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating¶

会议: ACL 2025 (Long Paper)
arXiv: 2412.18424
代码: https://github.com/dengc2023/LongDocURL
领域: 多模态VLM
关键词: 长文档理解, 多模态文档QA, 跨元素定位, LVLM评测, 文档结构解析

一句话总结¶

提出LongDocURL基准（396篇文档、2,325 QA对、33,000+页，含理解/推理/定位三类20个子任务），通过半自动构建流程生成高质量长文档评测数据，26种配置的实验结果显示最强GPT-4o仅64.5分，开源最高30.6分，远低于人类84.8分。

背景与动机¶

现有文档理解基准存在三大不足：(1) 仅处理少量页面——DocVQA仅单页，MP-DocVQA不超过20页，而实际文档经常50-150页甚至更长；(2) 缺少对文档元素交互关系的评测——如段落→标题、图→表的跨元素定位能力几乎未被评测；(3) 任务多样性不足——主要关注OCR和简单QA，忽略数值推理和定位能力。MMLongBench-Doc虽支持较长文档但仅~1k有效样本且仅33%问题涉及跨页信息。

核心问题¶

如何构建一个能全面评测LVLM在长文档场景下的理解(Understanding)、推理(Reasoning)和跨元素定位(Locating)能力的基准？

方法详解¶

整体框架¶

LongDocURL定义三大任务类别 × 四种证据元素类型（文本Text、布局Layout、图表Figure、表格Table）形成20个子任务。通过四阶段半自动流程构建：(1) 提取与过滤→筛选合适长度的PDF文档；(2) QA生成→多步迭代GPT-4o生成QA对；(3) 自动验证→三标准（任务相关性、格式正确性、忠实性）筛选；(4) 人工验证→标注员复核+交叉检查。

关键设计¶

三类任务的系统化定义：Understanding（直接从文档中提取答案）→ Reasoning（需要在提取信息基础上做计算/比较/总结等数值推理）→ Locating（跨元素定位，如给定段落摘要找对应标题、将图表信息与表格关联），其中Locating是全新提出的评测维度，占37.1%。
四类跨元素定位子任务：Cross-Title（跨标题定位）、Cross-Table（跨表格定位）、Para-Title（段落-标题定位）、Figure-Table（图-表定位），评测模型在不同元素类型间切换推理的能力。
半自动高质量构建流程：先用PyMuPDF和Docmind解析PDF为"text-type-bbox"三元组（区域级元素），再设计分步prompt让GPT-4o基于结构化文本生成QA。自动验证筛除45-75%不合格数据（取决于任务类型），人工阶段21名全职标注员+6名专业人员交叉检查。

损失函数 / 训练策略¶

纯评测，无训练。评测采用三阶段协议：自由回答→GPT-4o提取答案→规则打分（按String/Integer/Float/List/None分类计分）。图像输入用cut-off范式（截取答案证据周围30页）。

实验关键数据¶

LVLM（图像输入）： | 模型 | Understanding | Reasoning | Locating | Total | |------|------|------|------|------| | GPT-4o | 68.6 | 59.9 | 59.6 | 64.5 | | Gemini-1.5-Pro | 55.7 | 43.4 | 46.4 | 50.9 | | Qwen-VL-Max | 58.8 | 43.9 | 36.0 | 49.5 | | Qwen2-VL-7B (开源最佳) | 36.9 | 24.8 | 22.6 | 30.6 | | LLaVA-OneVision-Chat-7B | 31.7 | 20.9 | 18.7 | 25.0 | | InternLM-XC2.5-7B | 3.6 | 1.8 | 0.7 | 2.4 | | Human | - | - | - | 84.8 |

LLM（OCR文本输入，PyMuPDF）： | 模型 | Total | |------|------| | O1-preview | 35.8 | | GPT-4o | 34.7 | | Qwen2.5-72B | 32.9 |

消融实验要点¶

图像 vs 文本输入：LVLM图像输入(64.5)远优于LLM文本输入(34.7)，因为文本解析丢失了表格/图表的结构和视觉信息。
OCR引擎影响巨大：Docmind解析的文本比PyMuPDF高25+分（闭源模型），因为后者无法保持表格markdown格式。
cut-off vs merge：cut-off（截取30页含证据区域）优于merge（拼接所有页面），因为重点信息密度更高。
错误分析（GPT-4o）：感知错误占32.7%（元素识别/解析不准）、格式不一致20.6%、推理错误16.8%、证据不完整/幻觉/无关回答等共29.9%。
Locating任务最难：开源模型在Locating上远低于Understanding和Reasoning，甚至不到10分（如LLaVA-Next 3.8分），说明跨元素交互能力严重不足。

亮点¶

Locating（跨元素定位）是全新的评测维度，填补了现有benchmark的空白
半自动构建流程可复用——特别是结构化元素解析→多步QA生成→自动+人工双验证的pipeline
20个细分子任务的设计允许对模型能力做非常精细的诊断
覆盖8种文档类型（报告、手册、书籍、论文等），代表性强
33,000+页的规模远超现有同类benchmark

局限性 / 可改进方向¶

文档类型仍有限（未覆盖发票、法律文件、医疗报告等特殊领域）
cut-off范式给模型提供了证据位置的先验信息，实际场景需要模型自行定位
仅评测了理解/推理/定位，未包括文档编辑、信息抽取、文档摘要等任务
未探索RAG系统在该benchmark上的表现

与相关工作的对比¶

vs MMLongBench-Doc (Ma et al. 2024)：MMLongBench仅1,082 QA对/47.5页均/33%跨页/22.6%跨元素；LongDocURL有2,325 QA对/85.6页均/52.9%跨页/37.1%跨元素，且新增Locating任务。
vs M-Longdoc (Chia et al. 2024)：M-Longdoc页数更多(210.8页)但仅851个QA对，无Locating评测。
vs DocVQA/MP-DocVQA：单页/短文档基准，模型正确率已>95%，不再有区分力。

启发与关联¶

跨元素定位能力对RAG系统设计有直接指导意义——检索不应只看文本块，还需关联表格、图、标题等结构元素
文档结构解析是当前LVLM的主要瓶颈（感知错误占32.7%），可能需要专门的布局感知预训练
切割vs拼接的对比实验对多模态RAG系统的chunk策略有参考价值

评分¶

新颖性: ⭐⭐⭐⭐ Locating任务维度新颖，半自动流程有工程价值，但整体仍是benchmark贡献
实验充分度: ⭐⭐⭐⭐⭐ 26种配置、20个子任务的细粒度评测极为全面
写作质量: ⭐⭐⭐⭐ 结构化好，表格信息密度大，但部分分析可以更深入
价值: ⭐⭐⭐⭐ 长文档理解是LVLM的重要应用场景，该benchmark填补了多个评测空白