VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents¶

日期: 2026-03-16
arXiv: 2603.15118
代码: GitHub / Dataset
领域: 多模态/VLM / 文档理解
关键词: 文档抽取, 结构化输出, JSON Schema, 小模型部署, Benchmark

一句话总结¶

提出 Reverse Annotation 流水线——从可填充 PDF 模板出发注入合成值生成确定性 ground truth，构建 1,777 篇文档×1,771 个独立 schema×四种输入模态的文档结构化抽取基准 VAREX，在 20 个模型上揭示 <4B 模型的主要瓶颈是结构化输出合规性（schema echo 导致 45-65pp 精度损失）而非视觉能力，且 2B 微调即可弥补。

研究背景与动机¶

领域现状: 从表单/发票等结构化文档中抽取机器可读记录是企业自动化的核心能力。现有基准如 FUNSD（199 表单）、CORD（11K 收据）、SROIE 等使用固定少量模板+人工标注，VRDU（2 个 schema）和 DocILE（1 个 schema）虽增加了模板多样性但 schema 固定，无法评估模型对未见文档结构的泛化能力。
现有痛点: 三个根本问题——(a) 人工标注质量在大规模下无法保证，标注错误率未量化；(b) 固定 schema 导致评测偏向记忆而非泛化；(c) 所有现有基准只从单一输入表示评估，无法系统分析输入模态（纯文本 vs 布局文本 vs 图像）对抽取精度的影响。
核心矛盾: 实际部署中许多表单抽取任务成本敏感、延迟要求高，需要 ≤4B 的设备端模型，但没有基准系统评估小模型在这个任务上的表现——它们的失败到底是根本能力不足还是可通过训练解决的指令遵循缺陷？
切入角度: 与其标注已有文档（正向标注），不如反过来——从可填充 PDF 模板出发，程序化填入确定性值，让 ground truth 天然准确，同时用 LLM 自动发现语义 schema，再配合三阶段质检控制 schema 映射质量。
核心 idea: Reverse Annotation——从模板填充合成数据生成确定性 ground truth，解耦值级真值（确定性）和 schema 映射（LLM 推断+可审计），产出四种受控模态，实现真正的模态消融。

方法详解¶

整体框架¶

四阶段 Reverse Annotation 流水线： - 输入：3,300 份美国政府可填充 PDF 模板 - Stage 1: 模板收集+种子填充（确定性占位符 TXT_001, TXT_002...） - Stage 2: Schema 发现（24B LLM 从占位符映射语义字段名） - Stage 3: 数据换肤（用 Faker + LLM 生成真实合成值替换占位符） - Stage 4: 四模态导出（纯文本 P / 空间文本 S / 图像 V / S+V） - 最终输出：1,777 文档 × 1,771 独立 schema × 21,084 评估字段

关键设计¶

Reverse Annotation（反向标注）:
- 做什么：用程序化填写代替人工标注，生成确定性 ground truth
- 核心思路：每个 PDF 字段用唯一占位符（TXT_001）追踪。LLM 读取带占位符的表单生成 JSON Schema，建立占位符→语义字段的可追溯映射。然后用真实合成值替换占位符，值被写入已知 widget，因此值级 GT 是确定性的
- 设计动机：传统标注的错误不可审计，而 Reverse Annotation 的 schema 映射错误可通过占位符追溯链条审查和修正——这是关键创新点
四模态受控导出:
- 做什么：从同一份填充 PDF 生成四种输入表示
- Plain Text (P)：阅读顺序的纯文本，无空间信息
- Spatial Text (S)：用空白字符保持列对齐的布局文本
- Image (V)：200 DPI PNG 渲染
- S+V：同时提供布局文本和图像
- 设计动机：因为四种表示来自同一 PDF，性能差异纯粹反映模型处理能力而非信息不对称，这是首个支持真正模态消融的文档抽取基准
三阶段质量保证（QA）:
- Phase 1（自动筛查）：在提取文本中搜索每个 GT 值验证其出现。1,946→1,919 文档通过（98.6%），排除 142 个字段级问题
- Phase 2（Frontier 模型审计）：Claude Sonnet 审核所有字段，96.8% 通过，428 文档被标记需人工复审
- Phase 3（专家人工复审）：移除 37 文档 + 排除 468 字段。最终估计字段级准确率 ~98.5%
结构感知评估协议:
- 三类文档：Flat（无嵌套,17%）、Nested（嵌套对象,64%）、Table（对象数组,19%）
- 顺序无关的数组匹配：用匈牙利算法最优匹配预测和 GT 数组元素，不因行遍历顺序不同而惩罚
- 指标：Exact Match (EM) 为主 + ANLS (Average Normalized Levenshtein Similarity) 为辅

评估设置¶

零样本评估，最小化 prompt，temperature=0
20 个模型：frontier API（Gemini 2.5 Pro/Flash, GPT-4o）+ 大型开源（Qwen3-VL 8B, Llama 4, Ministral）+ 小型 VLM（2-4B）+ 低容量（≤2B）

实验关键数据¶

主实验 (Image V 模态)¶

模型	规模	All EM%	Flat	Nested	Table	完美文档率
Gemini 2.5 Pro	API	98.0	97.3	98.2	97.7	82.8%
Gemini 2.5 Flash	API	97.3	96.9	97.7	96.5	81.0%
Qwen3-VL	8B	96.6	96.6	97.3	95.0	78.2%
GPT-4o	API	94.8	95.1	95.3	93.5	64.3%
NuExtract 2.0†	2B	90.8	93.1	91.9	87.3	52.7%
InternVL3.5	2B	85.6	89.6	86.1	82.7	42.4%
Qwen3-VL	2B	34.2*	93.3	26.8	29.0	29.3%
Qwen2-VL (base)	2B	9.7	16.4	9.0	8.9	4.3%

†抽取专用微调 *Schema echo 导致严重降级

模态消融 (EM%)¶

模型	P(纯文本)	S(空间文本)	V(图像)	S+V	P→S增益
Gemini 2.5 Flash	93.3	96.5	97.3	97.8	+3.2
Qwen3-VL 8B	88.0	94.4	96.6	97.1	+6.4
InternVL3.5 2B	75.8	88.9	85.6	89.4	+13.1
Qwen 2.5 (text-only)	72B	91.8	95.9	—	—

关键发现¶

Schema echo 是 <4B 模型的主导瓶颈：Qwen3-VL 2B 在合规文档上达 91.5% EM（接近大模型水平），但 schema echo 导致整体仅 34.2%，损失 57pp。内联 $defs 引用后恢复至 91.8%（+64pp）
布局文本是最大精度提升来源：P→S 增益 3-18pp，超过像素级视觉线索。纯文本 Qwen 2.5 72B 用空间文本达 95.9%，超过 GPT-4o 图像模态 94.8%
2B 微调即可解决合规缺陷：NuExtract 2.0 通过抽取专用微调从 base 的 9.7% 提升到 90.8%（+81pp），零 schema echo
分辨率鲁棒性差异巨大：50 DPI 下 Gemini 2.5 Pro 仅降 1.7pp，而开源 8-17B 模型暴跌 38-40pp

亮点与洞察¶

Reverse Annotation 范式：从"标注文档"翻转为"从模板生成文档"，解耦值级确定性和 schema 级可审计性，是数据质量保障的精巧设计，可推广到发票/合同等其他文档类型的基准构建
Schema echo 的诊断价值：揭示了小模型的失败本质是指令遵循而非感知能力，这个洞察对工业部署有直接指导意义——不需要更大模型，只需要针对性的输出格式训练
空间文本 > 图像的反直觉发现：在数字化原生 PDF 上，简单的空白字符对齐就能超过视觉编码器的像素理解，这对文档处理 pipeline 设计有实际意义——好的 OCR+布局解析比端到端 VLM 可能更高效

局限性 / 可改进方向¶

仅评估单页英文美国政府表单，缺乏多语言、手写、扫描噪声等场景
Schema 复杂度受 24B 发现模型限制，嵌套很少超过两层
Table 文档中位只有 3 行，远低于企业实际规模
95% 以上精度区间受残余标注噪声限制（~1.5%），难以精确区分顶层模型
Faker 生成的合成值分布与真实数据不同，可能低估某些抽取难度

评分¶

新颖性: ⭐⭐⭐⭐ Reverse Annotation 是巧妙的基准构建范式，四模态消融也是首创
实验充分度: ⭐⭐⭐⭐⭐ 20 个模型×四种模态×三类结构，消融和分析极其细致
写作质量: ⭐⭐⭐⭐⭐ 论述清晰有条理，发现的表述精准，表格设计合理
价值: ⭐⭐⭐⭐ 对文档抽取领域和小模型部署有直接实用价值，schema echo 诊断是重要贡献