DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering¶

日期: 2026-03-12
arXiv: 2603.11798
代码: 有
领域: LLM Agent / 多文档QA
关键词: multi-document QA, schema discovery, structured extraction, relational reasoning, agent

一句话总结¶

提出 DocSage，一个面向多文档多实体问答（MDMEQA）的端到端 Agent 框架——通过动态 Schema 发现（ASK 算法交互式推断查询特定的最小可连接模式）→ 逻辑感知的结构化抽取（CLEAR 机制跨记录逻辑一致性校验）→ Schema 引导的关系推理（SQL 驱动的精确事实定位和多跳推理），在两个 MDMEQA benchmark 上超越 SOTA 长上下文 LLM 和 RAG 系统 27%+。

研究背景与动机¶

领域现状: 多文档多实体问答要求模型追踪分散在多个文档中的隐式逻辑关系，是知识密集型 NLP 的核心任务。
现有痛点: (i) 标准 RAG 的向量相似度检索太粗粒度，遗漏关键事实；(ii) 图 RAG 难以高效整合复杂碎片化关系网络；(iii) 两者都缺乏 schema 感知——无法系统组织分散的实体和关系。
核心 idea: 将非结构化文档动态转化为 query 特定的结构化关系表，然后用 SQL 级精确推理替代 LLM 注意力在长文本中的稀释。

方法详解¶

整体框架¶

查询 + 文档集 → Module 1: Schema Discovery（ASK 算法）→ Module 2: Structured Extraction（CLEAR 校验）→ Module 3: Relational Reasoning（SQL 编译 + 证据回溯）→ 最终答案。

关键设计¶

Interactive Schema Discovery（ASK 算法）:
- 做什么：动态推断查询特定的最小可连接 schema——表结构 + 实体 + 属性 + 关系
- 核心思路：初始 schema 假设 → 一致性分析发现三类不确定性（实体对齐冲突/属性值异常/关系缺失）→ 生成澄清问题做针对性检索 → 迭代更新 schema 直到收敛
- 设计动机：MDMEQA 中 schema 不预定义，需要从查询和文档中自动发现
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练
Logic-Aware Structured Extraction（CLEAR 机制）:
- 做什么：将非结构化文本填充到 schema 中生成关系表，同时保证抽取质量
- 两级校验：Level A 单点置信度（LoRA 适配 + 保形预测阈值）；Level B 跨记录逻辑一致性（函数依赖/时间约束/数值范围/外键完整性）
- 低置信或逻辑违反的元组触发纠正工作流（更强 LLM 重抽取或回溯检索）
Schema-Guided Relational Reasoning:
- 做什么：将自然语言查询编译为优化的 SQL 查询，在构建好的关系数据库上执行
- Schema 显式的连接键和关系定义使编译器能生成高效的 join 查询
- 自动追溯每行结果到原始文档位置，保证答案可验证

实验关键数据¶

主实验（MEBench）¶

方法	Comparison	Statistics	Relationship	Overall
GPT-4o	0.262	0.353	0.407	0.338
GPT-4o + RAG	0.696	0.579	0.593	0.620
GraphRAG	0.618	0.558	0.593	0.586
StructRAG	0.678	0.588	0.573	0.612
DocSage	0.934	0.908	0.812	0.892

关键发现¶

DocSage 在所有类别上大幅领先——Overall 89.2% vs 下一最好 62.0%（+27.2%）
在 >100 文档场景（Set3）优势最大：87.9% vs 41.5%，说明结构化方法在长文本场景优势倍增
SQL 驱动的推理完全消除了注意力稀释问题

亮点与洞察¶

从非结构化到结构化再到 SQL 推理的 pipeline 设计非常优雅——将 MDMEQA 降维为数据库查询问题
ASK 算法的交互式 schema 发现比静态预定义方案更灵活——能适应任意新领域
CLEAR 的跨记录逻辑一致性校验是关键创新——不只检查单点抽取质量，还确保全局逻辑一致
在 >100 文档上的绝对优势说明结构化方法是长文档推理的正确方向
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

多模块 pipeline 依赖每个模块的质量——schema 发现错误会级联传播
依赖 GPT-4o 作为核心 LLM，成本较高
SQL 表达能力有限——某些需要模糊匹配或推理的查询可能难以编译
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐⭐ 动态 schema + 结构化抽取 + SQL 推理的完整 pipeline 是全新范式
实验充分度: ⭐⭐⭐⭐ 两个 benchmark + 不同文档规模分组对比
写作质量: ⭐⭐⭐⭐ 框架清晰，算法描述详尽
价值: ⭐⭐⭐⭐⭐ 对多文档 QA 有革命性的方法论意义