N2N-GQA: Noise-to-Narrative for Graph-Based Table-Text Question Answering Using LLMs¶

会议: AAAI 2026
arXiv: 2601.06603
代码: 无
领域: LLM推理 / RAG
关键词: 多跳问答, 图结构检索, 表格-文本混合QA, 零样本, GraphRank

一句话总结¶

提出 N2N-GQA——首个用于开放域混合表格-文本问答的零样本框架，核心思路是将检索到的嘈杂文档构建为动态证据图（文档为节点、TF-IDF共享词为边），通过图中心性剪枝识别"桥接文档"连接多跳推理链，在 OTT-QA 上比 Vanilla RAG 提升 +39.6 EM（从 8.0 到 48.8），零样本即接近微调系统 CORE (49.0 EM)。

研究背景与动机¶

领域现状：多跳问答（如"2019年大西洋冰球年度最佳球员出生国的首都是什么？"）需要跨多个文档/表格检索并推理。标准 RAG 管道将检索结果作为扁平排序列表传给 LLM。开放域混合 QA（如 OTT-QA）要求从大型语料库中同时检索表格和文本段落。
现有痛点：
列表式检索将每个文档独立评分，无法发现文档间的推理链关系——一个文档单独看不相关，但它是连接两个高相关文档的"桥梁"
检索噪声在多跳问题中被放大——第一跳的错误传播到整个推理链
现有有竞争力的开放域方法（CORE、COS）都需要大量特定任务微调
零样本方法（如 ODYSSEY）仅在封闭域（给定金标准证据）下评估
核心矛盾：多跳推理需要理解证据片段之间的关系（哪些文档形成推理链），而排序列表将每个文档孤立评估——关系信息在检索阶段就被丢弃了。
本文要解决什么？ 在不做任何任务特定训练的前提下，通过图结构组织检索结果来恢复文档间的关系，实现零样本开放域多跳 QA。
切入角度：将检索文档建模为图的节点，用 TF-IDF 共享词权重作为边，利用图中心性识别结构上重要的桥接文档。
核心 idea 一句话：把 RAG 的扁平检索列表转化为结构化证据图，用图中心性剪枝过滤噪声、保留推理链。

方法详解¶

整体框架¶

N2N-GQA 管道：(1) LLM 结构化查询规划——将复杂问题分解为多跳子查询及条件模板；(2) 逐跳迭代检索——ColBERTv2 检索 → 构建临时证据图 → GraphRank 剪枝 → LLM 提取中间实体 → 实体填入下一跳模板；(3) 全局证据聚合——跨所有跳的证据汇集 → 桥接感知混合选择器 → 最终证据图 → GraphRank 剪枝 → LLM 综合最终答案。

关键设计¶

动态证据图构建:
做什么：将检索到的文档组织为查询特定的知识图
核心思路：每个检索文档（段落或序列化表格行）作为节点，边权重为共享词的 TF-IDF 分数之和。边代表文档间的语义重叠——共享重要实体的文档更可能是推理链的相邻环节
设计动机：选择 TF-IDF 而非稠密嵌入——TF-IDF 要求显式词汇重叠，减少"语义漂移"（概念相似但事实不同），无需训练、计算快、可解释
GraphRank 评分:
做什么：结合语义相关性和结构重要性对文档重排序
核心思路：\(\text{Score}_{GR}(v) = S_{sem}(v) \times (1 + (1-\alpha) \times S_{struct}(v))\)，\(\alpha = 0.85\)。乘法结构确保语义主导——语义不相关但图中心性高的噪声节点被抑制，图结构信息只对语义相关的文档起"置信度放大"作用
设计动机：加法组合中高中心性噪声可能压过低语义分的真正相关文档；乘法天然解决此问题
桥接感知混合选择器:
做什么：在最终证据聚合阶段识别和优先处理连接表格和文本的桥接文档
核心思路：检查最高分段落和最高分表格之间是否存在实体链接 \(\phi(p,t) = \mathbb{1}[E(t) \cap T(p) \neq \emptyset]\)。链接成功则仅提升表格分数；否则同时提升两者分数
设计动机：混合 QA 的推理链通常需要表格→文本或文本→表格的跨类型推理，桥接文档是必不可少的"中间人"
结构化查询规划:
做什么：LLM 将复杂问题分解为可执行的多跳计划
核心思路：输出结构化 JSON——问题复杂度分类（1/2/3 跳）、初始查询及期望实体类型、后续跳的条件模板（用占位符）、查询替代方案
设计动机：可预测的、机器可读的输出让管道的每一步都有明确的执行路径

损失函数 / 训练策略¶

完全零样本——无训练/微调
读者模型：GPT-4o、GPT-4.1、Llama3-70B
检索：预索引的 ColBERTv2，最终 top-100 检索，图剪枝到 12-25 节点

实验关键数据¶

主实验¶

OTT-QA（开放域，500 样本），零样本：

方法	Reader	EM↑	F1↑	BERTScore-F1↑
Vanilla RAG	GPT-4o	8.00	16.09	8.85
RAG + 查询分解	GPT-4o	31.40	43.07	37.84
N2N-GQA w/o GraphRank	GPT-4.1	48.50	56.90	58.22
N2N-GQA w/ GraphRank	GPT-4.1	48.80	57.26	58.76
N2N-GQA w/ GraphRank	Llama3-70B	40.80	48.08	49.38

对比微调系统（非零样本）：CORE 49.0 EM，COS 56.9 EM。

消融实验¶

组件	EM 提升	说明
+ 查询分解	+23.4	8.0→31.4，最大单组件贡献
+ 图构建与剪枝	+16.0	31.4→47.4，证据图是核心
+ GraphRank	+0.2-0.3	47.4→47.6，温和但一致
整体 N2N-GQA	+39.6	8.0→47.6（GPT-4o）

关键发现¶

图结构组织是关键突破：仅图构建+剪枝就带来 +16 EM，远超 GraphRank 的 +0.3——"将文档组织为图"本身比"如何排序节点"更重要
查询分解是第二大贡献：+23.4 EM，多跳问题的显式分解对零样本系统至关重要
零样本接近微调：48.8 EM vs CORE 49.0 EM，差距不到 1 个点
更强读者获益更多：GPT-4.1 > GPT-4o > Llama3-70B

亮点与洞察¶

"列表→图"的范式转换是核心贡献——简单地"把检索结果组织成图然后剪枝"就能带来 +16 EM，说明 RAG 管道丢弃了太多关系信息
TF-IDF 边权重的刻意简单性：零样本框架中"对的结构 > 花哨的边权计算"
乘法 GraphRank 确保语义主导，避免结构分数引入噪声——一个被低估但重要的细节

局限性 / 可改进方向¶

仅在 500 样本上评估（受限于 LLM 调用成本）
TF-IDF 对语义同义但词汇不同的桥接关系可能遗漏
与 COS (56.9 EM) 仍有 ~8 分差距
表格序列化可能丢失结构信息（列类型、跨行关系）

评分¶

新颖性: ⭐⭐⭐⭐ "列表→图"范式简单但有效，首个零样本开放域混合 QA 框架
实验充分度: ⭐⭐⭐⭐ 两数据集、三读者、渐进消融清晰
写作质量: ⭐⭐⭐⭐ 问题定义精确，消融设计好
价值: ⭐⭐⭐⭐ 证明了图结构对 RAG 的重要性，零样本部署有直接实用价值