N2N-GQA: Noise-to-Narrative for Graph-Based Table-Text Question Answering Using LLMs¶
会议: AAAI 2026
arXiv: 2601.06603
代码: 无
领域: LLM推理 / RAG
关键词: 多跳问答, 图结构检索, 表格-文本混合QA, 零样本, GraphRank
一句话总结¶
提出 N2N-GQA——首个用于开放域混合表格-文本问答的零样本框架,核心思路是将检索到的嘈杂文档构建为动态证据图(文档为节点、TF-IDF共享词为边),通过图中心性剪枝识别"桥接文档"连接多跳推理链,在 OTT-QA 上比 Vanilla RAG 提升 +39.6 EM(从 8.0 到 48.8),零样本即接近微调系统 CORE (49.0 EM)。
研究背景与动机¶
-
领域现状:多跳问答(如"2019年大西洋冰球年度最佳球员出生国的首都是什么?")需要跨多个文档/表格检索并推理。标准 RAG 管道将检索结果作为扁平排序列表传给 LLM。开放域混合 QA(如 OTT-QA)要求从大型语料库中同时检索表格和文本段落。
-
现有痛点:
- 列表式检索将每个文档独立评分,无法发现文档间的推理链关系——一个文档单独看不相关,但它是连接两个高相关文档的"桥梁"
- 检索噪声在多跳问题中被放大——第一跳的错误传播到整个推理链
- 现有有竞争力的开放域方法(CORE、COS)都需要大量特定任务微调
-
零样本方法(如 ODYSSEY)仅在封闭域(给定金标准证据)下评估
-
核心矛盾:多跳推理需要理解证据片段之间的关系(哪些文档形成推理链),而排序列表将每个文档孤立评估——关系信息在检索阶段就被丢弃了。
-
本文要解决什么? 在不做任何任务特定训练的前提下,通过图结构组织检索结果来恢复文档间的关系,实现零样本开放域多跳 QA。
-
切入角度:将检索文档建模为图的节点,用 TF-IDF 共享词权重作为边,利用图中心性识别结构上重要的桥接文档。
-
核心 idea 一句话:把 RAG 的扁平检索列表转化为结构化证据图,用图中心性剪枝过滤噪声、保留推理链。
方法详解¶
整体框架¶
N2N-GQA 管道:(1) LLM 结构化查询规划——将复杂问题分解为多跳子查询及条件模板;(2) 逐跳迭代检索——ColBERTv2 检索 → 构建临时证据图 → GraphRank 剪枝 → LLM 提取中间实体 → 实体填入下一跳模板;(3) 全局证据聚合——跨所有跳的证据汇集 → 桥接感知混合选择器 → 最终证据图 → GraphRank 剪枝 → LLM 综合最终答案。
关键设计¶
- 动态证据图构建:
- 做什么:将检索到的文档组织为查询特定的知识图
- 核心思路:每个检索文档(段落或序列化表格行)作为节点,边权重为共享词的 TF-IDF 分数之和。边代表文档间的语义重叠——共享重要实体的文档更可能是推理链的相邻环节
-
设计动机:选择 TF-IDF 而非稠密嵌入——TF-IDF 要求显式词汇重叠,减少"语义漂移"(概念相似但事实不同),无需训练、计算快、可解释
-
GraphRank 评分:
- 做什么:结合语义相关性和结构重要性对文档重排序
- 核心思路:\(\text{Score}_{GR}(v) = S_{sem}(v) \times (1 + (1-\alpha) \times S_{struct}(v))\),\(\alpha = 0.85\)。乘法结构确保语义主导——语义不相关但图中心性高的噪声节点被抑制,图结构信息只对语义相关的文档起"置信度放大"作用
-
设计动机:加法组合中高中心性噪声可能压过低语义分的真正相关文档;乘法天然解决此问题
-
桥接感知混合选择器:
- 做什么:在最终证据聚合阶段识别和优先处理连接表格和文本的桥接文档
- 核心思路:检查最高分段落和最高分表格之间是否存在实体链接 \(\phi(p,t) = \mathbb{1}[E(t) \cap T(p) \neq \emptyset]\)。链接成功则仅提升表格分数;否则同时提升两者分数
-
设计动机:混合 QA 的推理链通常需要表格→文本或文本→表格的跨类型推理,桥接文档是必不可少的"中间人"
-
结构化查询规划:
- 做什么:LLM 将复杂问题分解为可执行的多跳计划
- 核心思路:输出结构化 JSON——问题复杂度分类(1/2/3 跳)、初始查询及期望实体类型、后续跳的条件模板(用占位符)、查询替代方案
- 设计动机:可预测的、机器可读的输出让管道的每一步都有明确的执行路径
损失函数 / 训练策略¶
- 完全零样本——无训练/微调
- 读者模型:GPT-4o、GPT-4.1、Llama3-70B
- 检索:预索引的 ColBERTv2,最终 top-100 检索,图剪枝到 12-25 节点
实验关键数据¶
主实验¶
OTT-QA(开放域,500 样本),零样本:
| 方法 | Reader | EM↑ | F1↑ | BERTScore-F1↑ |
|---|---|---|---|---|
| Vanilla RAG | GPT-4o | 8.00 | 16.09 | 8.85 |
| RAG + 查询分解 | GPT-4o | 31.40 | 43.07 | 37.84 |
| N2N-GQA w/o GraphRank | GPT-4.1 | 48.50 | 56.90 | 58.22 |
| N2N-GQA w/ GraphRank | GPT-4.1 | 48.80 | 57.26 | 58.76 |
| N2N-GQA w/ GraphRank | Llama3-70B | 40.80 | 48.08 | 49.38 |
对比微调系统(非零样本):CORE 49.0 EM,COS 56.9 EM。
消融实验¶
| 组件 | EM 提升 | 说明 |
|---|---|---|
| + 查询分解 | +23.4 | 8.0→31.4,最大单组件贡献 |
| + 图构建与剪枝 | +16.0 | 31.4→47.4,证据图是核心 |
| + GraphRank | +0.2-0.3 | 47.4→47.6,温和但一致 |
| 整体 N2N-GQA | +39.6 | 8.0→47.6(GPT-4o) |
关键发现¶
- 图结构组织是关键突破:仅图构建+剪枝就带来 +16 EM,远超 GraphRank 的 +0.3——"将文档组织为图"本身比"如何排序节点"更重要
- 查询分解是第二大贡献:+23.4 EM,多跳问题的显式分解对零样本系统至关重要
- 零样本接近微调:48.8 EM vs CORE 49.0 EM,差距不到 1 个点
- 更强读者获益更多:GPT-4.1 > GPT-4o > Llama3-70B
亮点与洞察¶
- "列表→图"的范式转换是核心贡献——简单地"把检索结果组织成图然后剪枝"就能带来 +16 EM,说明 RAG 管道丢弃了太多关系信息
- TF-IDF 边权重的刻意简单性:零样本框架中"对的结构 > 花哨的边权计算"
- 乘法 GraphRank 确保语义主导,避免结构分数引入噪声——一个被低估但重要的细节
局限性 / 可改进方向¶
- 仅在 500 样本上评估(受限于 LLM 调用成本)
- TF-IDF 对语义同义但词汇不同的桥接关系可能遗漏
- 与 COS (56.9 EM) 仍有 ~8 分差距
- 表格序列化可能丢失结构信息(列类型、跨行关系)
相关工作与启发¶
- vs CORE:微调 DPR + 实体链接。N2N-GQA 零样本达同等水平(48.8 vs 49.0)
- vs COS:Wikipedia 规模预训练。N2N-GQA 差 ~8 分但完全零样本
- vs ODYSSEY:零样本但封闭域。N2N-GQA 解决更难的开放域设置
- 图结构证据组织可推广到任何多跳 RAG 场景
评分¶
- 新颖性: ⭐⭐⭐⭐ "列表→图"范式简单但有效,首个零样本开放域混合 QA 框架
- 实验充分度: ⭐⭐⭐⭐ 两数据集、三读者、渐进消融清晰
- 写作质量: ⭐⭐⭐⭐ 问题定义精确,消融设计好
- 价值: ⭐⭐⭐⭐ 证明了图结构对 RAG 的重要性,零样本部署有直接实用价值