Multi-Hop Question Generation via Dual-Perspective Keyword Guidance¶

会议: ACL 2025
arXiv: 2505.15299
代码: GitHub
领域: NLP / 问题生成
关键词: 多跳问题生成, 双视角关键词, 答案感知注意力, 关键词引导, HotpotQA

一句话总结¶

定义了双视角关键词——问题关键词（捕捉提问者意图）和文档关键词（反映 QA 对相关内容），并提出 DPKG 框架，通过扩展 Transformer 编码器和两个答案感知解码器，将关键词无缝集成到多跳问题生成过程中。

研究背景与动机¶

多跳问题生成（MQG）要求综合文档中多处信息片段来生成需要多步推理才能回答的问题。其核心挑战在于：如何有效定位文档中与问答对相关的关键信息片段。

现有方法的问题：

关键词利用不充分：许多研究仅关注文档特定关键词（如 MulQG、SGCM），或仅在解码时约束问题特定关键词（如 CQG），未能全面利用关键词的引导潜力。

未区分关键词角色：现有工作忽视了两类关键词的本质区别： - 问题关键词：来自问题本身，反映提问者的意图，必须出现在生成的问题中 - 文档关键词：来自文档，反映与 QA 对相关的内容，用于定位关键信息片段

两类关键词协同：问题关键词和文档关键词共同定位文档中的关键信息片段——这是人类自然的提问过程（先看答案和文档→找相关信息片段→选择必须出现在问题中的关键词→生成问题）。

核心思路：区分并显式利用双视角关键词，更好地引导多跳问题生成。

方法详解¶

整体框架¶

DPKG 框架包含三个主要组件： 1. 扩展 Transformer 编码器：同时编码文档、答案和文档-答案拼接，产生三组隐藏状态 2. 关键词生成解码器：基于文档和答案状态生成双视角关键词序列 3. 问题生成解码器：利用关键词定位的信息片段生成多跳问题

两个解码器结构相似但独立，共享编码器输出但各有不同的任务目标。

关键设计¶

扩展 Transformer 编码器：
- 功能：同时编码三个输入——文档 \(D^i\)、答案 \(A^i\)、文档-答案拼接 \(D^i;A^i\)
- 核心思路：修改内部结构使三部分共享自注意力但保持独立编码
- 输出：\(H_{doc}^i\)（文档状态）、\(H_{ans}^i\)（答案状态）、\(H_{da}^i\)（文档-答案状态）
- 设计动机：分别编码文档和答案便于后续计算答案感知状态
答案感知注意力机制 (Answer-aware Attention)：
- 功能：在解码器中引入答案信息来加权文档注意力
- 核心公式：\(H_a = \text{softmax}(\frac{H_k^{t-1} H_{doc}^T}{\sqrt{d}} \odot K_{weight}) H_{doc}\)
- 其中 \(K_{weight} = \text{MeanPooling}(\frac{H_{doc} H_{ans}^T}{\sqrt{d}})\) 捕捉文档-答案关系
- 设计动机：\(K_{weight}\) 编码了文档中哪些部分与答案相关，通过逐元素乘法引导注意力聚焦到答案相关区域
融合模块 (Fusion Module)：
- 功能：结合答案感知状态 \(H_a\) 和标准交叉注意力状态 \(H_h\)
- 门控机制：\(H_k^t = gate \odot H_a + (1-gate) \odot H_h\)，\(gate = \text{sigmoid}([H_a; H_h])\)
- 设计动机：自适应地平衡答案感知信息和原始上下文信息
关键词引导的两种模式：
- Hard 模式：在关键词前添加特殊前缀 <qes> 或 <doc> 标识类型，在关键词生成阶段识别角色
- Soft 模式：不添加前缀，在问题生成阶段动态识别每个关键词的角色
- Hard 模式在 SF 设置中更优，Soft 模式在 Full 设置中更优

损失函数 / 训练策略¶

联合训练损失：\(\mathcal{L} = \beta_1 \mathcal{L}_1 + \beta_2 \mathcal{L}_2 + \beta_3 \mathcal{L}_3\)

\(\mathcal{L}_1\)：关键词生成交叉熵损失
\(\mathcal{L}_2\)：问题生成交叉熵损失
\(\mathcal{L}_3\)：缩小生成关键词表示与真值关键词表示的差距
- \(\mathcal{L}_3 = \|F_k - F_g\|_2\)，其中 \(F_k\) 和 \(F_g\) 分别是关键词解码器输出和 BART 编码的真值关键词的均值池化表示
- 设计动机：训练时使用真值关键词，推理时使用生成关键词，\(\mathcal{L}_3\) 桥接这一差距

关键词标注：使用 SpaCy（en_core_web_sm 模型）自动标注，聚焦于与答案和问题相关的句子，提取实体或短语作为关键词。疑问词（what、how 等）作为问题关键词。

实验关键数据¶

主实验—HotpotQA（表格）¶

SF (Supporting Fact) 设置：

模型	BLEU-4	METEOR	ROUGE-L
BART	20.39	23.46	37.23
CQG	25.09	27.45	41.83
QA4QG-large	25.70	27.44	46.48
SGCM	26.16	28.51	44.06
DPKG_hard	26.80	27.87	46.50
DPKG_soft	26.19	28.51	46.36

Full 设置：

模型	BLEU-4	METEOR	ROUGE-L
BART	16.77	20.07	33.69
CQG	21.46	24.97	39.61
SGCM	22.61	26.04	40.61
DPKG_hard	22.74	24.90	43.29
DPKG_soft	23.33	25.21	43.18

消融/关键词类型实验（表格）¶

模型	关键词得分(KP)	BLEU-4 (SF)	ROUGE-L (SF)
DPKG_hard	88.13	26.80	46.50
DPKG_soft	88.86	26.19	46.36
DPKG_D (仅文档关键词)	87.05	23.95	45.62
DPKG_Q (仅问题关键词)	79.36	25.77	45.16

消融（模块消融，SF 设置）：

配置	BLEU-4	ROUGE-L
DPKG_hard	26.80	46.50
w/o \(\mathcal{L}_3\)	24.74	45.08
w/o Answer-aware	24.83	45.09

关键发现¶

双视角优于单视角：即使使用真值关键词，DPKG_hard/soft 也始终优于仅用问题关键词 (DPKG_Q) 或仅用文档关键词 (DPKG_D)
问题关键词比文档关键词重要：DPKG_Q 的问题生成质量显著优于 DPKG_D，尽管其关键词生成得分更低（79.36 vs 87.05）
\(\mathcal{L}_3\) 和答案感知注意力同等重要：移除任一模块都导致 BLEU-4 下降约 2 个点
Hard vs Soft 模式互补：Hard 在 SF 中更好（处理短文档），Soft 在 Full 中更好（处理长文档噪声）
TS-BART 验证了双视角关键词的普适价值：即使是简单的两阶段 BART 也能从双视角关键词中获益
DPKG 在 ROUGE-L 上提升特别显著（SF: 46.50, Full: 43.29），说明生成的问题在长程语义上与参考问题更匹配

亮点与洞察¶

关键词的角色分化：将关键词从单一概念细分为"问题关键词"和"文档关键词"，是一个简单但有效的概念贡献。这与人类提问的认知过程高度吻合
训练-推理差距的处理：\(\mathcal{L}_3\) 通过拉近生成关键词和真值关键词的表示来缩小训练时用真值、推理时用生成的差距，方法简洁有效
框架可扩展性：DPKG 的编码器-双解码器架构可以容纳更多类型的中间生成任务

局限与展望¶

关键词标注依赖 SpaCy：自动标注质量受限于 NER 工具，在复杂文档中可能遗漏重要关键词
仅在 HotpotQA 上评估：缺乏在其他多跳 QA 数据集（如 2WikiMultiHopQA）上的验证
基于 BART 的架构：未探索更大的 PLM（如 T5-large、LLaMA）是否能进一步提升
Hard 和 Soft 模式未统一：理想情况下应有一种自动选择模式的机制，而非人工选择
关键词生成是累积误差源：关键词质量直接影响问题质量，错误会传播放大

评分¶

新颖性: ⭐⭐⭐⭐ — "双视角关键词"定义清晰、直觉自然、效果显著，是一个精致的概念创新
实验充分度: ⭐⭐⭐ — 在 HotpotQA 上实验全面（主实验、关键词类型分析、消融），但缺少其他数据集验证
写作质量: ⭐⭐⭐⭐ — 关键词定义和标注过程用图示直观说明，框架描述清晰
价值: ⭐⭐⭐⭐ — 为 MQG 任务提供了新的视角和有效方法，代码已开源，关键词标注方法可复用