DRS: Deep Question Reformulation With Structured Output¶

会议: ACL 2025
arXiv: 2411.17993
代码: 有
领域: NLP / 问答系统
关键词: 问题重构, 不可回答问题, DFS搜索, 结构化输出, 零样本方法

一句话总结¶

提出 DRS（Deep Question Reformulation with Structured Output），一种零样本方法，通过实体驱动的 DFS 搜索 + 结构化输出约束，将 GPT-3.5 的问题重构准确率从 23.03% 提升至 70.42%，使 LLM 能有效帮助用户将不可回答的问题转化为可回答的形式。

研究背景与动机¶

当用户面对不熟悉领域的文档时，经常会提出该文档无法回答的问题。例如文本描述了芥末的营养成分，用户却问"芥末有多少卡路里？"——实际文本只包含碳水化合物/脂肪/蛋白质等信息。

现有工作三个方向：

检测方法：识别不可答问题（SQuAD 2.0 等）

澄清方法：向用户追问信息

重构方法：将不可答问题改写为可答形式

关键挑战是同时满足两个标准： - 重构后的问题必须能从给定文本中回答（answerability） - 必须保留原始问题的核心实体和意图（intent preservation）

即使 GPT-3.5 在 zero-shot CoT 下也仅达 23.03% 准确率，暴露了 LLM 在平衡这两个目标上的不足。现有方法（few-shot、CoT）要么过度关注保留原问题实体导致仍不可答，要么追求可答性但偏离用户意图。

方法详解¶

整体框架¶

DRS 分三步：(1) 实体提取与过滤 → (2) DFS 组合搜索 + 结构化问题生成 → (3) 候选问题重评估。

关键设计¶

实体提取与过滤（Entity Extraction and Filtering）：
- 第一步：用零样本提示让 LLM 提取问题中所有重要实体（尽量不遗漏）
- 第二步：让 LLM 将实体分类为五类：主语(subject)、宾语(object)、谓语(predicate)、属性(attribute)、其他(others)
- 仅保留主语、宾语、属性三类（核心意图承载者），丢弃谓语等
- 设计动机：LLM 直接提取实体时常混入动词短语（如"step down"），导致后续生成错误率升高
DFS 组合搜索 + 结构化生成：
- 用 DFS 算法系统性探索实体组合（组合中实体数 > 过滤后总数的一半时才进入生成）
- 对每个合格组合，依次执行：
  - 让 LLM 基于文档和选定实体生成一个结构化陈述（statement）
  - 基于该陈述生成包含所有选定实体的结构化问题
  - 验证问题是否包含所有必要实体
  - 验证问题是否可从文档回答
- 若满足条件则存储候选，达到阈值后停止搜索
- 关键洞察：先生成陈述再生成问题，比直接让 LLM 重构问题成功率高得多
- 控制搜索深度和迭代次数实现效率与准确率的平衡
候选问题重评估（Candidate Re-evaluation）：
- 对所有候选问题评估可答性（LLM 验证）
- 计算实体重叠分数：\(\text{Score} = \frac{|\text{Entities}_{cand} \cap \text{Entities}_{orig}|}{|\text{Entities}_{orig}|}\)
- 在可答的候选中选择实体重叠最高的作为最终输出

评估框架改进¶

发现之前的 Llama2-7B 评估器泛化性极差（平均准确率仅 52.78%，接近随机）
提出用 GPT-4o-mini 作为评估器，平均准确率 90.70%，且跨数据集一致性好
评估条件：(1) 重构问题可从文本回答 + (2) 实体重叠 ≥ 50%，两个条件同时满足才算成功

实验关键数据¶

主实验 — 四模型六数据集（表格）¶

模型	方法	QA2	BanditQA	BBC	Reddit	Yelp	SQuADv2	平均
GPT-3.5	Zero-Shot CoT	29.15	15.63	13.56	20.35	15.69	43.79	23.03
GPT-3.5	Few-Shot CoT	44.94	48.78	16.95	18.58	25.49	41.22	32.66
GPT-3.5	DRS (ours)	81.80	73.20	62.71	75.22	66.67	62.90	70.42
GPT-4o-mini	Zero-Shot CoT	49.39	37.50	42.37	17.70	35.29	50.10	38.73
GPT-4o-mini	DRS (ours)	88.26	80.16	79.66	83.19	78.43	78.30	81.33
Gemma2-9B	Zero-Shot	36.03	21.33	20.34	18.58	19.61	42.21	26.35
Gemma2-9B	DRS (ours)	59.92	60.73	55.93	59.29	49.02	55.62	56.75

DRS 在所有模型和数据集上显著优于所有基线，GPT-3.5 上实现约 3 倍提升。

参数敏感性 — 候选问题数量（总结表格）¶

候选数	GPT-3.5	GPT-4o-mini	Gemma2-9B
1	63.57	78.56	~52
2	~69	~81	~56
3	70.42	81.33	56.75
4	~69	~80	~53
5	~68	~80	~55

2-3 个候选即可达到最优，即使仅 1 个候选也远超所有基线。

关键发现¶

DRS 在零样本下超越 few-shot CoT，GPT-3.5: 70.42% vs 32.66%（翻倍以上）
温度变化对 DRS 影响极小（不同温度下差异 ≤ 3 个百分点），方法鲁棒性强
人工评估确认生成的重构问题几乎 100% 有意义且与文档相关（6 个数据集中仅 1 条无意义）
推理时间增加有限：GPT-3.5 上 DRS(2 候选) 耗时 10.07s vs CoT 6.80s，但准确率翻倍
额外实验：GPT-4 上 DRS 平均 70.28%，Llama3.1-70B 上 68.48%，验证泛化性

亮点与洞察¶

结构化输出约束是关键创新：先陈述后问题的两步生成确保输出质量
DFS 搜索将组合爆炸问题转化为可控的搜索空间，剪枝策略有效
实体分类（五类过滤）解决了 LLM 实体提取中动词短语混入的实际问题
评估器升级（Llama2-7B → GPT-4o-mini）本身就是重要贡献

局限与展望¶

DFS 搜索需要多次文档遍历，计算成本高于单pass方法
六个数据集未覆盖特定学科领域文档
实体分类依赖 LLM 的准确性，可能在复杂领域出错
未来可探索让 LLM 一次完成重构的高效方法

评分¶

新颖性: 7/10 — DFS+结构化输出的组合有效但非突破性
实验充分度: 9/10 — 4+3 模型、6 数据集、参数敏感性、人工评估、推理时间分析
写作质量: 7/10 — Case study 清晰，但方法描述偏冗长
价值: 7/10 — 问题重构场景实用，提升幅度显著（3 倍），但应用面相对窄