Precise Information Control in Long-Form Text Generation¶

会议: NeurIPS 2025
arXiv: 2506.06589
代码: 无
领域: NLP生成 / 忠实性
关键词: 精确信息控制, 忠实性幻觉, 可验证声明, 偏好学习, 长文生成

一句话总结¶

提出Precise Information Control (PIC)任务——要求LLM生成的长文严格基于给定声明集合（不遗漏不添加），构建PIC-Bench评测8个任务发现SOTA模型70%以上生成包含忠实性幻觉，通过弱监督偏好数据构建+DPO训练的PIC-LM将8B模型F1从69.1%提升至91.0%。

研究背景与动机¶

领域现状：LLM在长文本生成中的幻觉问题分为事实性幻觉（与真实世界知识矛盾）和忠实性幻觉（与提供的输入上下文矛盾）。大量工作关注事实性幻觉，但忠实性幻觉同样关键——即使给了正确的上下文信息，模型仍可能添加未支持的内容或遗漏关键信息。
现有痛点：（a）忠实性评估通常是binary的（"忠实/不忠实"），粒度太粗；（b）没有标准化任务来量化LLM在给定明确声明时的信息控制精度；（c）现有模型在用户明确指定应包含哪些信息时仍严重幻觉。
核心矛盾：理论上，忠实性幻觉应该是可以完全消除的（因为正确答案就在输入中），但实际上SOTA模型的完美忠实率不超过30%。
本文要解决什么：（a）形式化定义和评测长文生成中的信息控制精度；（b）训练能精确控制输出信息的模型。
切入角度：以"可验证声明"为粒度单位，把忠实性分解为precision（不多说）和recall（不少说）。
核心idea：PIC = 给定声明集合C，生成的文本中每个声明都能被C支持（precision），且C中每个声明都出现在生成中（recall）。

方法详解¶

整体框架¶

两阶段：（1）PIC-Bench评测——将8个长文生成任务转换为PIC格式，用声明提取+验证评估模型表现；（2）PIC-LM训练——SFT+弱监督偏好数据DPO后训练Llama 3.1 8B Instruct。

关键设计¶

PIC任务形式化
做什么：将长文生成重新定义为声明级别的精确控制问题。
核心思路：输入 = 指令 \(\mathcal{I}\) + 声明集 \(C = \{c_1, \ldots, c_n\}\)。生成响应 \(\theta(\mathcal{I}, C)\)，从中提取声明 \(C' = \{c'_1, \ldots, c'_m\}\)。Full PIC：\(C' = C\)（不遗漏不添加），用F1评价。Partial PIC：\(C' \subseteq C\)（可以选择子集但不能添加），用precision评价。
设计动机：Full PIC适用于需要完整覆盖的场景（传记、改写），Partial PIC适用于允许选择性引用的场景（摘要、RAG QA）。两种模式覆盖了实际应用的核心需求。
弱监督偏好数据构建
做什么：自动生成PIC导向的偏好对用于DPO训练，无需人工标注。
核心思路：对每个样本 \((\mathcal{I}, C_{orig}, y_{orig})\)，随机删除部分声明得到 \(C_{perturb} \subset C_{orig}\)，用SFT模型基于 \(C_{perturb}\) 生成 \(y_{perturb}\)。得到两个偏好对：以 \(C_{orig}\) 为上下文时 \(y_{orig}\) 优于 \(y_{perturb}\)（正确答案应包含完整信息），反之亦然。用归一化对数概率差作为指令跟随代理信号来自适应选择：\(\sigma(\frac{\log p_\theta(y_{orig})}{L} - \frac{\log p_\theta(y_{perturb})}{L})\) 超过阈值 \(\tau\) 则选第一种构造。
设计动机：随机采样两种构造的equal probability可能损害指令跟随能力（删掉太多声明后的response可能无法充分回答指令），自适应选择在PIC和指令跟随之间取得平衡。
声明提取与验证pipeline
做什么：自动将长文分解为可验证声明并检查支持关系。
核心思路：用LLM-based claim extractor将输出分解为独立的可验证声明（介于句子级和原子级之间的粒度），用claim verifier检查语义等价性。人类一致性验证确认pipeline的可靠性。
设计动机：可验证声明granularity是关键——句子级可能混合支持和不支持的信息，原子级缺乏独立验证的上下文。

训练策略¶

基座：Llama 3.1 8B Instruct
SFT阶段：在PIC格式的高质量数据上微调（No Robots + FLAN + CNN + EntityBios + long-form QA）
DPO阶段：Length-normalized DPO on 弱监督偏好数据

实验关键数据¶

主实验（PIC-Bench Full Setting，F1）¶

模型	平均F1	完美F1比例	最难任务(PopBios-CF)
Llama 3.1 8B Inst.	69.1	3.7%	23.7
Tulu 3 8B	76.9	4.9%	51.3
Llama 3.3 70B Inst.	78.9	11.3%	72.5
QwQ 32B	84.5	18.0%	67.5
GPT-4o	83.1	17.0%	71.3
Claude 3.5 Sonnet	87.1	24.7%	82.6
PIC-LM (8B, Ours)	91.0	43.9%	84.2

下游应用¶

任务	Baseline (Llama 8B)	PIC-LM	提升
ASQA (RAG QA) EM Recall	52.5%	61.5%	+17.1%
Birthplace Factual Precision	65.9%	86.0%	+30.5%
QAMParI F1@5	13.5%	22.6%	+67.4%

关键发现¶

SOTA模型70%+生成含忠实性幻觉：即使是Claude 3.5 Sonnet，完美F1比例也仅24.7%，说明精确信息控制远未解决。
反事实场景最难：PopBios-CF（将实体替换为另一个知名人物）上所有模型表现最差，说明参数化知识和上下文信息冲突时模型倾向于跟随参数化记忆。
8B PIC-LM超越所有开源和闭源模型：91.0% vs Claude 3.5的87.1%，证明targeted post-training的有效性。
忠实性提升可传导为事实性提升：PIC-LM在RAG和事实检查pipeline中显著提升准确率，说明精确的上下文跟随能力是减少事实幻觉的关键基础设施。

亮点与洞察¶

PIC任务的优雅简洁：把复杂的"幻觉检测"简化为"声明集的precision/recall"，使问题well-defined且可量化。两种设置（full/partial）覆盖了核心场景。
弱监督偏好数据的巧妙构造：通过随机删除声明创建 \(C_{perturb}\)，自动获得偏好对，无需人工标注但效果显著。用对数概率差作为指令跟随的代理signal也很优雅。
忠实性→事实性的传导效应：论文证明精确的上下文跟随不仅减少忠实性幻觉，还间接提升事实准确率——这为"先检索/验证，再忠实生成"的pipeline提供了理论和实验支持。

局限性 / 可改进方向¶

声明提取和验证依赖LLM，本身可能引入误差。
完美PIC（零幻觉）即使对PIC-LM也仅43.9%，说明问题仍远未解决。
Partial PIC中precision很高但可能牺牲了有用性（不敢多说）。
训练数据包含in-domain任务，OOD泛化性仍可提升。

评分¶

新颖性: ⭐⭐⭐⭐⭐ PIC任务形式化和弱监督偏好构建都是重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 8个任务、13+模型、下游应用验证、大量消融
写作质量: ⭐⭐⭐⭐⭐ 问题定义精确，实验全面，论文结构清晰
价值: ⭐⭐⭐⭐⭐ 对长文生成忠实性问题提出了可操作的解决方案