Document Summarization with Conformal Importance Guarantees¶

会议: NeurIPS 2025
arXiv: 2509.20461
代码: https://github.com/layer6ai-labs/conformal-importance-summarization
领域: NLP生成 / 可靠AI
关键词: 文档摘要, Conformal Prediction, 重要性覆盖保证, 抽取式摘要, 分布无关

一句话总结¶

首次将Conformal Prediction应用于文档摘要，通过校准句子重要性分数的阈值，为抽取式摘要提供用户可控的覆盖率($1-\alpha$)和召回率($\beta$)的严格统计保证，方法模型无关且仅需小规模校准集。

研究背景与动机¶

领域现状：LLM大幅提升了摘要质量，但在医疗、法律、金融等高风险领域，摘要遗漏关键信息可能造成严重后果。现有摘要方法（无论抽取式还是生成式）无法保证关键内容的覆盖。
现有痛点：（a）直接用LLM做生成式摘要可能产生幻觉且无法控制信息覆盖率；（b）抽取式方法虽然更忠实但缺乏理论保证；（c）用户无法指定"我希望至少保留80%的重要信息"这样的需求。
核心矛盾：摘要天然需要压缩（shorter is better），但安全关键场景要求不遗漏重要信息（complete is better）——需要在简洁性和完整性之间提供可控的平衡。
本文要解决什么：如何为摘要提供形式化的统计保证——以 $\geq 1-\alpha$ 的概率保留 $\geq \beta$ 比例的重要句子？
切入角度：Conformal Prediction已在分类/回归/QA中提供分布无关保证，本文将其从"精度保证"（conformal factuality ensuring retained claims are factual）扩展为"召回保证"（ensuring important sentences are retained）。
核心idea：在校准集上找到重要性分数阈值 $\hat{q}$，使得按此阈值过滤后的摘要以 $\geq 1-\alpha$ 概率保留 $\geq \beta$ 的重要句子。

方法详解¶

整体框架¶

输入长文档 $x = \{c_1, \ldots, c_p\}$（按句分割），通过重要性评分函数 $R(c;x)$ 为每句打分，然后用Conformal Prediction校准阈值 $\hat{q}$，保留分数 $\geq \hat{q}$ 的句子组成摘要 $y = F_{\hat{q}}(x)$。输出满足 $\mathbb{P}[B(y;y^*) \geq \beta] \geq 1-\alpha$ 的抽取式摘要。

关键设计¶

广义覆盖保证
做什么：放宽经典Conformal Prediction的"全覆盖"要求，允许用户指定可接受的召回率 $\beta$。
核心思路：定义召回 $B(y;y^*) = |y \cap y^*| / |y^*|$，目标为 $\mathbb{P}[B(y;y^*) \geq \beta] \geq 1-\alpha$。当 $\beta=1$ 退化为完全覆盖。对每个校准样本计算conformal score $S_\beta(x_i, y_i^*) = \max\{q \in \mathbb{R}^+ | B(F_q(x_i); y_i^*) \geq \beta\}$，即保持 $\beta$ 召回的最大阈值。取所有score的 $\lfloor\alpha(n+1)\rfloor/n$ 分位数作为 $\hat{q}$。
设计动机：与conformal factuality的精度保证（$y \subseteq T(x,y^*)$）对称，这里面向召回保证。$\beta$ 参数让用户灵活控制——医疗场景可能需要 $\beta=1$（不漏）而新闻摘要可接受 $\beta=0.8$。
重要性评分函数 $R(c;x)$
做什么：为文档中每个句子估计重要性分数。
核心思路：提供两类评分方案——(a) LLM评分：用GPT-4o mini/Gemini/Llama等LLM prompt评分0-1；(b) 嵌入相似度：用SBERT计算句子嵌入，通过中心性（Cosine Centrality）、指向性（Sentence Centrality）、GUSUM、LexRank等图算法汇聚为重要性分数。
设计动机：方法是模型无关的——任何能产生分数的方法都可以作为 $R$。LLM评分通常效果最好（AUPRC更高），但图方法不需要API调用。评分质量直接决定摘要在固定覆盖率下的简洁程度。
混合抽取-生成Pipeline
做什么：先用Conformal Importance提取重要句子（有覆盖保证），再用LLM改写使文本更流畅简洁。
核心思路：将摘要分解为两个子任务——信息筛选（抽取式，有保证）+ 润色合成（生成式，无保证但实际能保留大部分信息）。类似RAG把检索和生成分开。
设计动机：纯抽取式摘要可能不通顺，纯生成式无法控制覆盖率。两步pipeline在实际中比直接LLM摘要有更高的信息保留率。

理论保证（Theorem 1）¶

在可交换性假设下，对 $\alpha \in [1/(n+1), 1]$： $$1 - \alpha \leq \mathbb{P}[B(F_{\hat{q}}(x_{n+1}); y^*_{n+1}) \geq \beta] < 1 - \alpha + \frac{1}{n+1}$$ 保证紧且仅需 $n=100$ 个校准样本即可实现 ~1% 的覆盖误差。

实验关键数据¶

主实验（重要性评分质量 AUPRC + 摘要简洁度）¶

评分方法	ECT AUPRC	CSDS	CNN/DM	平均简洁度(α=0.2,β=0.8)
Random (正率)	0.10	0.27	0.10	0% 压缩
Cos. Sim. Centrality	0.22	0.34	0.34	22%/11%/18%
GUSUM	0.21	0.44	0.33	11%/24%/27%
LexRank	0.22	0.43	0.32	16%/12%/20%
GPT-4o mini	0.30	0.49	0.34	24%/25%/30%
Gemini 2.5 Flash	0.31	0.55	0.44	26%/37%/33%
Llama3-8B	0.18	0.39	0.22	13%/11%/14%

覆盖保证验证¶

设定	理论下界	实测覆盖率(400次随机划分)	理论上界
α=0.1, β=1.0	90%	90.2%	91%
α=0.2, β=0.8	80%	80.4%	81%
α=0.3, β=0.6	70%	70.1%	71%

所有实验中实测覆盖率严格落在理论bounds之间，验证Theorem 1。

关键发现¶

Gemini 2.5 Flash的重要性评分在所有数据集上最优，GPT-4o mini次之，小模型（Llama3-8B、Qwen3-8B）弱于图方法。
仅需100个校准样本即可达到稳定保证（$1/(n+1) \approx 1\%$）。
混合pipeline实测信息保留率高于直接LLM摘要（86% vs 79% recall on ECT），同时更简洁。
$\alpha$ 和 $\beta$ 提供了简洁性-完整性的连续控制，直接LLM摘要只能给出固定的单一trade-off点。

亮点与洞察¶

Conformal Prediction从精度→召回的创新扩展：conformal factuality保证精度（保留的claim是对的），本文保证召回（重要的sentence被保留）——巧妙的对称翻转使CP适用于摘要场景。
极致简洁的框架：核心只需要一个评分函数+校准阈值+过滤，可以无缝叠加到任何现有方法上。任何能给句子打分的方法都可以用。
$\alpha$-$\beta$双参数控制：用户可以精细控制"我能接受多少风险（$\alpha$）"和"至少保留多少比例的重要信息（$\beta$）"，这在高风险应用中非常实用。

局限性 / 可改进方向¶

需要有ground truth标注的校准集，虽然100个样本不多，但在新领域获取标注仍有成本。
重要性完全由评分函数 $R$ 决定——如果 $R$ 质量差，满足覆盖但摘要会非常长（不够简洁）。
按句子粒度分割可能不适合所有场景（如对话数据、表格数据）。
混合pipeline的生成步骤无法保证维持覆盖率（虽然实际效果不错）。
可换性假设在分布漂移（如同一LLM的不同版本）场景下可能不成立。

评分¶

新颖性: ⭐⭐⭐⭐ CP应用于摘要的首次尝试，$\alpha$-$\beta$泛化有贡献
实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、9种评分函数、400次随机划分验证
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，实验设计系统
价值: ⭐⭐⭐⭐ 对高风险摘要应用有直接实用价值