AGSC: Adaptive Granularity and Semantic Clustering for Uncertainty Quantification in Long-text Generation¶

会议: ACL 2026
arXiv: 2604.06812
代码: 无
领域: LLM 不确定性量化
关键词: 不确定性量化, 长文本生成, 自适应粒度, 语义聚类, GMM

一句话总结¶

AGSC 提出了一个针对长文本生成的不确定性量化框架，通过 NLI 中立概率触发自适应粒度分解（减少 60% 推理时间），并使用 GMM 软聚类捕捉潜在语义主题进行主题感知的加权聚合，在 BIO 和 LongFact 基准上达到 SOTA 的事实性相关性。

领域现状：LLM 的幻觉问题使不确定性量化成为增强可信度的关键。现有 UQ 方法主要针对短响应，而长文本 UQ（如 LUQ）尝试将响应分解为原子事实进行细粒度评估。

现有痛点：(1) 细粒度分解大幅增加计算开销；(2) 长文本混合多个语义主题，简单池化聚合会被次要/离题部分过度影响；(3) LUQ 简单丢弃 NLI 中立标签，但中立性往往反映认知不确定性。

核心矛盾：长文本 UQ 需要在粒度、效率和主题异质性之间取得平衡。

本文目标：设计准确且高效的长文本 UQ 框架，同时处理主题异质性。

切入角度：利用 NLI 中立类别作为自适应粒度触发器，结合 GMM 软聚类进行主题感知聚合。

核心 idea：中立性不是应该丢弃的噪声，而是需要更细粒度分析的信号；语义主题聚类能有效降低次要部分对整体 UQ 的干扰。

AGSC 分为三阶段：(1) 多样性生成——采样多个响应；(2) NLI 计算与自适应分解——句子级 NLI 分析，中立概率高的句子触发原子事实分解或过滤噪声；(3) 语义聚类与聚合——UMAP 降维 + GMM 软聚类进行主题加权聚合。

自适应粒度策略 (Adaptive Granularity):
- 功能：平衡粒度与效率
- 核心思路：对每个句子进行 NLI 分析，当中立概率超过阈值时触发更细粒度的原子事实分解（表明该句子可能包含混合信息）；若中立率极高则过滤为无关信息。这避免了对所有句子都进行昂贵的原子分解
- 设计动机：中立性可能意味着不相关（应过滤）或混合不确定性（应进一步分解），自适应触发机制区分这两种情况
GMM 语义聚类 (Semantic Clustering):
- 功能：处理长文本中的主题异质性
- 核心思路：将所有评估单元的嵌入经 UMAP 降维后用 GMM 进行软聚类，每个聚类对应一个潜在语义主题。根据聚类大小分配主题感知权重，下调次要/噪声部分的影响
- 设计动机：开放式提示（如"告诉我关于爱因斯坦"）的不同采样可能围绕不同主题组织内容，导致结构性混乱
主题加权不确定性聚合:
- 功能：产生最终的不确定性分数
- 核心思路：先计算每个单元基于 NLI 的不确定性，然后根据聚类权重进行加权聚合，主要主题贡献更大权重
- 设计动机：避免次要或离题部分不成比例地影响整体 UQ 分数

不涉及模型训练。使用预训练 NLI 模型和嵌入模型。GMM 聚类数通过 BIC 自动选择。