Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs¶

会议: ACL 2026
arXiv: 2604.07562
代码: GitHub
领域: 文本聚类 / 无监督学习
关键词: 文本聚类精炼, LLM语义判官, 一致性验证, 冗余裁决, 标签接地

一句话总结¶

提出基于推理的聚类精炼框架，将 LLM 作为语义判官（而非嵌入生成器）验证和重构无监督聚类的输出，通过一致性验证、冗余裁决和标签接地三个推理阶段，在社交媒体语料上显著提升聚类一致性和人类对齐的标注质量。

领域现状：无监督文本聚类（LDA、BERTopic、HDBSCAN 等）广泛用于从大规模文本集合中发现潜在语义结构。近期方法主要依赖上下文嵌入 + 几何聚类准则来评估聚类质量。

现有痛点：嵌入空间中的几何性质（如分离度、密度）并不总是与人类对语义的理解一致。聚类可能在数值上分离良好但语义上不连贯，多个聚类可能编码重叠主题。特别在社交媒体短文本场景下，噪声大、词汇变化多、话题漂移快，加剧了统计一致性与人类可解释性之间的鸿沟。

核心矛盾：现有管道缺乏显式的语义验证机制——聚类算法产生的"假设"从未被检验是否真正语义连贯、非冗余和可解释。

本文目标：设计一个后置精炼层，利用 LLM 的推理能力验证和重构任意无监督聚类方法的输出。

切入角度：将聚类视为"提案"，LLM 作为"语义判官"而非嵌入生成器，将表示学习与结构验证解耦。

核心 idea：LLM 具有强大的自然语言推理能力，可以评估聚类是否内部一致、两个聚类是否有意义地不同、主题是否在文本中有据可查——这些是纯几何方法无法实现的。

三阶段后置精炼：输入为任意无监督聚类方法（如 HDBSCAN）产生的初始聚类，输出为精炼后的聚类集合及可解释标签。Stage 1 验证每个聚类的语义一致性，Stage 2 合并语义冗余的聚类，Stage 3 为精炼后的聚类生成并合并解释性标签。

一致性验证（Coherence Verification）:
- 功能：识别和丢弃语义上不连贯的聚类
- 核心思路：对每个聚类选取最接近质心的 top-5 代表文档，用 LLM 生成简洁摘要，再用 LLM 评估摘要是否被代表文档所支持。若 LLM 判定摘要未能捕捉跨文档的一致主题，标记该聚类为不连贯并丢弃
- 设计动机：嵌入空间中看起来紧凑的聚类可能包含语义异质的内容，LLM 的语言理解能力可以识别这种不一致
冗余裁决（Redundancy Adjudication）:
- 功能：合并语义重叠的聚类，减少冗余
- 核心思路：用 SBERT 为每个聚类摘要生成嵌入，计算成对余弦相似度。超过阈值（\(\tau=0.85\)，通过网格搜索确定）的聚类被合并。阈值选择权衡了 Silhouette Score、Davies-Bouldin Index 和聚类数量
- 设计动机：多个聚类可能仅有表层词汇差异而实质上讨论同一主题，合并提升了结构的非冗余性
两阶段标签接地（Label Grounding）:
- 功能：为每个精炼聚类分配可解释的人类可读标签
- 核心思路：第一阶段为每个聚类从摘要生成候选标签，第二阶段计算标签间 SBERT 相似度，相似度 >0.85 的标签分组，LLM 为每组生成合并标签。最后用 LLM 将每篇文档重新分配到最合适的合并标签下
- 设计动机：多个聚类可能产生语义近似的标签，合并避免标签体系中的冗余

框架无需训练，全部基于 LLM（GPT-4o）的零样本推理。聚类阶段用 TF-IDF + SVD + UMAP + HDBSCAN。精炼阶段 LLM 和 SBERT 协同工作。

将 LLM 定位为"语义判官"而非嵌入生成器是框架的核心思想——利用 LLM 的推理能力做结构验证，而将表示学习留给专门的嵌入模型。这种解耦设计使框架与聚类算法无关，可作为通用后置精炼层
三阶段推理检查点分别针对无监督聚类的三种典型失败模式（不连贯、冗余、不可解释），设计针对性强
在无金标准场景下通过人类评估验证 LLM 标签质量是务实的做法