跳转至

Neural Topic Modeling with Large Language Models in the Loop

会议: ACL2025
arXiv: 2411.08534
代码: GitHub
领域: 主题建模 / LLM增强 / 最优传输
关键词: LLM-ITL, Neural Topic Model, Optimal Transport, Topic Refinement, Confidence Weighting

一句话总结

提出LLM-ITL框架,将LLM以"in-the-loop"方式集成到神经主题模型(NTM)训练中,通过基于最优传输的主题对齐目标和置信度加权机制,在保持文档表示质量和计算效率的同时显著提升主题可解释性。

研究背景与动机

问题背景

主题建模是NLP中的基础任务,用于发现文本集合中的潜在主题结构。神经主题模型(NTM)利用深度神经网络建模文档-主题分布,但生成的主题词列表常缺乏语义连贯性和可解释性。

现有方法的局限

纯NTM方法:主题词可能过于笼统、具体或语义模糊,用户难以理解

LLM直接建模:为语料库中每篇文档调用LLM,存在三大问题: - 无法覆盖语料库的全局主题(每次只关注单篇文档) - 长文档多主题场景处理不佳 - 计算成本极高,扩展性差

后处理方法:训练后再用LLM修饰主题词,无法在训练过程中优化主题质量

核心创新

将LLM从"后处理工具"或"主导者"转变为"循环内协助者",在NTM训练过程中以词级(而非文档级)方式引入LLM反馈,大幅降低计算成本。

方法详解

整体框架

LLM-ITL包含三个关键组件:LLM主题建议、OT距离主题对齐、置信度加权精化。

  1. NTM组件学习全局主题和文档表示
  2. 预热阶段后,LLM为NTM学到的每个主题建议更好的主题词
  3. 基于OT的对齐目标驱动NTM主题向LLM建议靠拢
  4. 置信度机制动态调节LLM影响力

神经主题模型基础

NTM基于VAE框架,最大化ELBO: $\(\max_{\theta, \phi} \left(\mathbb{E}_{q_\theta(\mathbf{z}|\mathbf{x})}[\log p_\phi(\mathbf{x}|\mathbf{z})] - \text{KL}[q_\theta(\mathbf{z}|\mathbf{x}) \| p(\mathbf{z})]\right)\)$

解码器 \(\phi \in \mathbb{R}^{V \times K}\) 的权重矩阵第 \(k\) 列归一化后得到第 \(k\) 个主题分布: $\(\mathbf{t}_k = \text{softmax}(\phi_{:,k})^T\)$

主题词 \(\mathbf{w}_k\)\(\mathbf{t}_k\) 中权重最高的 \(N\) 个词。

1. LLM主题建议

对每个主题的top词列表 \(\mathbf{w}\),使用CoT提示LLM生成: - 主题标签 \(\mathbf{w}^l\):简洁的主题摘要 - 精化主题词 \(\mathbf{w}'\):更好地表示主题语义的词汇

\[\mathbf{s} = \theta^{\text{llm}}(\text{Prompt}(\mathbf{w}))\]

精化词需过滤确保不含词表外词汇(OOV)。使用Chain-of-Thought提示让LLM逐步推理,先识别不相关词(intruders),再给出标签和建议词。

2. 基于最优传输的主题对齐

为什么用OT? OT可以衡量两个词分布之间的语义距离,考虑了词与词之间的相似性(而非简单的KL散度)。

给定原始主题词 \(\mathbf{w}\)(带概率 \(\mathbf{t}\))和LLM精化词 \(\mathbf{w}'\)(均匀分布 \(\mathbf{u}\)),OT距离为: $\(d_{\text{OT}}(\mu(\mathbf{w}, \mathbf{t}), \mu(\mathbf{w}', \mathbf{u})) = \min_{\mathbf{P}} \sum_{i=1}^N \sum_{j=1}^M C_{i,j} P_{i,j}\)$

代价矩阵 \(C\) 使用预训练词嵌入(GloVe)的余弦距离构建: $\(C_{i,j} = d_{\cos}(\mathbf{e}^{w_i}, \mathbf{e}^{w'_j})\)$

通过最小化OT距离,NTM学到的主题词分布向LLM建议的方向对齐。

3. 置信度加权精化

LLM可能产生幻觉(不相关建议),需根据置信度调节影响力。

方法一:Label Token Probability(适用于开源LLM) $\(\text{Conf}(\mathbf{w}^l)^{\text{prob}} = \prod_{i=\text{sol}}^{\text{eol}} p(s_i | \mathbf{s}_{<i}, \mathbf{c})\)$

方法二:Word Intrusion Confidence(适用于所有LLM) $\(\text{Conf}(\mathbf{w}^l)^{\text{intrusion}} = 1 - \frac{N^{\text{intruder}}}{N^{\mathbf{w}}}\)$

LLM识别出的intruders越多,说明原始主题越不连贯,LLM标注置信度越低。

4. 总体训练目标

结合NTM损失和置信度加权的OT精化损失,带预热: $\(\min_\Theta \left(\mathcal{L}^{\text{ntm}} + \gamma \cdot \mathbf{I}(t > T^{\text{refine}}) \cdot \mathcal{L}^{\text{refine}}\right)\)$

其中 \(\mathcal{L}^{\text{refine}} = \sum_{k=1}^K \text{Conf}(\mathbf{w}_k^l) \cdot d_{\text{OT}}(\mu(\mathbf{w}_k, \mathbf{t}_k), \mu(\mathbf{w}'_k, \mathbf{u}_k))\)

预热阶段让NTM先学到稳定的语料库表示,避免过度依赖LLM知识。

实验

实验设置

  • 数据集:20Newsgroup (20News), Reuters-21578 (R8), DBpedia, AGNews
  • 主题数:长文档(20News, R8) K=50,短文档(DBpedia, AGNews) K=25
  • LLM:LLAMA3-8B-Instruct
  • OT实现:GloVe词嵌入 + POT包
  • 基线:集成8种常用NTM + LDA, BERTopic, TopicGPT
  • 评估指标\(C_V\)(主题连贯性), PN(归一化互信息,文档表示质量)
  • 硬件:单卡80GB A100

主要结果(\(C_V\) / PN)

基线NTM 原始 \(C_V\) → +LLM-ITL 提升
NVDM 0.261 → 0.336 ↑28.7%
PLDA 0.368 → 0.525 ↑42.7%
SCHOLAR 0.479 → 0.591 ↑23.4%
ETM 0.491 → 0.578 ↑17.7%
NSTM 0.444 → 0.521 ↑17.3%
CLNTM 0.490 → 0.612 ↑24.9%
WeTe 0.495 → 0.583 ↑17.8%

关键发现: 1. 主题连贯性大幅提升:所有8种NTM的 \(C_V\) 在集成LLM-ITL后均显著提升,平均提升约24% 2. 文档表示质量维持:PN指标基本保持不变(变化在±3%以内),说明LLM精化不损害文档表示 3. 超越LDA和BERTopic:集成LLM-ITL后,大多数NTM在 \(C_V\) 上超过传统方法 4. 显著优于TopicGPT:证明LLM-in-the-loop范式优于纯LLM主题建模 5. 效率优势:词级LLM调用远少于文档级(TopicGPT需为每篇文档调用LLM)

消融实验

组件 去除后效果
OT对齐 \(C_V\) 显著下降,验证OT的关键作用
置信度加权 性能下降,特别是在不连贯主题上
预热阶段 文档表示质量下降,说明预热防止LLM偏向
不同LLM LLAMA3-8B > LLAMA2-7B,更强的LLM提供更好的建议

亮点与洞察

  1. 范式创新:将LLM从"替代者"转变为"协助者",在NTM训练循环中引入LLM反馈,保持了NTM的效率优势
  2. OT对齐的巧妙设计:使用最优传输衡量主题词分布差异,比简单的KL散度更能捕捉词级语义关系
  3. 置信度机制防幻觉:两种置信度计算方法分别适用于开源和闭源LLM,实用性强
  4. 模块化设计:LLM-ITL可插入任意VAE-based NTM,无需修改基础模型架构
  5. 词级调用降成本:仅对K个主题的词列表调用LLM(而非N篇文档),计算开销可控

局限性

  1. 依赖LLM的CoT推理质量,弱LLM可能给出低质量建议
  2. 预热阶段长度和精化强度 \(\gamma\) 需要调参
  3. OT计算在词表很大时可能成为瓶颈
  4. 仅在英文语料库上验证,多语言场景有待探索
  5. GloVe词嵌入可能不如contextual embeddings精确

相关工作

  • 传统主题模型:LDA及其层次贝叶斯扩展
  • 神经主题模型:VAE-based (NVDM, ETM, SCHOLAR), 聚类-based (BERTopic)
  • LLM辅助主题建模:TopicGPT(纯LLM生成主题)、ChatGPT生成主题描述
  • 最优传输:Word Mover's Distance, Sinkhorn distances
  • LLM不确定性估计:token概率校准

评分

维度 分数
新颖性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐⭐
实验充分度 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
综合评价 ⭐⭐⭐⭐

这是一篇设计精巧的方法论文。核心思想——让LLM在NTM训练循环中提供词级反馈——既高效又有效。OT对齐目标、置信度加权、预热策略三个组件环环相扣,实验覆盖8种NTM基线和4个数据集,充分验证了框架的通用性和有效性。

相关论文