Neural Topic Modeling with Large Language Models in the Loop¶

会议: ACL2025
arXiv: 2411.08534
代码: GitHub
领域: 主题建模 / LLM增强 / 最优传输
关键词: LLM-ITL, Neural Topic Model, Optimal Transport, Topic Refinement, Confidence Weighting

一句话总结¶

提出LLM-ITL框架，将LLM以"in-the-loop"方式集成到神经主题模型（NTM）训练中，通过基于最优传输的主题对齐目标和置信度加权机制，在保持文档表示质量和计算效率的同时显著提升主题可解释性。

研究背景与动机¶

问题背景¶

主题建模是NLP中的基础任务，用于发现文本集合中的潜在主题结构。神经主题模型（NTM）利用深度神经网络建模文档-主题分布，但生成的主题词列表常缺乏语义连贯性和可解释性。

现有方法的局限¶

纯NTM方法：主题词可能过于笼统、具体或语义模糊，用户难以理解

LLM直接建模：为语料库中每篇文档调用LLM，存在三大问题： - 无法覆盖语料库的全局主题（每次只关注单篇文档） - 长文档多主题场景处理不佳 - 计算成本极高，扩展性差

后处理方法：训练后再用LLM修饰主题词，无法在训练过程中优化主题质量

核心创新¶

将LLM从"后处理工具"或"主导者"转变为"循环内协助者"，在NTM训练过程中以词级（而非文档级）方式引入LLM反馈，大幅降低计算成本。

方法详解¶

整体框架¶

LLM-ITL包含三个关键组件：LLM主题建议、OT距离主题对齐、置信度加权精化。

NTM组件学习全局主题和文档表示
预热阶段后，LLM为NTM学到的每个主题建议更好的主题词
基于OT的对齐目标驱动NTM主题向LLM建议靠拢
置信度机制动态调节LLM影响力

神经主题模型基础¶

NTM基于VAE框架，最大化ELBO： $$\max_{\theta, \phi} \left(\mathbb{E}_{q_\theta(\mathbf{z}|\mathbf{x})}[\log p_\phi(\mathbf{x}|\mathbf{z})] - \text{KL}[q_\theta(\mathbf{z}|\mathbf{x}) \| p(\mathbf{z})]\right)$$

解码器 $\phi \in \mathbb{R}^{V \times K}$ 的权重矩阵第 $k$ 列归一化后得到第 $k$ 个主题分布： $$\mathbf{t}_k = \text{softmax}(\phi_{:,k})^T$$

主题词 $\mathbf{w}_k$ 为 $\mathbf{t}_k$ 中权重最高的 $N$ 个词。

1. LLM主题建议¶

对每个主题的top词列表 $\mathbf{w}$，使用CoT提示LLM生成： - 主题标签 $\mathbf{w}^l$：简洁的主题摘要 - 精化主题词 $\mathbf{w}'$：更好地表示主题语义的词汇

\[\mathbf{s} = \theta^{\text{llm}}(\text{Prompt}(\mathbf{w}))\]

精化词需过滤确保不含词表外词汇（OOV）。使用Chain-of-Thought提示让LLM逐步推理，先识别不相关词（intruders），再给出标签和建议词。

2. 基于最优传输的主题对齐¶

为什么用OT？ OT可以衡量两个词分布之间的语义距离，考虑了词与词之间的相似性（而非简单的KL散度）。

给定原始主题词 $\mathbf{w}$（带概率 $\mathbf{t}$）和LLM精化词 $\mathbf{w}'$（均匀分布 $\mathbf{u}$），OT距离为： $$d_{\text{OT}}(\mu(\mathbf{w}, \mathbf{t}), \mu(\mathbf{w}', \mathbf{u})) = \min_{\mathbf{P}} \sum_{i=1}^N \sum_{j=1}^M C_{i,j} P_{i,j}$$

代价矩阵 $C$ 使用预训练词嵌入（GloVe）的余弦距离构建： $$C_{i,j} = d_{\cos}(\mathbf{e}^{w_i}, \mathbf{e}^{w'_j})$$

通过最小化OT距离，NTM学到的主题词分布向LLM建议的方向对齐。

3. 置信度加权精化¶

LLM可能产生幻觉（不相关建议），需根据置信度调节影响力。

方法一：Label Token Probability（适用于开源LLM） $$\text{Conf}(\mathbf{w}^l)^{\text{prob}} = \prod_{i=\text{sol}}^{\text{eol}} p(s_i | \mathbf{s}_{<i}, \mathbf{c})$$

方法二：Word Intrusion Confidence（适用于所有LLM） $$\text{Conf}(\mathbf{w}^l)^{\text{intrusion}} = 1 - \frac{N^{\text{intruder}}}{N^{\mathbf{w}}}$$

LLM识别出的intruders越多，说明原始主题越不连贯，LLM标注置信度越低。

4. 总体训练目标¶

结合NTM损失和置信度加权的OT精化损失，带预热： $$\min_\Theta \left(\mathcal{L}^{\text{ntm}} + \gamma \cdot \mathbf{I}(t > T^{\text{refine}}) \cdot \mathcal{L}^{\text{refine}}\right)$$

其中 $\mathcal{L}^{\text{refine}} = \sum_{k=1}^K \text{Conf}(\mathbf{w}_k^l) \cdot d_{\text{OT}}(\mu(\mathbf{w}_k, \mathbf{t}_k), \mu(\mathbf{w}'_k, \mathbf{u}_k))$。

预热阶段让NTM先学到稳定的语料库表示，避免过度依赖LLM知识。

实验¶

实验设置¶

数据集：20Newsgroup (20News), Reuters-21578 (R8), DBpedia, AGNews
主题数：长文档(20News, R8) K=50，短文档(DBpedia, AGNews) K=25
LLM：LLAMA3-8B-Instruct
OT实现：GloVe词嵌入 + POT包
基线：集成8种常用NTM + LDA, BERTopic, TopicGPT
评估指标：$C_V$（主题连贯性）, PN（归一化互信息，文档表示质量）
硬件：单卡80GB A100

主要结果（$C_V$ / PN）¶

基线NTM	原始 $C_V$ → +LLM-ITL	提升
NVDM	0.261 → 0.336	↑28.7%
PLDA	0.368 → 0.525	↑42.7%
SCHOLAR	0.479 → 0.591	↑23.4%
ETM	0.491 → 0.578	↑17.7%
NSTM	0.444 → 0.521	↑17.3%
CLNTM	0.490 → 0.612	↑24.9%
WeTe	0.495 → 0.583	↑17.8%

关键发现： 1. 主题连贯性大幅提升：所有8种NTM的 $C_V$ 在集成LLM-ITL后均显著提升，平均提升约24% 2. 文档表示质量维持：PN指标基本保持不变（变化在±3%以内），说明LLM精化不损害文档表示 3. 超越LDA和BERTopic：集成LLM-ITL后，大多数NTM在 $C_V$ 上超过传统方法 4. 显著优于TopicGPT：证明LLM-in-the-loop范式优于纯LLM主题建模 5. 效率优势：词级LLM调用远少于文档级（TopicGPT需为每篇文档调用LLM）

消融实验¶

组件	去除后效果
OT对齐	$C_V$ 显著下降，验证OT的关键作用
置信度加权	性能下降，特别是在不连贯主题上
预热阶段	文档表示质量下降，说明预热防止LLM偏向
不同LLM	LLAMA3-8B > LLAMA2-7B，更强的LLM提供更好的建议

亮点与洞察¶

范式创新：将LLM从"替代者"转变为"协助者"，在NTM训练循环中引入LLM反馈，保持了NTM的效率优势
OT对齐的巧妙设计：使用最优传输衡量主题词分布差异，比简单的KL散度更能捕捉词级语义关系
置信度机制防幻觉：两种置信度计算方法分别适用于开源和闭源LLM，实用性强
模块化设计：LLM-ITL可插入任意VAE-based NTM，无需修改基础模型架构
词级调用降成本：仅对K个主题的词列表调用LLM（而非N篇文档），计算开销可控

局限性¶

依赖LLM的CoT推理质量，弱LLM可能给出低质量建议
预热阶段长度和精化强度 $\gamma$ 需要调参
OT计算在词表很大时可能成为瓶颈
仅在英文语料库上验证，多语言场景有待探索
GloVe词嵌入可能不如contextual embeddings精确

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
综合评价	⭐⭐⭐⭐

这是一篇设计精巧的方法论文。核心思想——让LLM在NTM训练循环中提供词级反馈——既高效又有效。OT对齐目标、置信度加权、预热策略三个组件环环相扣，实验覆盖8种NTM基线和4个数据集，充分验证了框架的通用性和有效性。