Neural Topic Modeling with Large Language Models in the Loop¶
会议: ACL2025
arXiv: 2411.08534
代码: GitHub
领域: 主题建模 / LLM增强 / 最优传输
关键词: LLM-ITL, Neural Topic Model, Optimal Transport, Topic Refinement, Confidence Weighting
一句话总结¶
提出LLM-ITL框架,将LLM以"in-the-loop"方式集成到神经主题模型(NTM)训练中,通过基于最优传输的主题对齐目标和置信度加权机制,在保持文档表示质量和计算效率的同时显著提升主题可解释性。
研究背景与动机¶
问题背景¶
主题建模是NLP中的基础任务,用于发现文本集合中的潜在主题结构。神经主题模型(NTM)利用深度神经网络建模文档-主题分布,但生成的主题词列表常缺乏语义连贯性和可解释性。
现有方法的局限¶
纯NTM方法:主题词可能过于笼统、具体或语义模糊,用户难以理解
LLM直接建模:为语料库中每篇文档调用LLM,存在三大问题: - 无法覆盖语料库的全局主题(每次只关注单篇文档) - 长文档多主题场景处理不佳 - 计算成本极高,扩展性差
后处理方法:训练后再用LLM修饰主题词,无法在训练过程中优化主题质量
核心创新¶
将LLM从"后处理工具"或"主导者"转变为"循环内协助者",在NTM训练过程中以词级(而非文档级)方式引入LLM反馈,大幅降低计算成本。
方法详解¶
整体框架¶
LLM-ITL包含三个关键组件:LLM主题建议、OT距离主题对齐、置信度加权精化。
- NTM组件学习全局主题和文档表示
- 预热阶段后,LLM为NTM学到的每个主题建议更好的主题词
- 基于OT的对齐目标驱动NTM主题向LLM建议靠拢
- 置信度机制动态调节LLM影响力
神经主题模型基础¶
NTM基于VAE框架,最大化ELBO: $\(\max_{\theta, \phi} \left(\mathbb{E}_{q_\theta(\mathbf{z}|\mathbf{x})}[\log p_\phi(\mathbf{x}|\mathbf{z})] - \text{KL}[q_\theta(\mathbf{z}|\mathbf{x}) \| p(\mathbf{z})]\right)\)$
解码器 \(\phi \in \mathbb{R}^{V \times K}\) 的权重矩阵第 \(k\) 列归一化后得到第 \(k\) 个主题分布: $\(\mathbf{t}_k = \text{softmax}(\phi_{:,k})^T\)$
主题词 \(\mathbf{w}_k\) 为 \(\mathbf{t}_k\) 中权重最高的 \(N\) 个词。
1. LLM主题建议¶
对每个主题的top词列表 \(\mathbf{w}\),使用CoT提示LLM生成: - 主题标签 \(\mathbf{w}^l\):简洁的主题摘要 - 精化主题词 \(\mathbf{w}'\):更好地表示主题语义的词汇
精化词需过滤确保不含词表外词汇(OOV)。使用Chain-of-Thought提示让LLM逐步推理,先识别不相关词(intruders),再给出标签和建议词。
2. 基于最优传输的主题对齐¶
为什么用OT? OT可以衡量两个词分布之间的语义距离,考虑了词与词之间的相似性(而非简单的KL散度)。
给定原始主题词 \(\mathbf{w}\)(带概率 \(\mathbf{t}\))和LLM精化词 \(\mathbf{w}'\)(均匀分布 \(\mathbf{u}\)),OT距离为: $\(d_{\text{OT}}(\mu(\mathbf{w}, \mathbf{t}), \mu(\mathbf{w}', \mathbf{u})) = \min_{\mathbf{P}} \sum_{i=1}^N \sum_{j=1}^M C_{i,j} P_{i,j}\)$
代价矩阵 \(C\) 使用预训练词嵌入(GloVe)的余弦距离构建: $\(C_{i,j} = d_{\cos}(\mathbf{e}^{w_i}, \mathbf{e}^{w'_j})\)$
通过最小化OT距离,NTM学到的主题词分布向LLM建议的方向对齐。
3. 置信度加权精化¶
LLM可能产生幻觉(不相关建议),需根据置信度调节影响力。
方法一:Label Token Probability(适用于开源LLM) $\(\text{Conf}(\mathbf{w}^l)^{\text{prob}} = \prod_{i=\text{sol}}^{\text{eol}} p(s_i | \mathbf{s}_{<i}, \mathbf{c})\)$
方法二:Word Intrusion Confidence(适用于所有LLM) $\(\text{Conf}(\mathbf{w}^l)^{\text{intrusion}} = 1 - \frac{N^{\text{intruder}}}{N^{\mathbf{w}}}\)$
LLM识别出的intruders越多,说明原始主题越不连贯,LLM标注置信度越低。
4. 总体训练目标¶
结合NTM损失和置信度加权的OT精化损失,带预热: $\(\min_\Theta \left(\mathcal{L}^{\text{ntm}} + \gamma \cdot \mathbf{I}(t > T^{\text{refine}}) \cdot \mathcal{L}^{\text{refine}}\right)\)$
其中 \(\mathcal{L}^{\text{refine}} = \sum_{k=1}^K \text{Conf}(\mathbf{w}_k^l) \cdot d_{\text{OT}}(\mu(\mathbf{w}_k, \mathbf{t}_k), \mu(\mathbf{w}'_k, \mathbf{u}_k))\)。
预热阶段让NTM先学到稳定的语料库表示,避免过度依赖LLM知识。
实验¶
实验设置¶
- 数据集:20Newsgroup (20News), Reuters-21578 (R8), DBpedia, AGNews
- 主题数:长文档(20News, R8) K=50,短文档(DBpedia, AGNews) K=25
- LLM:LLAMA3-8B-Instruct
- OT实现:GloVe词嵌入 + POT包
- 基线:集成8种常用NTM + LDA, BERTopic, TopicGPT
- 评估指标:\(C_V\)(主题连贯性), PN(归一化互信息,文档表示质量)
- 硬件:单卡80GB A100
主要结果(\(C_V\) / PN)¶
| 基线NTM | 原始 \(C_V\) → +LLM-ITL | 提升 |
|---|---|---|
| NVDM | 0.261 → 0.336 | ↑28.7% |
| PLDA | 0.368 → 0.525 | ↑42.7% |
| SCHOLAR | 0.479 → 0.591 | ↑23.4% |
| ETM | 0.491 → 0.578 | ↑17.7% |
| NSTM | 0.444 → 0.521 | ↑17.3% |
| CLNTM | 0.490 → 0.612 | ↑24.9% |
| WeTe | 0.495 → 0.583 | ↑17.8% |
关键发现: 1. 主题连贯性大幅提升:所有8种NTM的 \(C_V\) 在集成LLM-ITL后均显著提升,平均提升约24% 2. 文档表示质量维持:PN指标基本保持不变(变化在±3%以内),说明LLM精化不损害文档表示 3. 超越LDA和BERTopic:集成LLM-ITL后,大多数NTM在 \(C_V\) 上超过传统方法 4. 显著优于TopicGPT:证明LLM-in-the-loop范式优于纯LLM主题建模 5. 效率优势:词级LLM调用远少于文档级(TopicGPT需为每篇文档调用LLM)
消融实验¶
| 组件 | 去除后效果 |
|---|---|
| OT对齐 | \(C_V\) 显著下降,验证OT的关键作用 |
| 置信度加权 | 性能下降,特别是在不连贯主题上 |
| 预热阶段 | 文档表示质量下降,说明预热防止LLM偏向 |
| 不同LLM | LLAMA3-8B > LLAMA2-7B,更强的LLM提供更好的建议 |
亮点与洞察¶
- 范式创新:将LLM从"替代者"转变为"协助者",在NTM训练循环中引入LLM反馈,保持了NTM的效率优势
- OT对齐的巧妙设计:使用最优传输衡量主题词分布差异,比简单的KL散度更能捕捉词级语义关系
- 置信度机制防幻觉:两种置信度计算方法分别适用于开源和闭源LLM,实用性强
- 模块化设计:LLM-ITL可插入任意VAE-based NTM,无需修改基础模型架构
- 词级调用降成本:仅对K个主题的词列表调用LLM(而非N篇文档),计算开销可控
局限性¶
- 依赖LLM的CoT推理质量,弱LLM可能给出低质量建议
- 预热阶段长度和精化强度 \(\gamma\) 需要调参
- OT计算在词表很大时可能成为瓶颈
- 仅在英文语料库上验证,多语言场景有待探索
- GloVe词嵌入可能不如contextual embeddings精确
相关工作¶
- 传统主题模型:LDA及其层次贝叶斯扩展
- 神经主题模型:VAE-based (NVDM, ETM, SCHOLAR), 聚类-based (BERTopic)
- LLM辅助主题建模:TopicGPT(纯LLM生成主题)、ChatGPT生成主题描述
- 最优传输:Word Mover's Distance, Sinkhorn distances
- LLM不确定性估计:token概率校准
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 综合评价 | ⭐⭐⭐⭐ |
这是一篇设计精巧的方法论文。核心思想——让LLM在NTM训练循环中提供词级反馈——既高效又有效。OT对齐目标、置信度加权、预热策略三个组件环环相扣,实验覆盖8种NTM基线和4个数据集,充分验证了框架的通用性和有效性。
相关论文¶
- [ACL 2025] Automated CAD Modeling Sequence Generation from Text Descriptions via Transformer-Based Large Language Models
- [ACL 2025] Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues
- [ACL 2025] Information Locality as an Inductive Bias for Neural Language Models
- [ACL 2025] Exploring Graph Representations of Logical Forms for Language Modeling
- [ACL 2025] Analyzing and Mitigating Inconsistency in Discrete Speech Tokens for Neural Codec Language Models