跳转至

TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora

会议: ACL2025 arXiv: 2506.10737 代码: pkargupta/taxoadapt 领域: llm_nlp 关键词: 自动分类体系构建, LLM对齐, 多维度分类, 层次文本分类, 科学文献组织

一句话总结

提出 TaxoAdapt 框架,通过层次分类驱动的深度/宽度扩展和分类感知聚类,将 LLM 生成的多维度分类体系动态对齐到特定科学语料库,在粒度保持和兄弟节点一致性上分别超越最优基线 26.51% 和 50.41%。

研究背景与动机

  1. 科学文献爆发式增长:近年来科学文献数量急剧增加,新研究分支不断涌现(如生成模型的兴起),使得组织和检索领域知识变得极具挑战性。
  2. 人工策划分类体系的局限:专家手工构建分类体系虽能保证质量,但成本高、周期长,难以跟上快速演进的研究领域。
  3. 语料驱动方法的不足:传统的自动分类体系构建(ATC)方法直接从文本中提取主题和关系,但受限于语料词汇表,缺乏广泛的背景知识,且未利用 LLM 的能力。
  4. LLM 方法的盲区:现有 LLM 方法虽能生成通用分类体系,但过度依赖预训练数据中的通用知识,缺乏与特定领域语料对齐的机制,无法反映特定语料中的研究趋势。
  5. 多维度视角的缺失:一篇论文可能同时贡献于多个维度(任务、方法、数据集、评估指标等),但现有方法均局限于单一维度的分类体系构建,忽视了科学文献的多面性。
  6. 动态演化的需求:研究领域持续演化,新子领域涌现、旧领域消退(如 BERT 时代→RLHF 时代),分类体系需要能够反映这种时间维度上的变化。

方法详解

整体框架

TaxoAdapt 是一个将 LLM 生成的分类体系动态对齐到科学语料库的多维度框架。给定主题 \(t\)、维度集合 \(D\)(任务、方法、数据集、评估方法、现实应用)和科学语料 \(P\),输出 \(|D|\) 个维度特定的分类体系。整体流程分为三个阶段:

  1. 多维度分类(Multi-Dimension Classification):将语料按论文贡献的维度进行多标签分类,划分为 \(|D|\) 个可能重叠的子集 \(P_d \subseteq P\)
  2. 自顶向下分类体系构建(Top-Down Construction):通过层次文本分类识别需要扩展的节点,执行深度扩展和宽度扩展
  3. 分类感知聚类(Taxonomy-Aware Clustering):利用 LLM 的聚类能力为待扩展节点生成粒度一致、低冗余的子节点

关键设计

多维度分类:利用 LLM 进行多标签分类,根据论文的 title 和 abstract 判断其贡献的维度。五个维度的定义如下: - 任务(Task):所有论文默认关联至少一个任务 - 方法(Methodology):引入或改进方法/方案的论文 - 数据集(Datasets):引入新数据集的论文 - 评估方法(Evaluation Methods):评估模型性能或提出新评估指标的论文 - 现实应用(Real-World Domains):解决特定领域实际问题的论文

深度扩展信号:当叶子节点 \(n_{i,d}\) 的密度 \(\rho(n_{i,d}) \geq \delta\) 时触发,表示该主题被语料深入探索但分类体系不够精细,需要向下扩展更细粒度的子主题。

宽度扩展信号:基于非叶节点的未映射密度 \(\tilde{\rho}(n_{i,d})\),即映射到父节点但未被任何现有子节点覆盖的论文数。当 \(\tilde{\rho} > \delta\) 时,说明现有子节点不足以覆盖语料中的研究方向,需要增加新的兄弟节点。

子主题伪标签生成:对映射到待扩展节点的每篇论文,利用 LLM 根据其 title/abstract 以及当前节点的维度、层级、祖先路径等上下文信息,生成维度和粒度一致的伪标签。

子主题聚类:基于伪标签列表,利用 LLM 的聚类能力,在维度和粒度感知的上下文中确定最佳子主题簇,生成每个簇的标签和描述,作为新的子节点加入分类体系。

训练策略

  • 采用混合模型策略优化成本:Llama-3.1-8B 负责维度分类 + 层次分类信号 + 子主题伪标签生成;GPT-4o-mini 负责初始分类体系构建和子主题聚类
  • 分类体系定义为有向无环图(DAG),允许单个节点拥有多个父节点(如"科学问答"可同时属于"问答"和"科学推理")
  • 迭代逐层处理:每层执行分类→识别扩展信号→聚类扩展,直到无节点触发扩展或达到最大深度

实验关键数据

数据集

会议 论文数 主题
EMNLP 2022 828 NLP
EMNLP 2024 2954 NLP
ICRA 2020 1000 机器人
ICLR 2024 2260 深度学习
总计 7042 -

主实验结果(所有数据集维度平均,×100)

模型 Path↑ Sib↑ Dim↑ Rel↑ Cover↑
Chain-of-Layers 47.5 55.5 95.0 81.1 50.9
With-Corpus LLM 65.2 31.7 89.5 79.7 39.4
TaxoCom 27.7 53.6 91.8 92.6 61.6
TaxoAdapt 82.4 83.5 99.4 85.3 55.5
- No Dim 89.1 81.3 99.6 82.5 64.8
- No Clustering 73.8 71.3 96.0 81.1 54.2

标准差对比

模型 Path Sib Dim Rel Cover
Chain-of-Layers 0.078 0.109 0.008 0.043 0.005
TaxoAdapt 0.027 0.021 0.007 0.043 0.015

关键发现

  1. 粒度保持大幅提升:TaxoAdapt 的分类体系在 Path Granularity 上比最优基线高 26.51%,在 Sibling Coherence 上高 50.41%,表明其生成的层次关系更为精确、兄弟节点粒度更加一致。
  2. 跨维度鲁棒性强:TaxoAdapt 在所有粒度指标上标准差最低,说明其在不同研究维度上表现稳定,不偏向特定维度。
  3. 语料演化追踪:在 EMNLP'22→EMNLP'24 的案例中,TaxoAdapt 捕捉到了 masked language modeling 热度下降、instruction-based LM 崛起等趋势,节点数从 62 增至 99。
  4. 纯开源模型仍具竞争力:完全使用 Llama-3.1-8B 的 TaxoAdapt 变体,性能仍可与 GPT 基线持平甚至超越。

亮点与洞察

  • 分类信号驱动扩展的设计非常巧妙:用论文在节点上的聚集密度和未映射密度作为扩展信号,避免了盲目扩展,实现了"按需增长"
  • 多维度视角是该工作的重要创新:意识到一篇论文可能同时贡献任务、方法、数据集等多个方面,而非仅局限于任务维度
  • 将分类体系建模为 DAG 而非树,更符合科学文献中概念间的交叉关系
  • 利用 LLM 聚类能力代替传统聚类算法,使得聚类过程可以融入维度和粒度上下文,生成更语义一致的子节点
  • 混合开源/闭源模型的策略有效降低了成本,同时保持了高性能

局限性 / 可改进方向

  1. LLM 知识过时风险:维度分类依赖 LLM 的参数化知识,当出现新概念与旧概念同名时可能分类错误(如新 benchmark 与同名方法混淆)
  2. 下游应用待验证:生成的分类体系在检索增强和研究助手方面的实际应用尚未被充分探索
  3. 评估主要依赖 LLM 打分:虽然补充了人类评估,但主要指标由 GPT-4o/4o-mini 判断,存在一定偏差
  4. 维度定义需人工指定:五个维度的选择和定义依赖领域专家,泛化到非 CS 领域时可能需要调整
  5. 可扩展性:对大规模语料的处理效率尚未详细讨论,逐篇论文进行 LLM 分类的成本可能较高

相关工作与启发

vs Chain-of-Layer (Zeng et al., 2024)

Chain-of-Layer 是纯 LLM 方法,仅依赖预训练知识逐层构建分类体系,缺乏语料对齐。TaxoAdapt 通过引入分类信号实现了语料驱动的扩展,在 Path (+34.9) 和 Sib (+28.0) 指标上大幅领先,说明纯 LLM 知识不足以捕捉特定语料的研究趋势。

vs TaxoCom (Lee et al., 2022)

TaxoCom 是纯语料驱动方法,从文本中聚类提取实体完成分类体系。虽然其 Relevance 和 Coverage 较高(因选取了粗粒度节点),但 Path Granularity 极低(27.7 vs 82.4),说明缺乏 LLM 背景知识导致层次关系质量差。TaxoAdapt 通过融合两者优势实现了更好的平衡。

vs TaxoInstruct (Shen et al., 2024)

TaxoInstruct 统一了实体集扩展、分类体系扩展和种子引导构建三个任务,但仍依赖预定义实体集。TaxoAdapt 不需要用户提供实体集,而是通过文档级推理自动发现新实体,更适用于快速演化的领域。

评分

  • 新颖性: 8/10 — 首次提出多维度+语料对齐的分类体系构建框架,分类信号驱动扩展的思路新颖
  • 实验充分度: 8/10 — 4个数据集×5个维度,配合消融实验、开源模型实验、演化案例分析和人类评估
  • 写作质量: 8/10 — 问题定义清晰,算法伪代码完整,图表丰富
  • 价值: 7/10 — 对科学文献组织和知识管理有实际价值,但下游应用场景的验证尚不充分