ERU-KG: Efficient Reference-aligned Unsupervised Keyphrase Generation¶

会议: ACL 2025
arXiv: 2505.24219
代码: https://github.com/louisdo/eru-kg
领域: NLP理解
关键词: 无监督关键短语生成、信息量估计、参考对齐、短语性建模、文本检索

一句话总结¶

ERU-KG 提出了一个由信息量模块和短语性模块组成的无监督关键短语生成框架，通过参考文本（查询、引用上下文、标题）在词项级别学习信息量估计，在关键短语生成基准上超越所有无监督基线并达到有监督模型 89% 的性能，同时推理速度最快。

研究背景与动机¶

领域现状：关键短语预测（Keyphrase Prediction）是 NLP 中的基础任务，用于从文档中提取或生成代表核心内容的短语。无监督方法因不需要标注数据而越来越受关注，主流方法包括基于图的方法（TextRank 等）和基于嵌入的方法。

现有痛点：现有无监督方法主要依赖启发式定义的重要性分数来估计短语的信息量，这种人为定义的度量可能导致不准确的信息量估计。此外，现有方法普遍忽略了推理效率问题——它们需要对每个候选短语显式建模和评分，在大规模应用中效率低下。

核心矛盾：准确的信息量估计需要理解短语在不同上下文中的语义角色，但无监督方法缺乏这种信号来源。同时，候选短语级别的评分方式导致计算量随候选数量线性增长。

本文目标：设计一个既能准确估计关键短语信息量、又具有高推理效率的无监督关键短语生成模型。

切入角度：作者观察到，文档的关键概念往往可以通过其"参考文本"（如引用该文档的上下文、搜索查询、文档标题）来反映——这些参考文本天然地捕捉了人们如何感知文档的核心内容。

核心 idea：用参考文本（references）来学习词项级别的信息量，然后通过聚合词项信息量来高效估计短语信息量，无需对候选短语显式建模。

方法详解¶

整体框架¶

ERU-KG 包含两个核心模块：信息量模块（Informativeness Module）估计每个词项的信息量分数，短语性模块（Phraseness Module）负责生成候选关键短语。最终的关键短语分数通过融合两个模块的输出得到。输入一篇文档，信息量模块利用预训练的参考对齐表示为每个词计算信息量分数，短语性模块通过序列标注生成候选短语，二者的分数相乘后排序输出最终的关键短语列表。

关键设计¶

参考对齐信息量模块（Reference-aligned Informativeness Module）:
- 功能：学习文档中每个词项的信息量分数
- 核心思路：利用参考文本（查询、引用上下文、标题等）作为监督信号训练信息量估计器。具体地，将文档中的词项表示与参考文本的表示进行对齐学习，使得与参考文本语义匹配度高的词项获得更高的信息量分数。关键创新在于在词项级别（term-level）而非短语级别进行信息量估计，短语信息量通过聚合其组成词项的分数得到，公式为 \(s_{info}(p) = \text{Agg}(s(t_1), ..., s(t_k))\)
- 设计动机：词项级别估计避免了对候选短语的显式枚举和评分，大幅提升效率；参考文本提供了人类视角下的文档核心概念信号
短语性模块（Phraseness Module）:
- 功能：生成语法正确的候选关键短语
- 核心思路：采用序列标注模型将文档中的 token 标记为关键短语的 B（开始）、I（内部）或 O（外部）标签。通过对参考文本中出现的关键短语片段进行弱监督训练，不需要手动标注数据。该模块可以生成文档中未出现的短语（即关键短语生成，区别于提取）
- 设计动机：将短语生成与信息量估计解耦，使得两个任务可以独立优化；序列标注方式保证了生成短语的语法正确性
生成/提取模式切换:
- 功能：通过调节超参数在关键短语生成和提取两种模式间灵活切换
- 核心思路：当短语性模块的权重设为 0 时，模型退化为纯提取模式，仅依据信息量分数对文档中的 n-gram 进行排序；当两个模块都参与时进入生成模式，可以产出文档中不存在的短语组合
- 设计动机：不同应用场景对关键短语有不同需求，提取模式更保守可靠，生成模式覆盖面更广，灵活切换提升了模型的实用性

损失函数 / 训练策略¶

信息量模块使用对比学习损失，将文档词项表示与对应参考文本表示拉近、与非相关参考文本表示推远。短语性模块使用标准的序列标注交叉熵损失，以参考文本中识别出的短语边界作为弱标签。两个模块可以独立训练也可以联合训练。

实验关键数据¶

主实验¶

在多个关键短语生成基准数据集上的表现（F1@10）：

数据集	指标	ERU-KG	最佳无监督基线	有监督模型
Inspec	F1@10	最优	低于 ERU-KG	对照上限
SemEval	F1@10	最优	低于 ERU-KG	对照上限
NUS	F1@10	最优	低于 ERU-KG	对照上限
Krapivin	F1@10	最优	低于 ERU-KG	对照上限
平均	F1@10	达到有监督89%	-	100%

ERU-KG 在所有基准上均超越无监督基线，平均达到有监督模型 89% 的 F1@10 性能。

消融实验¶

配置	关键指标	说明
ERU-KG (完整)	最优 F1	信息量 + 短语性双模块
仅信息量模块	F1 下降	退化为提取模式，缺少生成能力
仅短语性模块	F1 显著下降	缺少信息量引导，候选质量差
替换参考类型	F1 变化	不同参考文本（查询/引用/标题）各有优势

关键发现¶

信息量模块是核心贡献，去掉后性能显著下降；短语性模块提供额外的生成能力增益
不同类型的参考文本（查询 vs 引用上下文 vs 标题）在不同数据集上表现各异，说明参考文本的选择需要根据应用场景调整
在文本检索任务中，ERU-KG 生成的关键短语作为查询和文档扩展都有效，证明了生成短语的语义质量
推理速度测试表明 ERU-KG 是同等模型规模中最快的方法，因为词项级别聚合避免了候选短语级别的逐一评分

亮点与洞察¶

词项级别信息量聚合是一个非常巧妙的设计——将 O(n) 的候选评分问题转化为 O(1) 的词聚合操作，同时保持了准确性。这个思路可以迁移到任何需要对组合单元评分的任务中
参考文本作为信息量代理的想法很有启发性——利用文档在不同上下文中被如何引用/查询来反推其核心概念，本质上是一种基于使用的语义理解
模型在 HuggingFace 上开源了两个版本（67M base 和 35.1M small），实用性很强

局限与展望¶

依赖参考文本（查询、引用上下文）的可用性，对于新发布/冷启动文档可能缺少这类信号
论文只在英文数据集上评测，多语言泛化能力未知
短语性模块基于序列标注，对于非连续短语或需要改写的关键短语生成能力有限
可以探索将参考对齐思想扩展到其他信息抽取任务（如摘要生成、实体链接）

评分¶

新颖性: ⭐⭐⭐⭐ 参考对齐 + 词项级聚合的组合是新颖的，但各个组成部分相对标准
实验充分度: ⭐⭐⭐⭐ 多数据集评测 + 检索下游任务 + 速度测试，较为全面
写作质量: ⭐⭐⭐⭐ 摘要清晰，动机和方法描述逻辑通顺
价值: ⭐⭐⭐⭐ 开源模型 + 实际可用的推理速度，实用价值较高