Hierarchical Level-Wise News Article Clustering via Multilingual Matryoshka Embeddings¶
会议: ACL 2025
arXiv: 2506.00277
领域: NLP 理解
关键词: Matryoshka embeddings, hierarchical clustering, multilingual, news clustering, contrastive learning
一句话总结¶
本文提出利用多语言 Matryoshka 嵌入的分层特性进行新闻文章聚类:低维捕捉主题级相似度、中维捕捉叙事级相似度、高维捕捉事件级相似度,结合改良的 RAC 层级聚类算法,在 SemEval 2022 Task 8 上达到 SOTA(Pearson ρ = 0.816)。
研究背景与动机¶
- 新闻生态系统日益全球化与碎片化,跨语言追踪新闻故事、主题和叙事具有重要意义
- 现有方法的三大不足:
- 可扩展性差:GPT-4 等解码器模型成本过高,无法大规模处理
- 相似度定义模糊:编码器模型仅用简单 cosine 相似度,无法区分"同一事件"、"同一主题"、"同一主题领域"
- 多语言支持弱:多数方法仅支持单语且聚类数量需先验确定
- 核心思路:Matryoshka 表示学习天然具有嵌套结构,利用不同维度子集编码不同层级的语义相似度
方法详解¶
整体框架¶
两阶段方法: 1. 训练多语言 Matryoshka 嵌入:在不同维度粒度上学习不同层级的新闻相似度 2. 层级聚类:利用嵌入的层级结构,通过改良 RAC 算法自动识别故事、叙事和主题
关键设计¶
改进的 AngIE 损失函数用于 MRL 训练: - 在 d/4 维度:仅将 "Very Dissimilar" 对视为负样本(学习主题级区分) - 在 d/2 维度:将 "Very Dissimilar" + "Somewhat Dissimilar" 视为负样本(学习叙事级区分) - 在 d 全维度:进一步区分 "Somewhat Similar" 和 "Very Similar"(学习事件级区分) - 损失函数 = AngIE cosine + contrastive in-batch negative + angle objective - 引入 SimCSE 策略:同一输入用不同 dropout 编码两次作为正样本对,显著提升质量
层级 RAC 聚类算法: - 第 1 层(主题):使用 d/4 维嵌入,互为最近邻的点合并,直到最大相似度低于阈值 λ₁ - 第 2 层(叙事):在每个主题内用 d/2 维嵌入继续合并,阈值 λ₂ - 第 3 层(事件):用全维度 d 嵌入细分,阈值 λ₃ - 阈值通过验证集 F1 分数确定
数据增强: - 风格改写:GPT-4o 对每篇文章生成 3 种不同风格变体 - 实体敏感性:用 Spacy + T5 替换命名实体,生成 "Somewhat Similar" 样本 - 多语言扩展:将原始 10 种语言扩展到 54 种语言(GPT-4o 翻译) - 最终训练集:410 万文章对(原始数据仅 ~37K URL)
实验关键数据¶
主实验¶
SemEval 2022 Task 8 相似度评估(Pearson ρ): | 模型 | SE-22 原始 | SE-22 扩展(54语言) | |------|-----------|-------------------| | mE5-base(未微调) | 0.604 | 0.582 | | fine-mE5-base | 0.817 | 0.812 | | mat-mE5-base-192维 | 0.799 | 0.808 | | mat-mE5-base-384维 | 0.792 | 0.816 | | GateNLP-UShef (前SOTA) | 0.801 | — |
区分不同相似度级别的 AUROC(mat-mE5): - ≥ Somewhat Dissimilar: 0.948 (SE-22) / 0.960 (扩展) - ≥ Somewhat Similar: 0.949 / 0.967 - ≥ Very Similar: 0.934 / 0.962 - 全面优于所有对比模型
关键发现¶
- SimCSE dropout 策略关键:去掉后 ρ 从 0.799 降至 0.693(192维),降幅 >10 个百分点
- 去掉 contrastive 损失:ρ 降至接近 0,模型完全失效
- 数据增强效果:仅用原始 SemEval 数据训练在扩展测试集上 ρ 明显下降(192维 0.828→0.706)
- Matryoshka 优势可视化:不同维度的 cosine 相似度分布在相似度等级间有明显分离,而传统嵌入没有这一特性
亮点与洞察¶
- 创新性地利用 Matryoshka 嵌入的"内在层级结构"编码新闻文章的多粒度语义相似度,非常自然且优雅
- 改进 AngIE 损失在不同维度应用不同相似度阈值的设计巧妙,使嵌入低维学习粗粒度语义、高维学习细粒度语义
- 数据增强策略全面(风格/实体/语言),将原始数据从 ~37K 扩展到 410 万,有效提升多语言泛化
- 聚类算法无需预设类别数,与 Matryoshka 嵌入的层级结构完美匹配
- 实际应用价值高:新闻追踪、舆情分析、跨语言信息整合
局限性¶
- 依赖 GPT-4o 进行大规模数据增强(风格改写、翻译),成本较高且可能引入模型偏差
- 聚类阈值 λ 需在验证集上调参,不同数据集可能需要不同阈值
- 测试集部分由 GPT-4o 翻译生成,可能高估多语言性能
- 论文主要在新闻领域验证,对其他文本类型(学术、社交媒体原生内容)的泛化性未充分验证
- 基座模型为 mE5-base(768维),更大模型是否有更好的层级分离能力未探讨
相关工作¶
- Matryoshka 表示学习:Kusupati et al. (2022) 提出 MRL 框架
- 新闻聚类:SemEval 2022 Task 8 (Chen et al., 2022)
- 对比学习嵌入:SimCSE (Gao et al., 2021)、AngIE (Li & Li, 2024)
- 层级聚类:RAC (Sumengen et al., 2021)、BERTopic (Grootendorst, 2022)
- 多语言嵌入:mE5 (Wang et al., 2024)、mBERT (Devlin et al., 2019)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 Matryoshka 嵌入的维度层级与新闻相似度层级对齐
- 技术深度: ⭐⭐⭐⭐ — 损失函数改进和聚类算法设计扎实
- 实验充分性: ⭐⭐⭐⭐ — 多模型对比、消融实验、54 语言评估
- 清晰度: ⭐⭐⭐⭐ — 结构清晰,方法解释到位
- 影响力: ⭐⭐⭐⭐ — 对多语言新闻分析、舆情追踪有直接应用价值