Hierarchical Level-Wise News Article Clustering via Multilingual Matryoshka Embeddings¶

会议/期刊: ACL 2025
arXiv: 2506.00277
代码: GitHub
领域: 多语言 / 新闻聚类
关键词: Matryoshka embeddings, multilingual, hierarchical clustering, news similarity, agglomerative clustering

一句话总结¶

提出利用多语言Matryoshka嵌入实现层级化新闻聚类的方法：嵌入的不同维度子集对应不同粒度的语义相似性（主题→话题→事件），配合改进的层级凝聚聚类算法，在SemEval 2022 Task 8上达到SOTA（Pearson ρ=0.816）。

研究背景与动机¶

问题定义：全球化新闻生态中，需要在不同粒度（事件/话题/主题）上对多语言新闻进行聚类分析，以理解媒体覆盖模式和跨语言信息传播。
现有不足：(1) 当前LLM-based方法多为单语言、不可扩展或无法区分不同粒度的相似性；(2) decoder-based LLM（如GPT-4）处理大规模文档成本过高；(3) encoder-based模型仅通过余弦相似度衡量"相似性"，定义模糊；(4) 聚类方法需要预知簇数量。
核心洞察：Matryoshka表示学习的层级嵌套结构天然适合编码不同粒度的语义信息——低维捕获粗粒度主题，高维捕获细粒度事件。
本文方案：训练多语言Matryoshka嵌入 + 设计层级凝聚聚类算法，无需预知簇数量即可自动发现不同粒度的新闻组。

方法详解¶

整体框架¶

两阶段方法： 1. 嵌入训练：基于修改的AngIE损失训练多语言Matryoshka嵌入，在不同维度编码不同粒度的相似性 2. 层级聚类：基于Reciprocal Agglomerative Clustering (RAC)的改进算法，逐层使用不同维度子集进行聚类

关键设计¶

层级化Matryoshka训练：在不同维度施加不同相似性阈值——\(d/4\)维度区分"非常不相似" vs 其余；\(d/2\)维度区分"有些不相似" vs 其余；\(d\)维度区分所有四级相似性。这迫使嵌入在低维学习粗粒度概念，高维学习细粒度细节
修改的AngIE损失：\(\mathcal{L}_{mat} = \mathcal{L}_{\text{AngIE}_{diss}}(\mathbf{H}_{d/4}) + \mathcal{L}_{\text{AngIE}_{somewhat}}(\mathbf{H}_{d/2}) + \mathcal{L}_{\text{AngIE}_{same}}(\mathbf{H}_{d})\)，结合余弦、对比和角度三个子目标
SimCSE增强：训练时对每个样本使用不同dropout mask编码两次，产生隐式正样本对，强化单语言嵌入空间质量

聚类算法¶

三层层级聚类： 1. 第1层（主题）：使用\(d/4\)维嵌入 + RNN合并，阈值\(\lambda_1\) 2. 第2层（话题）：在第1层簇内部，使用\(d/2\)维嵌入 + RNN合并，阈值\(\lambda_2\) 3. 第3层（事件）：在第2层簇内部，使用完整\(d\)维嵌入 + RNN合并，阈值\(\lambda_3\)

数据增强¶

风格增强：GPT-4o对每篇文章生成3种不同风格的改写
实体敏感性：使用Spacy+T5替换命名实体生成"有些相似"样本
语言扩展：将原始10种语言扩展至54种，最终训练集扩展到410万文章对

实验¶

主实验结果（SemEval 2022 Task 8）¶

模型	SE-22 (Pearson ρ)	SE-22 Extended
mE5-base (baseline)	0.604	0.582
fine-mE5-base (ours)	0.817	0.812
mat-mE5-base-192 (ours)	0.799	0.808
mat-mE5-base-384 (ours)	0.792	0.816
GateNLP-UShef (prev. SOTA)	0.801	–

消融实验¶

消融项	SE-22 ρ (192d)	SE-22 Ext ρ (192d)
完整模型	0.799	0.808
去除SimCSE dropout	0.693	0.733
去除对比损失	≈0	≈0
仅用原始SE-22数据训练	0.828	0.706

聚类性能（Miranda数据集，BERTopic F1）¶

模型	Precision	Recall	F1
mE5-base	0.8507	0.3715	0.5171
mat-mE5-base-192	0.7895	0.8971	0.8399
fine-mE5-base	0.7791	0.5735	0.6607

关键发现¶

Matryoshka嵌入在区分不同相似度级别上显著优于传统微调嵌入（AUROC在各级别均最高）
SimCSE的dropout正样本对训练至关重要，移除后性能从0.799降至0.693
数据增强对多语言泛化不可或缺：仅用原始数据训练在扩展测试集上降至0.706
在BERTopic聚类中，Matryoshka-192维即可达到F1=0.84，大幅超越全维度fine-tuned模型（0.66）
多语言对齐：平均relational similarity与英语达0.753，最高为葡萄牙语(0.839)，最低为缅甸语(0.452)

亮点¶

将Matryoshka表示学习从"不同维度学习相同信息"重新定义为"不同维度学习不同粒度信息"，概念创新且直觉清晰
层级聚类算法自然匹配嵌入的层级结构，无需预知簇数量
支持54种语言的大规模多语言评估
训练数据增强策略（风格改写+实体替换+翻译）设计系统化

局限性¶

聚类阈值 \(\lambda_1, \lambda_2, \lambda_3\) 需要在验证集上经验性调整，不同数据分布可能需要重新调参
仅支持512 token的上下文窗口，对长文新闻可能丢失信息
大量依赖GPT-4o进行数据增强和翻译，成本高且引入翻译偏差
低资源语言（缅甸语、卡纳达语）的嵌入对齐质量较差

评分¶

维度	分数
新颖性	⭐⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐