MEXMA: Token-level Objectives Improve Sentence Representations¶
会议: ACL 2025
arXiv: 2409.12737
代码: 无
领域: 其他
关键词: 跨语言句子编码器, token级目标, 句子表示, 多语言对齐, 掩码语言模型
一句话总结¶
提出 MEXMA,一种结合句子级和 token 级目标的跨语言句子编码器训练方法:用一种语言的句子表示去预测另一种语言的被掩码 token,同时让句子和 token 的梯度都直接更新编码器,在双文本挖掘和多项下游任务上超越 SONAR 和 LaBSE。
研究背景与动机¶
跨语言句子编码器(CLSE)旨在创建跨语言对齐的定长句子表示。现有方法存在一个核心矛盾:
预训练阶段使用 token 级目标:CLSE 通常基于 XLM-RoBERTa、NLLB 等预训练编码器,这些模型通过掩码语言建模(MLM)等 token 级目标更新每个 token 的表示
微调阶段仅使用句子级目标:CLSE 训练时(如 LaBSE 的对比学习、SONAR 的翻译瓶颈)仅通过句子表示更新编码器,不再有 token 级目标
后果:这导致 token 级信息(尤其是词汇信息)退化,进而影响句子表示质量
假设:在 CLSE 训练中保留 token 级目标,配合句子级目标,能更好地更新编码器并提升句子表示质量。
与现有混合方法的区别: - DAP:有 token 级目标但不通过它更新句子表示 - RetroMAE:句子表示用于指导 token 去掩码,但编码器本身不接收来自 token 的直接梯度
方法详解¶
整体框架¶
MEXMA 的架构是对称的:给定两种语言的翻译对,每种语言创建两个视图(一个掩码版本、一个干净版本),共四个编码器实例(共享参数)。核心操作是跨语言去掩码:用语言 A 的干净句子表示来预测语言 B 被掩码的 token,反之亦然。
关键设计¶
-
跨语言去掩码(Cross-Unmasking):
- 对语言 A 的输入进行高比例掩码(40%),使编码器和 MLM head 难以在没有额外上下文的情况下恢复缺失 token
- 提供语言 B 的干净句子向量 \(S_B\) 作为额外上下文,强制模型利用 \(S_B\) 中的信息来预测语言 A 中被掩码的 token
- 对称性操作:同时反向进行(用 \(S_A\) 预测语言 B 的掩码 token)
- 损失函数:\(\mathcal{L}_{mlm} = CE([S_B, \hat{A}], A) + CE([S_A, \hat{B}], B)\)
- 关键区别:梯度同时流经句子表示和各个 token 表示回到编码器
-
对齐损失(Alignment Loss):
- 跨语言去掩码产生了隐式对齐,但不足以强制相同语义的句子在嵌入空间中足够接近
- 使用 MSE 损失强制两种语言的句子表示对齐:\(\mathcal{L}_{alignment} = MSE(S_A, S_B)\)
- 这是一种非对比式的对齐方法(因为掩码操作防止了表示坍塌)
-
KoLeo 损失:
- 解决表示的各向异性(anisotropy)问题
- 基于 Kozachenko-Leonenko 差分熵估计器,鼓励句子表示在潜在空间中均匀分布
- \(\mathcal{L}_{KoLeo} = -\frac{1}{n}\sum_{i=1}^n \log(d_{n,i})\),其中 \(d_{n,i}\) 是 \(x_i\) 与批次中最近邻的距离
损失函数 / 训练策略¶
总损失为三部分的加权组合: $\(\mathcal{L}_{MEXMA} = \alpha \cdot \mathcal{L}_{alignment} + \beta \cdot \mathcal{L}_{mlm} + \gamma \cdot \mathcal{L}_{K}\)$
- 编码器基于 XLM-RoBERTa(base: 277M / large: 559M)
- 训练数据来自 NLLB-200 语料库的子集,覆盖 81 种语言(所有数据均为英语与其他 80 种语言的配对)
- 每种语言 15M~25M 句子,对数据量少的语言补充挖掘数据
- 掩码比例 40%(最优区间 30%-60%)
实验关键数据¶
主实验¶
双文本挖掘(Bitext Mining):
| 模型 | xsim ↓ | xsim++ ↓ | BUCC F1 ↑ |
|---|---|---|---|
| DAP | — | — | 98.68 |
| SONAR (766M) | 0.09 | 12.08 | 98.25 |
| LaBSE (471M) | 0.92 | 18.65 | 98.75 |
| MEXMA (559M) | 0.06 | 9.60 | 98.93 |
xsim++ 绝对提升 2.48%(vs SONAR),表明对困难负样本的鲁棒性显著增强。
分类任务:
| 模型 | SentEval | MTEB 平均 |
|---|---|---|
| SONAR | 85.82 | 63.02 |
| LaBSE | 85.63 | 62.77 |
| MEXMA | 86.38 | 65.35 |
配对分类(Average Precision):
| 模型 | 平均 AP |
|---|---|
| SONAR | 69.70 |
| LaBSE | 68.47 |
| MEXMA | 71.55 |
消融实验¶
| 配置 | xsim ↓ | xsim++ ↓ | SentEval ↑ |
|---|---|---|---|
| 仅句子级梯度 | 0.15 | 11.37 | 85.06 |
| + Token 级梯度 | 0.10 (↓0.05) | 9.67 (↓1.7) | 85.98 (↑0.92) |
| + KoLeo (完整 MEXMA) | 0.06 (↓0.04) | 9.60 (↓0.07) | 86.38 (↑0.4) |
模型规模消融:
| 模型 | 参数量 | xsim++ ↓ | SentEval ↑ |
|---|---|---|---|
| MEXMA-base | 277M | 13.03 | 85.30 |
| LaBSE | 471M | 18.65 | 85.63 |
| MEXMA | 559M | 9.60 | 86.38 |
| SONAR | 766M | 12.08 | 85.82 |
MEXMA-base (277M) 以 LaBSE 58.8% 的参数量即超越 LaBSE,并接近 SONAR(2.77 倍参数)。
关键发现¶
- Token 级梯度是核心贡献:从仅句子级梯度到加入 token 级梯度,xsim++ 降低 1.7 个百分点,是最大的单一改进因素
- 小模型也强大:MEXMA-base (277M) 的 xsim++ 已达 13.03%,显著优于 LaBSE (471M) 的 18.65%
- 与对比学习兼容:将 MSE 对齐损失替换为对比损失后,MEXMA 的 token 级梯度仍然带来显著提升
- Token 嵌入分析:MEXMA 的 token 展现出强跨语言语义对齐(97.88% 匹配到翻译),同时保留更多词汇信息(1.33% same language vs SONAR 的 0.13%)
- STS 任务是例外:唯一 LaBSE 优于 MEXMA 的任务,表明对比损失更适合 STS
亮点与洞察¶
- 设计简洁而有效:核心想法非常直觉——训练句子编码器时不应只通过句子更新编码器,还要通过 token 级目标直接更新。实现上只需要让梯度流经 token 即可
- 对称跨语言去掩码:巧妙地同时实现了两件事——迫使句子向量编码充分信息(用于去掩码)、保持 token 表示质量(直接接收梯度)
- KoLeo 防各向异性:从视觉模型(DINOv2)借鉴的想法,用于解决非对比方法的各向异性问题
- Token 近邻分析:通过分析 token 嵌入的最近邻类别(同语言/同句子/翻译/其他),直观展示了不同模型 token 表示的特性差异
局限与展望¶
- STS 任务表现不佳:非对比式对齐在语义文本相似度任务上不如对比方法
- 仅支持 81 种语言:相比 SONAR 的 200 种语言覆盖面较小
- 训练数据依赖:大量依赖 NLLB 的挖掘数据,低资源语言的数据质量可能参差不齐
- 未探索生成式下游任务:主要在分类和挖掘任务上评估,生成任务的效果未知
- 掩码比例的自适应:当前使用固定 40% 掩码率,不同语言对/句子长度可能有不同的最优值
相关工作与启发¶
- 与 RetroMAE 的关系:RetroMAE 首先提出用句子表示指导 token 去掩码的 IR 方法,但编码器不接收 token 级梯度;MEXMA 在此基础上让梯度双向流动
- 与 SONAR 的关系:SONAR 使用翻译瓶颈实现对齐,但瓶颈阻止了解码器梯度直接更新 token;MEXMA 无此限制
- 启发方向:token 级和句子级目标的协同训练范式可推广到其他需要层级表示的任务(如文档检索、段落表示)
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心思想简洁深刻——让梯度同时从 token 和句子两个层级流动
- 实验充分度: ⭐⭐⭐⭐⭐ 多个基准(xsim/xsim++/BUCC/MTEB/SentEval)、完整消融、模型规模分析、token 嵌入分析
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,实验详实,分析深入到 token 级别
- 价值: ⭐⭐⭐⭐⭐ 在多个关键基准上建立新 SOTA,且方法可与对比学习组合使用,实用性强
相关论文¶
- [ACL 2025] Guidelines for Fine-grained Sentence-level Arabic Readability Annotation
- [ACL 2025] LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models
- [ACL 2025] Cautious Next Token Prediction
- [ACL 2025] Improve Rule Retrieval and Reasoning with Self-Induction and Relevance ReEstimate
- [ACL 2025] TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification