LACA: Improving Cross-lingual Aspect-Based Sentiment Analysis with LLM Data Augmentation¶
会议: ACL 2025
arXiv: 2508.09515
代码: https://nlp.kiv.zcu.cz
领域: NLP 理解
关键词: Cross-lingual ABSA, LLM Data Augmentation, Pseudo-labelled Data, Multilingual Sentiment, Zero-shot Transfer
一句话总结¶
提出 LACA 框架,利用 LLM 为目标语言生成高质量伪标注数据(而非依赖机器翻译),在六种语言上显著提升跨语言 ABSA 性能,在 mBERT 和 XLM-R 上分别平均超过前 SOTA 1.50% 和 2.62%。
研究背景与动机¶
跨语言 ABSA 的挑战¶
Aspect-Based Sentiment Analysis (ABSA) 旨在识别句子中与特定 aspect 相关的情感极性。例如 "Great tea but terrible service" 中 "tea" 为正面,"service" 为负面。由于大多数标注数据集中在英语,低资源语言严重缺乏标注数据,使得跨语言 ABSA 成为重要研究方向。
现有方法的不足¶
- 翻译方法的局限性:传统方法依赖机器翻译将源语言数据翻译为目标语言,但翻译过程中 aspect term 容易错位或丢失,导致模型无法正确识别目标语言中的 aspect term
- 直接迁移的语言鸿沟:直接在源语言微调后应用于目标语言,会受到语言特有的 aspect term、俚语、缩写等影响
- 低资源语言的 mPLM 覆盖不足:一些低资源语言在多语言预训练模型的训练语料中占比很低
核心动机¶
LLM 的数据增强能力为跨语言 ABSA 提供了新思路——可以直接在目标语言中生成多样化的训练样本,避免翻译带来的噪声问题。
方法详解¶
整体框架¶
LACA (LLM Augmented Cross-lingual ABSA) 是一个两阶段框架:
第一阶段:ABSA 模型预测 1. 在带标签的英语源语言数据 \(\mathcal{D}_\mathcal{S}\) 上微调 ABSA 模型 2. 将微调后的模型应用于目标语言的无标注数据 \(\mathcal{D}_\mathcal{T}\),得到噪声预测标签 \(\hat{y}^\mathcal{T}\)
第二阶段:LLM 数据增强 1. 将预测标签 \(\hat{y}^\mathcal{T}\) 输入 LLM,要求 LLM 在目标语言中生成与标签对齐的自然句子 \(\hat{x}^\mathcal{T}\) 2. 组成伪标注数据集 \(\mathcal{D}_\mathcal{G} = \{(\hat{x}_i^\mathcal{T}, \hat{y}_i^\mathcal{T})\}\) 3. 将 \(\mathcal{D}_\mathcal{G}\) 与 \(\mathcal{D}_\mathcal{S}\) 合并,在该混合数据集上进一步训练 ABSA 模型
关键设计¶
ABSA 模型的多种架构支持:
- Encoder 模型(mBERT, XLM-R):序列标注方式,使用 BIO 标注 + 3 种情感极性(POS/NEG/NEU),token 级预测
- Encoder-Decoder 模型(mT5):文本生成方式,输出格式为 "[A] aspect [P] polarity"
- Decoder-only 模型(LLaMA 3.1, Orca 2):自回归生成方式
LLM 生成的质量控制:
- 预处理:确保预测标签中至少包含一个 sentiment element
- Prompt 设计:指定目标语言、要求不引入额外的 sentiment element,并提供 10 个源语言的 few-shot 示例
- 后处理过滤:
- 过滤生成文本中缺少预测 aspect term 的实例
- 过滤 ABSA 模型对生成文本的重新预测与原始标签不一致的实例
处理类别不平衡:修改 20% 过度表征的正面情感样本,以 60% 概率生成中性、40% 概率生成负面情感的新实例。
损失函数 / 训练策略¶
- Encoder 模型使用 token 级交叉熵损失:\(\mathcal{L} = \frac{1}{|\mathcal{D}|}\sum -\frac{1}{n}\sum y_i \log P_\Theta(y_i|x_i)\)
- Encoder-Decoder 模型使用序列级交叉熵损失
- 训练分两步:先在 \(\mathcal{D}_\mathcal{S}\) 上微调,再在 \(\mathcal{D}_\mathcal{S} \cup \mathcal{D}_\mathcal{G}\) 上继续微调
- 使用源语言验证集做模型选择,确保真正的无监督设置
实验关键数据¶
主实验¶
数据集:SemEval-2016,包含英语(en)、西班牙语(es)、法语(fr)、荷兰语(nl)、俄语(ru)、土耳其语(tr)六种语言的餐饮评论。
主要结果(micro-F1,5 次实验平均):
| 方法 | mBERT Avg | XLM-R Avg |
|---|---|---|
| Zero-shot | 45.68 | 60.35 |
| Equi-XABSA (前 SOTA) | 54.40 | 63.47 |
| LACA_LLaMA8 | 56.25 | 65.18 |
| LACA_Orca13 | 57.07 | 66.18 |
| LACA_LLaMA70 | 57.29 | 66.35 |
| Supervised 上界 | 61.34 | 67.15 |
扩展到更多 backbone 模型(Avg F1):
| Backbone | Zero-shot | +LACA_LLaMA70 | 提升 |
|---|---|---|---|
| mBERT | 45.68 | 57.29 | +11.61 |
| XLM-R | 60.35 | 66.35 | +6.00 |
| mT5 | 59.77 | 65.90 | +6.13 |
| LLaMA 3.1 | 63.79 | 68.75 | +4.96 |
关键发现¶
- LACA 全面超越翻译方法:在 mBERT 上超过 Equi-XABSA 1.50%,在 XLM-R 上超过 2.62%
- XLM-R + LACA 接近有监督性能:在西班牙语上匹配有监督结果(71.89 vs 71.93),在荷兰语上甚至超过有监督结果(65.35 vs 64.28)
- 英语中心的 Orca 2 13B 表现出色:尽管主要针对英语,却几乎匹配多语言 LLaMA 3.1 70B,可能得益于其高级推理能力
- LLM 规模效应:LLaMA 70B > Orca 13B ≈ LLaMA 8B,但更大模型推理更慢
- 语言相似性影响效果:与英语相似的西班牙语效果最好,俄语因语系差异较大效果略低
- Fine-tuned LLM 优于小型多语言模型:LLaMA 3.1 作为 ABSA 模型本身表现最优
亮点与洞察¶
- 核心创新——以生成代替翻译:与翻译方法产生语义相似的数据不同,LLM 生成的数据语义多样性更强,增强了模型的泛化能力
- 噪声标签的优雅处理:通过让 LLM 根据(可能有噪声的)预测标签生成对齐的文本,而非直接使用噪声预测的 (原文, 预测标签) 对,有效减轻了预测噪声的影响
- 无需翻译工具:完全不依赖第三方翻译工具,适用于翻译质量低的低资源语言场景
- 框架通用性强:同时支持 encoder、encoder-decoder 和 decoder-only 三类模型架构
- 实际可行性:XLM-R + LACA 在无目标语言标注数据的情况下接近有监督水平
局限性 / 可改进方向¶
- 依赖 LLM 在目标语言的生成质量:对于 LLM 训练数据中覆盖较少的语言(如土耳其语),生成质量可能下降
- 计算成本:使用 LLaMA 70B 进行数据生成成本较高
- 两阶段流程的误差传播:第一阶段预测的质量直接影响 LLM 生成数据的标签准确性
- 仅在餐饮评论领域验证:未在其他领域(如电子产品、酒店等)进行验证
- 未探索 LLM 的迭代优化:可以考虑多轮生成-训练-预测的迭代方案进一步提升
相关工作与启发¶
- 跨语言 NLP 的数据增强新范式:用 LLM 替代传统翻译工具,可推广至其他跨语言 NLP 任务
- Self-training 的改进:不同于直接将噪声预测作为伪标签,LACA 通过 LLM 生成与标签对齐的文本来"净化"伪标注数据
- LLM 在标注数据稀缺场景的应用:展示了 LLM 在低资源语言场景中的数据增强潜力
- Zhang et al. (2021) 的 ACS-Distill 方法为在无标注目标语言数据上蒸馏提供了思路
- Lin et al. (2024) 的 Equi-XABSA 关注类别不平衡问题,与 LACA 的不平衡处理策略互补
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 创新性 | 7 | LLM 数据增强替代翻译的思路新颖,但整体框架较直观 |
| 实验充分性 | 9 | 6种语言、5种backbone模型、多种LLM的全面对比 |
| 写作质量 | 8 | 结构清晰,实验分析详尽 |
| 实用价值 | 8 | 接近有监督水平且无需翻译工具 |
| 总分 | 8 | 扎实的工作,实验全面,方法实用 |