An Empirical Study of Many-to-Many Summarization with Large Language Models¶
会议: ACL 2025
arXiv: 2505.12983
代码: 无
领域: 多语言NLP / 文本摘要
关键词: many-to-many summarization, multilingual, LLM, instruction tuning, factual consistency
一句话总结¶
首次系统研究LLM在多对多摘要(M2MS)任务上的表现,整合8个数据集构建涵盖5个领域6种语言的47.8K样本基准,评测18个LLM发现零样本LLM可媲美微调传统模型,指令微调后显著超越,但事实性问题仍是关键瓶颈。
研究背景与动机¶
- 领域现状: 多对多摘要(M2MS)要求模型能将任意语言的文档总结为任意语言的摘要,结合了跨语言翻译和文本摘要两大能力。
- 现有痛点: 现有M2MS研究主要使用传统模型(如mBART),缺乏对LLM能力的系统性探索;现有数据集领域单一,难以全面评估。
- 核心矛盾: LLM天然具有多语言能力,理论上可成为良好的M2MS求解器,但实践中缺乏充分验证。
- 本文要解决什么: 系统评估LLM在多域多语M2MS场景下的零样本和指令微调表现。
- 切入角度: 整合多源数据集构建统一基准,覆盖零样本、指令微调和传统模型三种范式。
- 核心idea一句话: 通过47.8K多域多语样本全面揭示LLM在M2MS中的优势(指令微调超越GPT-4)和短板(事实性问题加剧)。
方法详解¶
整体框架¶
1) 从8个数据集整合M2MS样本,覆盖5域(新闻/百科/对话/指南/技术)6语(En/Cs/De/Fr/Zh/Uk);2) 零样本评测18个LLM,精心设计prompt包含task instruction和in-context examples;3) 对开源LLM进行指令微调(19.5K训练样本);4) 细粒度人工评估事实性。关注多实验范式的全面对比。
关键设计¶
- 数据整合: 从CrossSum、XWikis、WikiLingua等8个数据集中选取样本,覆盖新闻、百科、对话、指南、技术五个领域和英/捷/德/法/中/乌六种语言,按覆盖度、冗余度、连贯度三个内在指标过滤低质样本。
- 数据污染控制: 对测试集计算实例级污染度,确保污染样本比例<1%,保证评估公正性。
- 多范式评估: 零样本(精心设计prompt+in-context examples)、指令微调(19.5K训练样本)、传统模型微调(mBART-50/PISCES)三轨并行对比。
损失函数 / 训练策略¶
- 传统模型使用标准seq2seq训练
- LLM指令微调使用训练集的instruction-response格式
- 评估指标:ROUGE-1/2/L、BERTScore、GPT-4o打分(简洁性/连贯性/相关性 5分制)
实验关键数据¶
主实验(零样本LLM vs 微调传统模型,Overall R1/RL/BS)¶
| 模型 | Overall R1/RL/BS |
|---|---|
| GPT-4o (zero-shot) | 26.0 / 16.6 / 66.7 |
| GPT-4 (zero-shot) | 25.7 / 16.4 / 66.4 |
| GPT-3.5-turbo | 25.2 / 16.1 / 66.7 |
| Vicuna-13B-16k | 22.9 / 13.9 / 66.0 |
| Qwen2.5-14B | 22.1 / 13.1 / 65.4 |
| LLaMa-2-7B | 18.2 / 10.8 / 63.3 |
消融实验(跨领域表现,R1指标)¶
| 模型 | News | Encyc. | Dialogue | Guide | Tech. |
|---|---|---|---|---|---|
| GPT-4o | 19.8 | 27.9 | 29.5 | 25.1 | 34.2 |
| GPT-4 | 19.5 | 26.9 | 28.9 | 24.0 | 33.8 |
| Vicuna-13B-16k | 19.0 | 27.2 | 22.6 | 20.3 | 33.0 |
| Qwen2.5-14B | 18.4 | 25.8 | 22.0 | 18.5 | 32.6 |
关键发现¶
- 数据规模:train 19,530 / val 14,150 / test 14,150样本,涵盖30个语言对
- Flores翻译能力排名:GPT-4o(29.1) > GPT-4(27.7) > GPT-3.5(22.0) > Qwen2.5-14B(19.2)
-
支持最长上下文的模型(如Vicuna-16k)在M2MS上略有优势
-
零样本LLM已可媲美微调传统模型(mBART-50/PISCES),GPT-4o综合最优
- 指令微调后开源LLM(如Qwen-14B)在自动指标上可超越零样本GPT-4
- 指令微调不牺牲通用任务能力(MMLU分数稳定)
- 事实性问题是关键瓶颈: 人工评估发现开源LLM比GPT-4有更多事实错误,指令微调可能加剧幻觉
- 技术领域(Tech)得分最高,新闻领域(News)最具挑战
- 多语言翻译能力(Flores分数)与M2MS表现正相关
亮点与洞察¶
- 首次对LLM的M2MS能力进行如此大规模系统评估(18个LLM,覆盖开/闭源、中英等多语系)
- 发现指令微调的"双刃剑"效应:提升自动指标但可能加剧幻觉——对alignment研究有警示
- 数据污染控制对公正评估至关重要,是大模型时代benchmark设计的必备步骤
- 领域差异分析(5个领域)提供细粒度见解:技术领域表现最好,新闻领域最难
- 多语言翻译能力(Flores分数)与M2MS表现正相关的发现很直观但首次系统验证
- 47.8K样本的数据整合覆盖6种语言30个语言对,构成有价值的benchmark资源
- 验证指令微调不牺牲通用能力(MMLU不降),消除了fine-tuning catastrophic forgetting的担忧
局限性 / 可改进方向¶
- 指令微调加剧幻觉的根因可能来自训练数据中参考摘要本身的事实错误,需清洗训练数据
- 数据集仅覆盖6种语言(En/Cs/De/Fr/Zh/Uk),低资源语言和非拉丁语系未涉及
- 缺乏对更大LLM(如70B+、Mixtral等MoE模型)的评估
- 未探索长文档(>16K tokens)的M2MS能力
- 开源LLM的事实性控制方法未深入探讨,仅给出了问题诊断
- 自动评估指标(ROUGE/BERTScore)与人工评估之间可能存在较大差距
相关工作与启发¶
- CrossSum(Bhattacharjee et al., 2023)和PISCES(Wang et al., 2023c)是M2MS的奠基工作,验证了M2MS优于独立CLS
- 幻觉问题与通用LLM幻觉研究(Zhang et al., 2023)一脉相承
- 指令微调的事实性退化值得在对齐研究中重视,可能需要factuality reward
- mBART-50(Tang et al., 2021)作为传统baseline仍具竞争力,说明encoder-decoder架构在摘要任务上的优势
评分¶
- 新颖性: ⭐⭐⭐ 任务定义和方法本身不新,但首次系统性LLM评估有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 18个LLM、5域6语、多种评估方式,非常全面
- 写作质量: ⭐⭐⭐⭐ 实验设计严谨,分析深入,数据污染控制说明了作者的严谨性
- 价值: ⭐⭐⭐⭐ 揭示的事实性问题对实际应用有重要警示
- 总评: 经典的empirical study范式,准时基准贡献大,发现对开源LLM部署有实践意义
- 复现性: 数据整合流程清晰,可扩展到更多语言和领域
- 延伸性: 未来可探索factuality-aware instruction tuning来缓解幻觉问题
- 开放问题: 如何设计不引入幻觉信号的M2MS训练数据?
- 影响力: 为多语言摘要领域的LLM评测提供了标准化基准和方法论