跳转至

Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal Transport

会议: ACL 2025
arXiv: 2505.23078
代码: https://github.com/jinnaiyuu/mbr-optimal-transport
领域: 文本生成
关键词: MBR解码, 最优传输, 文档级生成, Wasserstein距离, 机器翻译

一句话总结

提出 MBR-OT,将最优传输(Wasserstein距离)引入最小贝叶斯风险(MBR)解码,实现用句子级效用函数评估文档级输出质量,在文档级机器翻译、文本简化和密集图像描述任务上显著优于标准 MBR 解码。

研究背景与动机

  1. 领域现状:MBR 解码通过选择期望效用最高的候选输出来替代贪心/束搜索,已在句子级文本生成任务中表现出色。但文档级生成任务(如整文翻译、长篇简化)中 MBR 的表现有限。
  2. 现有痛点:MBR 依赖效用函数来衡量候选输出的质量,但大多数效用函数(如 BLEU、BERTScore、COMET)是为句子级设计的。直接用句子级指标评估整个文档会忽略文档结构的变化(如句子重排、合并/拆分)。
  3. 核心矛盾:句子级效用函数假设源文和译文的句子一一对齐,但文档级翻译中句子经常被重排、合并或拆分(尤其是日英等结构差异大的语言对),导致效用评估不准确。
  4. 本文要解决什么? 如何将成熟的句子级效用函数升级为文档级效用函数,同时保持对文档结构变化的鲁棒性。
  5. 切入角度:最优传输理论提供了比较两个分布差异的数学框架,天然支持元素间的灵活匹配——一个源句子的"质量"可以分配给多个目标句子。
  6. 核心idea一句话:用 Wasserstein 距离将句子级效用函数聚合为文档级效用函数,实现对句子重排/合并的鲁棒评估。

方法详解

整体框架

输入为源文档,模型生成多个候选文档,MBR-OT 使用基于最优传输的效用函数评估候选之间的相对质量,选择期望效用最高的候选作为最终输出。

关键设计

  1. 文档分割与句子级效用计算:
  2. 做什么:将候选文档和参考文档分割为句子集合
  3. 核心思路:将文档视为句子的分布(而非序列),用句子级效用函数 \(u(h_i, y_j)\) 计算任意两个句子间的效用
  4. 设计动机:摆脱对固定句子对齐的依赖,允许灵活匹配

  5. 基于 Wasserstein 距离的文档效用函数:

  6. 做什么:用最优传输将句子级效用聚合为文档级效用
  7. 核心思路:将文档 \(\mathbf{h}\)\(\mathbf{y}\) 视为两个离散分布 \(p_\mathbf{h}\)\(p_\mathbf{y}\),用 Wasserstein 距离 \(\text{WD}_C[p_\mathbf{h} \| p_\mathbf{y}] = \inf_{\gamma \in \Gamma(p_\mathbf{h}, p_\mathbf{y})} \sum_{(i,j)} \gamma(h_i, y_j) C(h_i, y_j)\) 计算最小传输成本。与线性分配(LA)不同,WD允许一个源句子的权重分配给多个目标句子
  8. 设计动机:处理句子合并/拆分的情况——如"I like cats and dogs"对应"I like cats. I like dogs.",WD 可以将源句权重分散到两个目标句上

  9. 多种 OT 变体:

  10. 线性分配(LA): 一对一匹配,受限但简单
  11. Wasserstein 距离(WD): 多对多匹配,更灵活
  12. 熵正则化 WD(EWD): 加入 KL 正则化 \(\epsilon\) 使优化更平滑,计算更高效(Sinkhorn 算法)
  13. 还提供了句子长度加权版本(下标 \(L\)),按句子长度分配权重

损失函数 / 训练策略

  • 无需训练——纯推理时方法,修改 MBR 解码的效用函数
  • 使用 MetricX-23 作为句子级效用函数效果最佳
  • 采样 32 个候选输出进行 MBR 选择

实验关键数据

主实验(文档级机器翻译,WMT24)

方法 MetricX En-Ja MetricX En-De
Beam Search 61.57 79.07
MBR (MetricX) 68.81 82.02
MBR-LA (MetricX) 70.01 80.77
MBR-WD (MetricX) 75.29 83.40
MBR-WD\(_L\) (MetricX) 72.38 83.24
MBR-EWD\(_L\) (MetricX) 70.67 83.24

消融实验

配置 效果 说明
LA vs WD WD 显著优于 LA 多对多匹配更适合文档级
均匀权重 vs 长度权重 任务相关 En-Ja 均匀更好,En-De 长度更好
不同 \(\epsilon\) \(\epsilon=0\)(纯WD)最佳 正则化在此任务中非必要
不同句子级效用函数 MetricX-23 >> COMET >> BERTScore 效用函数质量是关键

关键发现

  • MBR-WD 在 En-Ja 翻译上将 MetricX 从 68.81 提升到 75.29——比标准 MBR 提升 6.5 分
  • WD 相比 WMT 的系统级相关性与人工评估对齐良好(大部分配置下 >0.88)
  • 文档级翻译中句子合并/拆分很常见——En-Ja 候选中平均 3.8 句但参考中为 5.5 句
  • 在文本简化和密集图像描述任务上同样有效,证明方法的通用性
  • 计算开销主要在句子级效用函数的调用次数上(\(O(mn)\)),但可用 Sinkhorn 算法加速

亮点与洞察

  • 用最优传输桥接句子级和文档级指标是优雅的理论贡献——Wasserstein 距离天然适合处理分布间的灵活匹配。
  • "文档是句子的分布而非序列"这一视角转换是关键洞察——放弃了对固定对齐的假设,使方法对结构变化鲁棒。
  • 方法与具体的句子级效用函数无关——随着句子级指标的进步(如 MetricX 系列),MBR-OT 的效果也会自动提升。
  • 这种 OT 思想可迁移到任何需要将局部指标聚合为全局指标的场景(如段落级摘要评估)。

局限性 / 可改进方向

  • 效用矩阵计算量是 \(O(mn)\)\(m\), \(n\) 为两个文档的句子数),长文档时开销大
  • 目前仅在中小规模 LLM 上验证,大模型上的效果未知
  • WD 假设文档内句子顺序不重要——但某些任务中顺序很关键
  • 未探索 WD 与其他解码策略(如 speculative decoding)的结合
  • 仅用自动指标评估,缺少人工评估

相关工作与启发

  • vs 标准 MBR: 标准 MBR 将整个文档视为一个字符串计算效用,无法处理结构变化;MBR-OT 在句子级分解后灵活匹配
  • vs Vernikos et al. (2022) 文档级指标: 他们假设句子按顺序对齐,不适用于句子重排场景;WD 无此假设
  • vs Word Mover's Distance: WMD 在词级做 OT,本文在句子级做 OT,粒度更适合文档级任务

评分

  • 新颖性: ⭐⭐⭐⭐ 最优传输用于 MBR 解码是自然但有效的组合——Wasserstein 距离天然适合处理文档结构变化,PMI 理论解释清晰
  • 实验充分度: ⭐⭐⭐⭐ 三个任务(机器翻译/文本简化/密集图像描述)+多种 OT 变体+多种效用函数对比+WMT系统级相关性验证,但缺少人工评估
  • 写作质量: ⭐⭐⭐⭐⭐ 数学形式化严谨,直觉解释清晰(Figure 1 的句子分裂示例解释了 WD 优于 LA 的原因),LA→WD→EWD 的递进自然
  • 价值: ⭐⭐⭐⭐ 为文档级文本生成的解码和评估提供了通用工具——随着句子级指标的进步(如 MetricX),MBR-OT 的效果也会自动提升