Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal Transport¶

会议: ACL 2025
arXiv: 2505.23078
代码: https://github.com/jinnaiyuu/mbr-optimal-transport
领域: 文本生成
关键词: MBR解码, 最优传输, 文档级生成, Wasserstein距离, 机器翻译

一句话总结¶

提出 MBR-OT，将最优传输（Wasserstein距离）引入最小贝叶斯风险（MBR）解码，实现用句子级效用函数评估文档级输出质量，在文档级机器翻译、文本简化和密集图像描述任务上显著优于标准 MBR 解码。

领域现状：MBR 解码通过选择期望效用最高的候选输出来替代贪心/束搜索，已在句子级文本生成任务中表现出色。但文档级生成任务（如整文翻译、长篇简化）中 MBR 的表现有限。
现有痛点：MBR 依赖效用函数来衡量候选输出的质量，但大多数效用函数（如 BLEU、BERTScore、COMET）是为句子级设计的。直接用句子级指标评估整个文档会忽略文档结构的变化（如句子重排、合并/拆分）。
核心矛盾：句子级效用函数假设源文和译文的句子一一对齐，但文档级翻译中句子经常被重排、合并或拆分（尤其是日英等结构差异大的语言对），导致效用评估不准确。
本文要解决什么？ 如何将成熟的句子级效用函数升级为文档级效用函数，同时保持对文档结构变化的鲁棒性。
切入角度：最优传输理论提供了比较两个分布差异的数学框架，天然支持元素间的灵活匹配——一个源句子的"质量"可以分配给多个目标句子。
核心idea一句话：用 Wasserstein 距离将句子级效用函数聚合为文档级效用函数，实现对句子重排/合并的鲁棒评估。

输入为源文档，模型生成多个候选文档，MBR-OT 使用基于最优传输的效用函数评估候选之间的相对质量，选择期望效用最高的候选作为最终输出。

文档分割与句子级效用计算:
做什么：将候选文档和参考文档分割为句子集合
核心思路：将文档视为句子的分布（而非序列），用句子级效用函数 \(u(h_i, y_j)\) 计算任意两个句子间的效用
设计动机：摆脱对固定句子对齐的依赖，允许灵活匹配
基于 Wasserstein 距离的文档效用函数:
做什么：用最优传输将句子级效用聚合为文档级效用
核心思路：将文档 \(\mathbf{h}\) 和 \(\mathbf{y}\) 视为两个离散分布 \(p_\mathbf{h}\) 和 \(p_\mathbf{y}\)，用 Wasserstein 距离 \(\text{WD}_C[p_\mathbf{h} \| p_\mathbf{y}] = \inf_{\gamma \in \Gamma(p_\mathbf{h}, p_\mathbf{y})} \sum_{(i,j)} \gamma(h_i, y_j) C(h_i, y_j)\) 计算最小传输成本。与线性分配（LA）不同，WD允许一个源句子的权重分配给多个目标句子
设计动机：处理句子合并/拆分的情况——如"I like cats and dogs"对应"I like cats. I like dogs."，WD 可以将源句权重分散到两个目标句上
多种 OT 变体:
线性分配（LA）: 一对一匹配，受限但简单
Wasserstein 距离（WD）: 多对多匹配，更灵活
熵正则化 WD（EWD）: 加入 KL 正则化 \(\epsilon\) 使优化更平滑，计算更高效（Sinkhorn 算法）
还提供了句子长度加权版本（下标 \(L\)），按句子长度分配权重