Context Augmented Token-Level Post-Editing for Human Interpreting¶

会议: ACL 2025
领域: 文本生成
关键词: 口译后编辑、上下文增强、token级编辑、同声传译、自动纠错
代码: 无

一句话总结¶

本文提出一种上下文增强的 token 级后编辑方法，利用对话上下文信息对人工口译的 ASR 转录进行细粒度纠错，在保持口译流畅性的同时显著提升转录质量。

研究背景与动机¶

领域现状：人工口译（human interpreting）是跨语言交流的核心环节，口译员在实时翻译过程中不可避免地会产生语法错误、遗漏和不流畅表达。当前的自动语音识别（ASR）系统能够将口译语音转为文本，但 ASR 输出的错误与口译员本身的不流畅叠加，使得最终转录质量难以满足下游应用需求。

现有痛点：传统的自动后编辑（APE）方法大多在句子级别工作，将整个句子重写或翻译修正。这种粗粒度方法有两个问题：（1）计算开销大，不适合实时或近实时场景；（2）容易过度编辑，改变口译员的原始表达风格和意图。已有的 token 级方法虽然效率更高，但缺乏对上下文信息的利用，无法区分 ASR 错误、口译错误和有意的简化表达。

核心矛盾：token 级编辑追求精准的局部修正，但口译错误的判断往往需要更广泛的上下文——同一个词在不同语境下可能是错误也可能是正确的。如何在保持 token 级效率的同时获得足够的上下文信息是关键挑战。

本文目标：设计一种融合上下文信息的 token 级后编辑框架，能够（1）精准识别需要编辑的 token；（2）利用对话历史和源语言信息做出正确的编辑决策；（3）保持口译员的表达风格。

切入角度：作者观察到口译中的错误类型具有强烈的上下文依赖性——术语错误需要参考源语言，语法错误需要参考前后文，遗漏需要参考对话历史。因此提出将多层次上下文信息注入 token 级编辑决策中。

核心 idea：通过上下文增强的 token 分类器，将对话历史、源语言片段和局部语法约束融合为 token 级编辑信号，实现精准而保守的口译转录修正。

方法详解¶

整体框架¶

系统接收 ASR 转录文本和可选的源语言文本作为输入，输出经过修正的转录文本。整体流程分为三个阶段：（1）上下文编码阶段，将当前句子、对话历史和源语言信息分别编码；（2）token 级编辑决策阶段，对每个 token 预测编辑操作（保留/替换/删除/插入）；（3）编辑执行阶段，根据预测的操作生成最终输出。

关键设计¶

多层次上下文编码器:
- 功能：将不同粒度的上下文信息编码为统一表示
- 核心思路：使用预训练语言模型分别编码当前句子、前 \(k\) 句对话历史和对应的源语言片段，通过跨注意力机制（cross-attention）将三种信息融合。当前句子中每个 token 的表示会通过注意力权重动态聚合来自历史和源语言的相关信息。
- 设计动机：口译错误的判断需要不同类型的上下文——术语错误依赖源语言对齐，语法错误依赖局部上下文，遗漏依赖对话历史。多层次设计使模型能根据不同错误类型选择性利用不同上下文。
Token 级编辑分类器:
- 功能：为每个 token 预测最合适的编辑操作
- 核心思路：在融合上下文表示之上添加分类头，将编辑操作定义为四类——KEEP（保留）、REPLACE（替换为目标 token）、DELETE（删除）和 INSERT（在此位置之后插入）。对于 REPLACE 和 INSERT 操作，额外使用一个生成头来预测目标 token。分类损失采用加权交叉熵，对少数类（DELETE、INSERT）给予更高权重。
- 设计动机：相比句子级重写，token 级操作更精准，能最大限度保留口译员的原始表达。四类操作覆盖了口译中最常见的错误模式。
保守编辑策略:
- 功能：控制编辑的激进程度，避免过度修正
- 核心思路：引入编辑置信度阈值 \(\tau\)，只有当模型对编辑操作的置信度超过 \(\tau\) 时才执行编辑。此外设计了编辑一致性约束，要求连续 token 的编辑操作在语义上一致（如不能只删除从句的一半）。通过调节 \(\tau\) 可以在编辑充分性和保守性之间权衡。
- 设计动机：口译后编辑的核心挑战是"edit or not"——过于激进会破坏原意，过于保守则无法纠错。置信度阈值提供了可控的编辑策略。

损失函数 / 训练策略¶

训练采用多任务学习框架：主任务为 token 级编辑操作分类（加权交叉熵损失），辅助任务包括目标 token 生成（对 REPLACE 和 INSERT 操作的语言模型损失）和编辑位置检测（二分类损失）。总损失为三者的加权和：\(L = L_{edit} + \lambda_1 L_{gen} + \lambda_2 L_{detect}\)。训练数据通过对齐口译转录和参考翻译自动生成编辑标签。

实验关键数据¶

主实验¶

数据集	指标	本文方法	句子级APE	无编辑基线	提升
EPIC-Interpreting (en-it)	TER↓	28.3	30.1	38.7	+26.9% vs基线
EPIC-Interpreting (en-it)	BLEU↑	52.4	49.8	42.1	+24.5% vs基线
Europarl-Interpreting (en-de)	TER↓	31.5	33.2	41.3	+23.7% vs基线
Europarl-Interpreting (en-de)	BLEU↑	48.7	46.3	39.5	+23.3% vs基线

消融实验¶

配置	TER↓	BLEU↑	说明
Full model	28.3	52.4	完整模型
w/o 对话历史	30.8	50.1	去掉历史上下文，掉2.5 TER
w/o 源语言	29.6	51.2	去掉源语言信息，掉1.3 TER
w/o 保守策略	27.9	51.8	TER略好但BLEU下降，过度编辑
句子级替代	30.1	49.8	退化为句子级APE

关键发现¶

对话历史上下文贡献最大，去掉后 TER 下降2.5个点，说明口译错误的判断强烈依赖上下文
源语言信息对术语相关错误的修正帮助最大，在专业领域（如医学、法律）口译中效果更显著
保守编辑策略虽然在 TER 上略有损失，但在人工评估中获得了更高的"意图保留"分数

亮点与洞察¶

将上下文增强与 token 级编辑结合的思路很巧妙——既保持了 token 级方法的效率和精准性，又通过注意力机制获得了句子级方法的全局视野
保守编辑策略的设计体现了对口译场景的深刻理解：与通用 APE 不同，口译后编辑需要尊重口译员的专业判断
编辑操作的四分类框架可以迁移到其他文本纠错任务，如语法纠错、OCR 后处理等

局限与展望¶

方法依赖于高质量的 ASR 输出，对 ASR 本身引入的错误处理能力有限
源语言信息的利用假设有对齐的源语言文本可用，在某些口译场景中可能不满足
对话历史窗口大小的选择需要针对不同场景调优，论文中未深入讨论最优窗口策略
未来可以探索端到端的语音到编辑文本方案，跳过 ASR 中间步骤

评分¶

新颖性: ⭐⭐⭐⭐ 将上下文增强与token级编辑结合用于口译后编辑是新颖的切入点
实验充分度: ⭐⭐⭐ 核心实验充分，但数据集种类有限
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述完整
价值: ⭐⭐⭐⭐ 对口译和语音翻译领域有实际价值