跳转至

Context Augmented Token-Level Post-Editing for Human Interpreting

会议: ACL 2025
领域: 文本生成
关键词: 口译后编辑、上下文增强、token级编辑、同声传译、自动纠错
代码: 无

一句话总结

本文提出一种上下文增强的 token 级后编辑方法,利用对话上下文信息对人工口译的 ASR 转录进行细粒度纠错,在保持口译流畅性的同时显著提升转录质量。

研究背景与动机

领域现状:人工口译(human interpreting)是跨语言交流的核心环节,口译员在实时翻译过程中不可避免地会产生语法错误、遗漏和不流畅表达。当前的自动语音识别(ASR)系统能够将口译语音转为文本,但 ASR 输出的错误与口译员本身的不流畅叠加,使得最终转录质量难以满足下游应用需求。

现有痛点:传统的自动后编辑(APE)方法大多在句子级别工作,将整个句子重写或翻译修正。这种粗粒度方法有两个问题:(1)计算开销大,不适合实时或近实时场景;(2)容易过度编辑,改变口译员的原始表达风格和意图。已有的 token 级方法虽然效率更高,但缺乏对上下文信息的利用,无法区分 ASR 错误、口译错误和有意的简化表达。

核心矛盾:token 级编辑追求精准的局部修正,但口译错误的判断往往需要更广泛的上下文——同一个词在不同语境下可能是错误也可能是正确的。如何在保持 token 级效率的同时获得足够的上下文信息是关键挑战。

本文目标:设计一种融合上下文信息的 token 级后编辑框架,能够(1)精准识别需要编辑的 token;(2)利用对话历史和源语言信息做出正确的编辑决策;(3)保持口译员的表达风格。

切入角度:作者观察到口译中的错误类型具有强烈的上下文依赖性——术语错误需要参考源语言,语法错误需要参考前后文,遗漏需要参考对话历史。因此提出将多层次上下文信息注入 token 级编辑决策中。

核心 idea:通过上下文增强的 token 分类器,将对话历史、源语言片段和局部语法约束融合为 token 级编辑信号,实现精准而保守的口译转录修正。

方法详解

整体框架

系统接收 ASR 转录文本和可选的源语言文本作为输入,输出经过修正的转录文本。整体流程分为三个阶段:(1)上下文编码阶段,将当前句子、对话历史和源语言信息分别编码;(2)token 级编辑决策阶段,对每个 token 预测编辑操作(保留/替换/删除/插入);(3)编辑执行阶段,根据预测的操作生成最终输出。

关键设计

  1. 多层次上下文编码器:

    • 功能:将不同粒度的上下文信息编码为统一表示
    • 核心思路:使用预训练语言模型分别编码当前句子、前 \(k\) 句对话历史和对应的源语言片段,通过跨注意力机制(cross-attention)将三种信息融合。当前句子中每个 token 的表示会通过注意力权重动态聚合来自历史和源语言的相关信息。
    • 设计动机:口译错误的判断需要不同类型的上下文——术语错误依赖源语言对齐,语法错误依赖局部上下文,遗漏依赖对话历史。多层次设计使模型能根据不同错误类型选择性利用不同上下文。
  2. Token 级编辑分类器:

    • 功能:为每个 token 预测最合适的编辑操作
    • 核心思路:在融合上下文表示之上添加分类头,将编辑操作定义为四类——KEEP(保留)、REPLACE(替换为目标 token)、DELETE(删除)和 INSERT(在此位置之后插入)。对于 REPLACE 和 INSERT 操作,额外使用一个生成头来预测目标 token。分类损失采用加权交叉熵,对少数类(DELETE、INSERT)给予更高权重。
    • 设计动机:相比句子级重写,token 级操作更精准,能最大限度保留口译员的原始表达。四类操作覆盖了口译中最常见的错误模式。
  3. 保守编辑策略:

    • 功能:控制编辑的激进程度,避免过度修正
    • 核心思路:引入编辑置信度阈值 \(\tau\),只有当模型对编辑操作的置信度超过 \(\tau\) 时才执行编辑。此外设计了编辑一致性约束,要求连续 token 的编辑操作在语义上一致(如不能只删除从句的一半)。通过调节 \(\tau\) 可以在编辑充分性和保守性之间权衡。
    • 设计动机:口译后编辑的核心挑战是"edit or not"——过于激进会破坏原意,过于保守则无法纠错。置信度阈值提供了可控的编辑策略。

损失函数 / 训练策略

训练采用多任务学习框架:主任务为 token 级编辑操作分类(加权交叉熵损失),辅助任务包括目标 token 生成(对 REPLACE 和 INSERT 操作的语言模型损失)和编辑位置检测(二分类损失)。总损失为三者的加权和:\(L = L_{edit} + \lambda_1 L_{gen} + \lambda_2 L_{detect}\)。训练数据通过对齐口译转录和参考翻译自动生成编辑标签。

实验关键数据

主实验

数据集 指标 本文方法 句子级APE 无编辑基线 提升
EPIC-Interpreting (en-it) TER↓ 28.3 30.1 38.7 +26.9% vs基线
EPIC-Interpreting (en-it) BLEU↑ 52.4 49.8 42.1 +24.5% vs基线
Europarl-Interpreting (en-de) TER↓ 31.5 33.2 41.3 +23.7% vs基线
Europarl-Interpreting (en-de) BLEU↑ 48.7 46.3 39.5 +23.3% vs基线

消融实验

配置 TER↓ BLEU↑ 说明
Full model 28.3 52.4 完整模型
w/o 对话历史 30.8 50.1 去掉历史上下文,掉2.5 TER
w/o 源语言 29.6 51.2 去掉源语言信息,掉1.3 TER
w/o 保守策略 27.9 51.8 TER略好但BLEU下降,过度编辑
句子级替代 30.1 49.8 退化为句子级APE

关键发现

  • 对话历史上下文贡献最大,去掉后 TER 下降2.5个点,说明口译错误的判断强烈依赖上下文
  • 源语言信息对术语相关错误的修正帮助最大,在专业领域(如医学、法律)口译中效果更显著
  • 保守编辑策略虽然在 TER 上略有损失,但在人工评估中获得了更高的"意图保留"分数

亮点与洞察

  • 将上下文增强与 token 级编辑结合的思路很巧妙——既保持了 token 级方法的效率和精准性,又通过注意力机制获得了句子级方法的全局视野
  • 保守编辑策略的设计体现了对口译场景的深刻理解:与通用 APE 不同,口译后编辑需要尊重口译员的专业判断
  • 编辑操作的四分类框架可以迁移到其他文本纠错任务,如语法纠错、OCR 后处理等

局限与展望

  • 方法依赖于高质量的 ASR 输出,对 ASR 本身引入的错误处理能力有限
  • 源语言信息的利用假设有对齐的源语言文本可用,在某些口译场景中可能不满足
  • 对话历史窗口大小的选择需要针对不同场景调优,论文中未深入讨论最优窗口策略
  • 未来可以探索端到端的语音到编辑文本方案,跳过 ASR 中间步骤

相关工作与启发

  • vs 传统APE(Chatterjee et al.): 传统 APE 在句子级重写,本文在 token 级精准修正,优势在于效率和意图保留
  • vs LaserTagger: LaserTagger 也做 token 级编辑但缺乏上下文感知,本文通过多层次上下文编码显著提升了编辑准确率
  • vs GECToR: GECToR 面向语法纠错,本文面向口译后编辑,编辑策略更保守,更注重保留原始表达
  • vs Translatotron: 端到端语音翻译跳过ASR阶段,但口译辅助场景仍需要后编辑修正人类口译员的输出

评分

  • 新颖性: ⭐⭐⭐⭐ 将上下文增强与token级编辑结合用于口译后编辑是新颖的切入点
  • 实验充分度: ⭐⭐⭐ 核心实验充分,但数据集种类有限
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述完整
  • 价值: ⭐⭐⭐⭐ 对口译和语音翻译领域有实际价值

相关论文