跳转至

InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Models

会议: ACL 2025
arXiv: 2503.02969
代码: https://github.com/LeiLiLab/InfiniSST
领域: LLM/NLP
关键词: simultaneous translation, streaming speech, KV cache, multi-turn dialogue, unbounded input

一句话总结

提出 InfiniSST,将流式同声翻译建模为多轮对话任务,结合流式语音编码器和 KV cache 管理策略实现无限长语音输入的实时翻译,在 MuST-C 上减少 0.5-1s 计算感知延迟且不损失翻译质量。

研究背景与动机

  1. 领域现状:同声翻译(SST)大多假设语音已预分段,但真实场景中语音是无限长的流式输入。
  2. 现有痛点:传统 SST 每次新语音到来时需重新计算历史特征,计算成本高;级联方法(ASR+MT)的分段错误影响翻译质量。
  3. 核心矛盾:无限长语音输入 vs 有限上下文窗口 vs 实时低延迟要求。
  4. 本文要解决什么? 设计能无缝处理无限长流式语音的 LLM 翻译系统。
  5. 切入角度:将 SST 建模为 LLM 的多轮对话(每轮接收一段语音,生成一段翻译,直到 EOT token 切换回读取模式),用 KV cache 管理实现无限长推理。
  6. 核心idea一句话:多轮对话格式 + 滑动窗口 KV cache = 无限长流式语音的低延迟翻译。

方法详解

整体框架

流式语音 -> 分块因果语音编码器(wav2vec2 改造:RoPE + 块级因果注意力 + 滑动窗口)-> 适配器下采样 -> LLM 多轮对话解码(交替读语音和写翻译)-> 滑动窗口 KV cache 管理。

关键设计

  1. 流式语音编码器改造
  2. 双向注意力 -> 块级因果注意力(块内双向,块间因果)
  3. 卷积位置编码 -> RoPE(更好的长度外推)
  4. 滑动窗口 \(w^s\) = 10 块 约 9.6 秒
  5. 设计动机:允许增量编码,不需重新计算历史

  6. 多轮对话格式

  7. 系统指令:"Translate from X to Y"
  8. 交替 USER(语音嵌入 + EOT)和 ASSISTANT(翻译 + EOT)
  9. EOT token 触发从"写翻译"切换到"读语音"
  10. 设计动机:利用 LLM 原生的多轮对话能力

  11. KV Cache 管理策略

  12. 滑动窗口 \(w^t\) 保留最近的 KV cache + 系统指令 KV
  13. Λ 形注意力窗口实现长度外推
  14. 设计动机:恒定内存使用,支持无限长输入

  15. 训练数据构建

  16. 从 MuST-C 构建翻译轨迹,用多延迟增强增加多样性
  17. 设计动机:训练模型学会在不同延迟下翻译

实验关键数据

主实验 -- MuST-C 同声翻译

方法 En-Es BLEU En-De BLEU 计算延迟 (CA-AL)
传统 SST-S ~30 ~25 基线
AlignAtt ~29 ~24
InfiniSST ~30 ~25 -0.5~1s

消融

配置 BLEU 延迟 说明
无 KV cache 管理 相同 线性增长 不可扩展
无多延迟增强 -1 BLEU 更高 数据多样性重要
InfiniSST 完整 最优 最低 所有组件都有贡献

关键发现

  • 翻译质量不变但延迟减少 0.5-1s——对同声翻译来说是显著改善
  • KV cache 管理是关键:使内存使用恒定,支持真正无限长输入
  • 多轮对话格式自然适配 LLM 的推理范式
  • 多延迟增强训练提升了多种延迟-质量权衡设定下的鲁棒性

亮点与洞察

  • 将 SST 建模为多轮对话是一个优雅的抽象——完美利用了 LLM 的 KV cache 机制
  • Λ 形注意力窗口在语音翻译中的首次应用
  • 对实时会议翻译等场景有直接商业价值

局限性 / 可改进方向

  • 依赖固定的块大小(960ms),对语速变化不够自适应
  • 仅测试 3 个语言对
  • 改进方向:自适应分块策略、更多语言对

相关工作与启发

  • vs Papi et al. (2024):他们扩展 AlignAtt 到无限语音,但需要全量存储历史
  • vs 投机解码:概念类似——KV cache 是避免重复计算的核心

评分

  • 新颖性: ⭐⭐⭐⭐ 多轮对话格式+KV cache 管理的结合新颖实用
  • 实验充分度: ⭐⭐⭐⭐ 3 语言对+消融+延迟分析
  • 写作质量: ⭐⭐⭐⭐ 问题形式化清晰
  • 价值: ⭐⭐⭐⭐⭐ 对实时翻译系统有直接工程价值