InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Models¶
会议: ACL 2025
arXiv: 2503.02969
代码: https://github.com/LeiLiLab/InfiniSST
领域: LLM/NLP
关键词: simultaneous translation, streaming speech, KV cache, multi-turn dialogue, unbounded input
一句话总结¶
提出 InfiniSST,将流式同声翻译建模为多轮对话任务,结合流式语音编码器和 KV cache 管理策略实现无限长语音输入的实时翻译,在 MuST-C 上减少 0.5-1s 计算感知延迟且不损失翻译质量。
研究背景与动机¶
- 领域现状:同声翻译(SST)大多假设语音已预分段,但真实场景中语音是无限长的流式输入。
- 现有痛点:传统 SST 每次新语音到来时需重新计算历史特征,计算成本高;级联方法(ASR+MT)的分段错误影响翻译质量。
- 核心矛盾:无限长语音输入 vs 有限上下文窗口 vs 实时低延迟要求。
- 本文要解决什么? 设计能无缝处理无限长流式语音的 LLM 翻译系统。
- 切入角度:将 SST 建模为 LLM 的多轮对话(每轮接收一段语音,生成一段翻译,直到 EOT token 切换回读取模式),用 KV cache 管理实现无限长推理。
- 核心idea一句话:多轮对话格式 + 滑动窗口 KV cache = 无限长流式语音的低延迟翻译。
方法详解¶
整体框架¶
流式语音 -> 分块因果语音编码器(wav2vec2 改造:RoPE + 块级因果注意力 + 滑动窗口)-> 适配器下采样 -> LLM 多轮对话解码(交替读语音和写翻译)-> 滑动窗口 KV cache 管理。
关键设计¶
- 流式语音编码器改造
- 双向注意力 -> 块级因果注意力(块内双向,块间因果)
- 卷积位置编码 -> RoPE(更好的长度外推)
- 滑动窗口 \(w^s\) = 10 块 约 9.6 秒
-
设计动机:允许增量编码,不需重新计算历史
-
多轮对话格式
- 系统指令:"Translate from X to Y"
- 交替 USER(语音嵌入 + EOT)和 ASSISTANT(翻译 + EOT)
- EOT token 触发从"写翻译"切换到"读语音"
-
设计动机:利用 LLM 原生的多轮对话能力
-
KV Cache 管理策略
- 滑动窗口 \(w^t\) 保留最近的 KV cache + 系统指令 KV
- Λ 形注意力窗口实现长度外推
-
设计动机:恒定内存使用,支持无限长输入
-
训练数据构建
- 从 MuST-C 构建翻译轨迹,用多延迟增强增加多样性
- 设计动机:训练模型学会在不同延迟下翻译
实验关键数据¶
主实验 -- MuST-C 同声翻译¶
| 方法 | En-Es BLEU | En-De BLEU | 计算延迟 (CA-AL) |
|---|---|---|---|
| 传统 SST-S | ~30 | ~25 | 基线 |
| AlignAtt | ~29 | ~24 | 高 |
| InfiniSST | ~30 | ~25 | -0.5~1s |
消融¶
| 配置 | BLEU | 延迟 | 说明 |
|---|---|---|---|
| 无 KV cache 管理 | 相同 | 线性增长 | 不可扩展 |
| 无多延迟增强 | -1 BLEU | 更高 | 数据多样性重要 |
| InfiniSST 完整 | 最优 | 最低 | 所有组件都有贡献 |
关键发现¶
- 翻译质量不变但延迟减少 0.5-1s——对同声翻译来说是显著改善
- KV cache 管理是关键:使内存使用恒定,支持真正无限长输入
- 多轮对话格式自然适配 LLM 的推理范式
- 多延迟增强训练提升了多种延迟-质量权衡设定下的鲁棒性
亮点与洞察¶
- 将 SST 建模为多轮对话是一个优雅的抽象——完美利用了 LLM 的 KV cache 机制
- Λ 形注意力窗口在语音翻译中的首次应用
- 对实时会议翻译等场景有直接商业价值
局限性 / 可改进方向¶
- 依赖固定的块大小(960ms),对语速变化不够自适应
- 仅测试 3 个语言对
- 改进方向:自适应分块策略、更多语言对
相关工作与启发¶
- vs Papi et al. (2024):他们扩展 AlignAtt 到无限语音,但需要全量存储历史
- vs 投机解码:概念类似——KV cache 是避免重复计算的核心
评分¶
- 新颖性: ⭐⭐⭐⭐ 多轮对话格式+KV cache 管理的结合新颖实用
- 实验充分度: ⭐⭐⭐⭐ 3 语言对+消融+延迟分析
- 写作质量: ⭐⭐⭐⭐ 问题形式化清晰
- 价值: ⭐⭐⭐⭐⭐ 对实时翻译系统有直接工程价值