InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Models¶

会议: ACL 2025
arXiv: 2503.02969
代码: https://github.com/LeiLiLab/InfiniSST
领域: LLM/NLP
关键词: simultaneous translation, streaming speech, KV cache, multi-turn dialogue, unbounded input

一句话总结¶

提出 InfiniSST，将流式同声翻译建模为多轮对话任务，结合流式语音编码器和 KV cache 管理策略实现无限长语音输入的实时翻译，在 MuST-C 上减少 0.5-1s 计算感知延迟且不损失翻译质量。

研究背景与动机¶

领域现状：同声翻译（SST）大多假设语音已预分段，但真实场景中语音是无限长的流式输入。
现有痛点：传统 SST 每次新语音到来时需重新计算历史特征，计算成本高；级联方法（ASR+MT）的分段错误影响翻译质量。
核心矛盾：无限长语音输入 vs 有限上下文窗口 vs 实时低延迟要求。
本文要解决什么？ 设计能无缝处理无限长流式语音的 LLM 翻译系统。
切入角度：将 SST 建模为 LLM 的多轮对话（每轮接收一段语音，生成一段翻译，直到 EOT token 切换回读取模式），用 KV cache 管理实现无限长推理。
核心idea一句话：多轮对话格式 + 滑动窗口 KV cache = 无限长流式语音的低延迟翻译。

方法详解¶

整体框架¶

流式语音 -> 分块因果语音编码器（wav2vec2 改造：RoPE + 块级因果注意力 + 滑动窗口）-> 适配器下采样 -> LLM 多轮对话解码（交替读语音和写翻译）-> 滑动窗口 KV cache 管理。

关键设计¶

流式语音编码器改造
双向注意力 -> 块级因果注意力（块内双向，块间因果）
卷积位置编码 -> RoPE（更好的长度外推）
滑动窗口 \(w^s\) = 10 块约 9.6 秒
设计动机：允许增量编码，不需重新计算历史
多轮对话格式
系统指令："Translate from X to Y"
交替 USER（语音嵌入 + EOT）和 ASSISTANT（翻译 + EOT）
EOT token 触发从"写翻译"切换到"读语音"
设计动机：利用 LLM 原生的多轮对话能力
KV Cache 管理策略
滑动窗口 \(w^t\) 保留最近的 KV cache + 系统指令 KV
Λ 形注意力窗口实现长度外推
设计动机：恒定内存使用，支持无限长输入
训练数据构建
从 MuST-C 构建翻译轨迹，用多延迟增强增加多样性
设计动机：训练模型学会在不同延迟下翻译

实验关键数据¶

主实验 -- MuST-C 同声翻译¶

方法	En-Es BLEU	En-De BLEU	计算延迟 (CA-AL)
传统 SST-S	~30	~25	基线
AlignAtt	~29	~24	高
InfiniSST	~30	~25	-0.5~1s

消融¶

配置	BLEU	延迟	说明
无 KV cache 管理	相同	线性增长	不可扩展
无多延迟增强	-1 BLEU	更高	数据多样性重要
InfiniSST 完整	最优	最低	所有组件都有贡献

关键发现¶

翻译质量不变但延迟减少 0.5-1s——对同声翻译来说是显著改善
KV cache 管理是关键：使内存使用恒定，支持真正无限长输入
多轮对话格式自然适配 LLM 的推理范式
多延迟增强训练提升了多种延迟-质量权衡设定下的鲁棒性

亮点与洞察¶

将 SST 建模为多轮对话是一个优雅的抽象——完美利用了 LLM 的 KV cache 机制
Λ 形注意力窗口在语音翻译中的首次应用
对实时会议翻译等场景有直接商业价值

局限性 / 可改进方向¶

依赖固定的块大小（960ms），对语速变化不够自适应
仅测试 3 个语言对
改进方向：自适应分块策略、更多语言对

评分¶

新颖性: ⭐⭐⭐⭐ 多轮对话格式+KV cache 管理的结合新颖实用
实验充分度: ⭐⭐⭐⭐ 3 语言对+消融+延迟分析
写作质量: ⭐⭐⭐⭐ 问题形式化清晰
价值: ⭐⭐⭐⭐⭐ 对实时翻译系统有直接工程价值