Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR¶
会议: AAAI2026
arXiv: 2508.01166
代码: 待确认
领域: audio_speech
关键词: conversational ASR, LLM-based ASR, retrieval augmented generation, multi-modal retrieval, context selection
一句话总结¶
提出多模态检索与选择方法 MARS,从对话历史中检索并筛选与当前语音最相关的上下文,仅用 1.5K 小时训练数据即超越使用 179K 小时数据的 SOTA 系统。
背景与动机¶
对话式语音识别(Conversational ASR)需要利用历史上下文来提升识别准确率,因为对话语音具有高度的上下文相关性(如说话人特定发音、用词偏好、填充词、口吃等)。现有基于 LLM 的对话 ASR 方法在利用历史上下文时存在两种策略:
- 固定前序上下文:取前 N 句作为上下文。问题在于这些前序句中可能包含大量语义无关的填充词,且真正相关的上下文可能在更早的对话历史中
- 全部对话历史:将整段对话作为上下文。虽然信息更丰富,但不可避免地引入冗余信息,干扰 ASR 并带来巨大计算开销
作者观察到:与当前语音最相关的历史上下文位置并不固定,可能出现在较早的对话中,而非紧邻的前几句。这促使他们思考如何高效地从对话历史中检索和选择最相关的上下文。
核心问题¶
如何从对话历史中检索并选择与当前语音最相关的历史上下文,以增强对话式 LLM-ASR 的性能,同时避免冗余信息干扰和过高的计算开销。
方法详解¶
整体框架¶
MARS(Multi-modal Retrieval-And-Selection)包括三个核心模块:
1. 数据库构建¶
- 使用全量微调的 Whisper-large-v3 构建数据库
- 每条对话语音存储一个三元组:语音 ID、语音 embedding、ASR 假设文本(hypothesis)
2. 多模态检索(Multi-modal Retrieval)¶
同时从语音和文本两个模态检索相似的历史上下文:
语音模态检索: - 使用 FastDTW 计算当前语音与历史语音 embedding 之间的帧级声学相似度 - 通过池化计算语音级余弦相似度 - 两者加权求和(权重各 0.5)得到语音检索相似度 - 取 Top-K(K=3)相似度最高的历史上下文
文本模态检索: - 使用 Qwen3-Embedding-0.6B 计算当前假设文本与历史假设文本之间的句子级语义相似度 - 取 Top-K 相似度最高的历史上下文
3. 多模态选择(Multi-modal Selection)——近理想排序法¶
检索后得到 2K 个候选历史上下文,需从中选择最佳的一个。核心挑战是语音和文本相似度不在同一量纲,不能直接相加。
近理想排序法(Near-ideal Ranking)基于 TOPSIS 多准则决策思想: - 对所有候选的语音/文本相似度进行归一化 - 定义理想解(两个维度均取最大值)和负理想解(两个维度均取最小值) - 计算每个候选与理想解和负理想解的欧氏距离 - 选择相对接近度 \(c_i = d_i^- / (d_i^+ + d_i^-)\) 最大的候选作为最佳历史上下文
4. 自适应上下文解码(Adaptive Contextual Decoding)¶
- 训练时以 50% 概率随机遮蔽最佳历史上下文,防止模型过度依赖上下文
- 推理时支持三种解码策略:
- 直接解码:不使用任何历史上下文
- MARS 解码:使用检索选择的最佳历史上下文
- 两遍解码:第一遍直接解码获取初步假设,重新构建数据库后第二遍用 MARS 解码获取最终结果
LLM-ASR 架构¶
- 语音编码器:微调的 Whisper-large-v3 encoder
- LLM:Qwen2.5-7B-Instruct
- 连接器:两层线性层 + ReLU
- LoRA:rank=64, alpha=256, dropout=0.05,应用于 7 个投影模块
实验关键数据¶
在 Interspeech 2025 MLC-SLM Challenge 数据集上评估(11 种语言,约 1.5K 小时):
| 方法 | 训练数据 | Dev MER | Test MER |
|---|---|---|---|
| Vanilla Whisper-large-v3 | - | 16.82% | 17.33% |
| Fine-tuned Whisper | 1.5K h | 11.87% | 10.15% |
| TEA-ASLP(前 SOTA) | 179K h | 10.62% | 9.60% |
| MARS | 1.5K h | 8.97% | 8.35% |
消融实验核心发现: - 加入当前语音假设文本:MER 12.75% → 11.15% - 仅语音检索 Top-1:11.15% → 10.24% - 仅文本检索 Top-1:11.15% → 10.33% - 多模态检索 + 选择:→ 9.77% - 两遍解码:→ 8.97%
上下文数量实验表明,增加历史上下文数量反而导致性能下降(1 句 9.74% → 5 句 13.49%),验证了冗余信息的危害。
亮点¶
- 数据效率极高:仅用 1.5K 小时训练数据超越使用 179K 小时的 SOTA 系统(约 120 倍数据量差距),凸显检索上下文策略的价值
- 近理想排序法设计巧妙:借鉴多准则决策 TOPSIS 方法解决不同模态相似度不可直接比较的问题,比简单加权求和效果更好
- 训练时随机遮蔽上下文:避免模型过度依赖历史上下文,使模型同时适配多种解码策略
- 两遍解码策略:利用更准确的第一遍假设重建数据库后再检索,进一步提升性能
局限性 / 可改进方向¶
- 多模态检索和选择模块在推理时引入额外计算开销(FastDTW + embedding 计算),实时性可能受限
- 数据库依赖 Whisper 的初始假设质量,若初始假设错误较多会影响检索效果
- 仅在 MLC-SLM 一个数据集上验证,泛化性有待进一步验证
- Top-K 和两遍解码等超参数可能需要针对不同场景调优
- 近理想排序法中语音和文本维度的权重隐式相等,是否应引入可学习的权重值得探索
与相关工作的对比¶
- TEA-ASLP(MLC-SLM Challenge 冠军):大规模预训练 179K 小时 + MoE 架构,暴力堆数据;MARS 以 1/120 的数据量超越之
- Bi-context / Seewo:使用固定前序 2 句上下文,即使用 ground-truth 转录也只获得有限提升(13.56% / 14.30%),远不如 MARS 的 8.97%
- 传统 RAG:面向基于检索的文本生成,不适合 ASR 的语音到文本映射场景;MARS 借鉴 RAG 思想但专门针对对话 ASR 设计
- WavRAG / SEAL:侧重语音检索 embedding 质量评估或语音对话模型,未专门解决对话 ASR 中的上下文选择问题
启发与关联¶
- 检索增强的思路可以推广到其他序列预测任务:在翻译、摘要等场景中,检索最相关的历史片段而非固定窗口上下文
- 近理想排序法本质是 TOPSIS 在多模态融合中的应用,可迁移到其他需要融合不同模态相似度的检索场景
- 训练时随机遮蔽上下文的策略类似于 dropout 的思想,对任何使用辅助上下文的模型都有借鉴意义
- "少量数据 + 智能检索" vs. "海量数据暴力训练" 的对比极具启发性,说明数据利用效率的提升空间巨大
评分¶
- 新颖性: ⭐⭐⭐⭐ (将 RAG 思想适配到对话 ASR,近理想排序法有创新)
- 实验充分度: ⭐⭐⭐⭐⭐ (消融全面、多语言评估、与挑战赛系统对比)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,图表直观)
- 价值: ⭐⭐⭐⭐⭐ (1.5K vs 179K 小时的性能超越,实际意义显著)