WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models¶

会议: ACL 2025
arXiv: 2502.14727
代码: 无
领域: 语音对话 / RAG
关键词: 检索增强生成, 语音对话, 多模态检索, 端到端音频, 链式推理

一句话总结¶

提出 WavRAG，首个端到端原生支持音频的检索增强生成框架，通过 WavRetriever 实现音频-文本混合知识库的统一检索，并结合 CoT 推理增强口语对话模型的上下文能力，在保持与 SOTA 文本 RAG 可比性能的同时实现约 10 倍加速。

检索增强生成（RAG）已成为增强 LLM 外部知识整合能力的主流范式，但现有 RAG 框架主要为文本设计，在口语对话场景中存在严重局限：

级联 ASR+RAG 管线的问题：现有方案先用 ASR 将语音转文字再进行文本 RAG，这种间接方式丢失了音频中的丰富信息（如语气、环境音、音乐等），ASR 引入额外延迟和转录错误，错误还会在系统中传播
音频模态的广泛性被忽略：音频不仅包含人类语音，还包括环境声、音乐、动物叫声等大量超出 ASR 能力范围的声音信息
知识库仅限文本：传统 RAG 的知识库是纯文本的，无法利用音频特有的知识
缺乏端到端方案：实现一个完全端到端的、音频兼容的 RAG 系统仍然是重大挑战

核心目标：构建一个能直接处理原始音频进行 embedding 和检索，同时整合音频与文本到统一知识表示的 RAG 框架。

WavRAG 包含四个步骤：(1) 双模态编码器为音频和文本查询创建 embedding；(2) 从音频-文本混合知识库中用余弦相似度检索 Top-K 文档；(3) CoT 推理分析检索到的信息；(4) LLM 生成基于检索知识的最终回答。

WavRetriever（多模态检索器）：基于 Qwen2-Audio 构建，冻结预训练音频编码器参数，训练 projection 层和 backbone LLM。核心创新是通过对比学习框架将模型适配为多模态检索器——将查询和正样本知识的 embedding 拉近，与负样本推远。使用 InfoNCE 损失函数，温度参数 τ 控制分布锐度，采用 batch 内负采样。输入可以是纯音频、纯文本或音频+文本的混合，统一编码到共享 embedding 空间。设计动机是避免 ASR 的计算开销和错误传播，直接从原始音频提取语义表示。
音频-文本混合知识库：将传统纯文本知识库扩展为包含音频、文本或二者混合的统一知识库 K。每个知识条目可以是一段音频描述+对应音频片段、纯文本文档或语音转录+原始语音等。这使得 RAG 系统能检索到文本无法表达的音频信息（如特定鸟叫声、音乐风格等）。
CoT 增强生成：在生成阶段引入 Zero-Shot-CoT 推理和 Self-Consistency 机制。Zero-Shot-CoT 通过 "Let's think step-by-step" 引导模型对检索到的多模态知识进行结构化推理。Self-Consistency 使用 Universal Self-Consistency (USC) 方法——生成多条推理路径，让 LLM 自身选择最一致的回答（而非简单多数投票）。设计动机是帮助口语对话模型更好地管理和综合多模态检索信息。

检索器训练：InfoNCE 对比学习损失 \(\mathcal{L} = -[\frac{\text{sim}(r_q, r_k^+)}{\tau} - \log Z]\)
训练数据：1.5M 样本，覆盖 5 种检索场景（S2T、S2S、T2S、T2T、AT2AT）
冻结 Qwen2-Audio 的音频编码器，训练 projection 层和 LLM backbone
语音查询使用 CosyVoice2 TTS 合成，加入多种声音 prompt 和噪声增强
生成端不训练，使用 GPT-4o 或 QwenAudio 作为现成生成模型

方法	HotpotQA EM	SLUE EM	自建数据集 FS
TextRAG	0.3457	0.3359	-
WavRAG	0.4186	0.4315	0.6408
WavRAG-CoT	0.4286	0.5239	0.6487

配置	R@1	R@10	nDCG@10	说明
Qwen2-Audio (原始)	0.0675	0.1868	0.1212	无对比学习
WavRAG	0.2728	0.6313	0.5381	对比学习后
Δ 提升	+0.2053	+0.4445	+0.4169	对比学习至关重要