VoxMind: An End-to-End Agentic Spoken Dialogue System¶

会议: ACL 2026
arXiv: 2604.15710
代码: GitHub
领域: 对话系统 / Agent
关键词: 端到端语音对话, 工具调用, 思考-说话机制, 多智能体动态工具管理, 语音Agent

一句话总结¶

提出 VoxMind，一个赋予端到端语音对话模型智能体能力的统一框架：通过"Think-before-Speak"机制实现显式推理，结合多智能体动态工具管理架构解耦推理延迟与工具规模，任务完成率从基线 34.88% 提升至 74.57%，超越 Gemini-2.5-Pro。

研究背景与动机¶

领域现状：端到端语音对话模型（如 Kimi-Audio、Qwen2.5-Omni、StepAudio2）近年发展迅速，能直接建模副语言信息并生成富有表现力的语音响应，避免传统级联 ASR-LLM-TTS 管线的信息损失和延迟。

现有痛点：(1) 现有端到端语音模型主要优化反应式对话，缺乏推理、规划和外部知识获取能力；(2) 语音领域缺乏"端到端语音 Agent"的统一定义和评估标准；(3) 语音输入比文本需要更多 token，与大规模工具描述叠加后产生显著计算开销；(4) 缺乏带有 Agent 行为标注（推理轨迹、工具交互）的语音数据。

核心矛盾：语音模型的 Agent 能力（工具调用+推理规划）与推理效率之间存在 trade-off——集成更多工具提升能力但增加延迟，而语音交互对响应时间敏感。

本文目标：(1) 定义端到端语音 Agent；(2) 赋予语音模型推理和工具调用能力；(3) 解耦推理延迟与工具库规模。

切入角度：借鉴文本 Agent 的成功经验（ReAct、工具调用），但需要适配语音场景的特殊需求——低延迟、副语言信息保持、语音数据稀缺。

核心 idea：用 Think-before-Speak 机制让语音模型先生成文本推理轨迹再生成语音响应，用异步辅助模型从全局工具库选择候选工具维护动态局部工具空间。

方法详解¶

整体框架¶

VoxMind 接收语音输入，主模型先生成推理轨迹（CoT），然后并行执行两个过程：(1) 主模型基于推理结果在局部工具空间中选择动作；(2) 辅助 LLM 基于同一推理结果从全局工具库中提议候选工具。如果主模型判断当前工具不足，触发工具空间扩展；否则直接执行并生成语音响应。

关键设计¶

Think-before-Speak 机制:
- 功能：为语音模型引入显式推理能力
- 核心思路：在生成语音响应前，先生成文本推理轨迹 \(\mathbf{c}_t \sim \pi_\theta^{\text{think}}(\mathbf{c} | \mathbf{o}_t, \mathcal{H}_{t-1}, \mathcal{T}_t^{local})\)，捕捉意图理解、上下文分析和任务规划。然后基于推理轨迹选择动作 \(\mathbf{a}_t \sim \pi_\theta^{\text{act}}(\mathbf{a} | \mathbf{c}_t, \mathbf{o}_t, \mathcal{H}_{t-1})\)
- 设计动机：端到端语音模型直接 \(x \to y\) 映射不足以处理复杂规划，需要中间推理步骤 \(x \to z \to y\)。推理轨迹训练数据通过反向条件生成构建
多智能体动态工具管理:
- 功能：解耦推理延迟与工具库规模
- 核心思路：维护局部工具空间 \(\mathcal{T}_t^{local} \subset \mathcal{T}^{all}\)。主模型和辅助 LLM 并行执行：主模型在局部空间中选择动作，辅助 LLM 从全局库提议候选。当主模型输出 \(a_{\text{retrieve}}\)（判断当前工具不足）时，合并候选到局部空间 \(\mathcal{T}_{t+1}^{local} = \mathcal{T}_t^{local} \cup \mathcal{T}_t^{cand}\)
- 设计动机：如果每次都处理全部工具描述，token 数量随工具数线性增长。异步并行+按需扩展确保延迟不随工具库增大而显著增加
AgentChat 数据集构建:
- 功能：为语音 Agent 训练提供带推理标注的数据
- 核心思路：包含工具交互语料（14,805 条，来自 ToolACE、APIGen-MT 及自建数据）和通用对话语料（31,481 条），总计 470 小时。推理轨迹通过反向条件生成 \(R \sim p_{\text{LM}}(R | Q, A)\)，经迭代过滤（质量阈值 7/10，最多重试 3 次）和文本润色
- 设计动机：语音领域严重缺乏 Agent 行为标注数据，需要从文本数据出发构建并合成语音

损失函数 / 训练策略¶

基于 StepAudio2 微调，使用 AdamW 优化器，学习率 1e-5，DeepSpeed ZeRO-3，bfloat16 精度，梯度检查点。2 张 H20-NVLink GPU 训练。

实验关键数据¶

主实验¶

模型	单任务 TS/PF	任务分解 TS/PF	并行处理 TS/PF	主动寻求 TU	Overall
StepAudio2	78.70/48.87	60.32/26.98	53.33/33.33	3.12	34.88
Kimi-Audio	78.45/56.89	48.15/22.75	79.05/55.24	13.64	54.94
Gemini-2.5-pro	90.98/75.19	82.54/52.38	88.57/69.52	26.87	71.51
VoxMind	98.50/72.18	95.24/38.10	89.52/61.59	68.66	74.57

消融实验¶

配置	Overall	说明
w/o think, 1:1	68.83	无推理，工具/对话 1:1
w/o think, 1:0.5	70.97	无推理，更少对话数据
w/ think, 1:1	71.97	有推理
w/ think, 1:0.5	74.57	推理 + 更多工具数据占比

关键发现¶

Think-before-Speak 机制平均提升约 3-6%，对"主动寻求工具"能力提升最大（从 31.34% 到 68.66%）
工具/对话数据比例 1:0.5 优于 1:1，说明更高比例的 Agent 数据有利于工具能力
动态工具管理使延迟不随工具数增加而显著增长，40 个工具时延迟仅增加约 20%
VoxMind 在 VoiceBench 上保持了通用对话质量，未因 Agent 训练而退化

亮点与洞察¶

端到端语音 Agent 的形式化定义填补了领域空白——Profile、Memory、Planning、Action 四维度框架为后续研究提供了标准
异步并行的动态工具管理设计巧妙——辅助模型与主模型共享推理轨迹但独立检索，实现了能力与效率的解耦
反向条件生成推理轨迹的数据构建方法实用——先有问答对再生成推理过程，比人工标注高效

局限与展望¶

AgentChat 数据主要由 TTS 合成，可能缺乏自然语音的丰富性
评估主要在自建测试集上，缺乏社区公认的语音 Agent 基准
辅助 LLM 的选择和规模对整体效果的影响未充分消融
未探索流式推理场景（用户说话过程中即开始推理）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统性的端到端语音 Agent 框架，定义+数据+方法完整
实验充分度: ⭐⭐⭐⭐ 对比全面但缺乏社区标准基准
写作质量: ⭐⭐⭐⭐ 形式化定义清晰，架构图直观
价值: ⭐⭐⭐⭐⭐ 开源框架+数据集对语音 Agent 领域有重要推动