LLM2Fx-Tools: Tool Calling for Music Post-Production¶

会议: ICLR 2026
arXiv: 2512.01559
代码: Demo
领域: 音频处理 / LLM 工具调用
关键词: 音效链估计, 工具调用, 思维链推理, 音乐后期制作, 多模态LLM

一句话总结¶

提出 LLM2Fx-Tools，首个将 LLM 工具调用应用于音效模块的框架，通过多模态 LLM 理解音频输入，利用 CoT 推理选择音效类型、确定顺序并估计参数，实现可解释和可控的音乐后期制作。

LLM2Fx-Tools 基于 Qwen3-4B，接受指令、干声音频、参考音频作为输入，输出 CoT 推理、可执行 Fx-chain（工具调用序列）和自然语言响应。

音频理解架构: 使用 Fx-Encoder++（对比学习预训练）提取音频特征，通过 Transformer-based adapter（32 个可学习查询嵌入 + 交叉注意力）映射到 LLM 嵌入空间。统一多模态输入序列：$[x_{\text{instruction}}, x_{\text{dry}}, x_{\text{ref}}, x_{\text{cot}}, \mathcal{C}, x_{\text{response}}]$
CoT 音效链规划: 分解为四步推理子任务：① 用户输入分析 → ② 音效模块选择 → ③ 处理顺序确定 → ④ 参数规划。CoT 作为工具调用的条件上下文。
Number Token Loss (NTL): 标准交叉熵对数值预测不友好（等距惩罚所有错误），引入 Wasserstein-1 距离： $$\mathcal{L}_{\text{NTL-WAS}} = \frac{1}{|\mathcal{I}_{\text{num}}|} \sum_{i \in \mathcal{I}_{\text{num}}} \sum_{v \in \mathcal{V}_{\text{num}}} \hat{P}_i(v) |y_i - \text{val}(v)|$$ 最终损失：$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + \lambda \mathcal{L}_{\text{NTL}}$
鲁棒训练: 使用 Fx-Removal 和 Fx-Normalization 预处理对齐录音环境差异，训练时随机 mask 干声音频（概率 $p_{\text{masking}}$）使模型同时支持反向工程和盲估计。

两阶段训练： - 阶段 1（模态对齐）：仅训练 adapter，冻结 LLM，LR=1e-4，100K 步 - 阶段 2（LLM 微调）：LoRA（rank=128, alpha=256），LR=5e-5，400K 步，完整对话数据

方法	Acc↑	排序相关↑	MAE↓	MRS L/R↓	AFx-Rep↑	FxEnc↑
Regression	55%	-0.03	0.20	3.81	0.62	0.64
MultiTask	61%	0.00	0.23	3.17	0.63	0.66
DeepAFx-ST	-	-	-	1.75*	0.62	0.66
Gemini 2.5 Flash	78%	0.54	0.32	3.42	0.56	0.50
LLM2Fx-Tools	80%	0.56	0.23	3.13	0.68	0.67

配置	Acc↑	排序相关↑	MAE↓	MRS L/R↓
LLM2Fx-Tools (完整)	80%	0.56	0.23	3.13
w/o CoT	67%	0.49	0.24	3.34
w/o NTL	73%	0.51	0.32	3.69
w/o MST	76%	0.55	0.25	3.21

音频源：MedleyDB 数据集（196 多轨录音中筛选 2119 个无串扰音频文件）
工具环境：Pedalboard 的 6 个模块 + 3 个自定义模块（共 9 模块 26 参数）
包含：compressor, distortion, reverb, delay, limiter, gain, three-band EQ, stereo widener, panner
LP-Fx 数据集：99900 训练 + 900 测试，按 Fx-chain 长度 1-9 分层采样
数据生成使用 LLM 合成对话 + LLM-as-a-judge 过滤低质量样本
NLG 评估使用 GPT-5 作为 judge，评估工具调用成功率、指令遵循和 CoT 质量
LLM2Fx-Tools 工具调用成功率 99.8%（vs Gemini 2.5 Flash 100%）
Qwen 2.5 Omni 的零样本工具调用能力极差（仅 0.2%），验证了微调的必要性
未正确应用效果的回归模型 MUSHRA 得分低于无效果基线，说明错误应用比不应用更糟糕
模型同时支持反向工程（有干声）和盲估计（无干声）两种任务形式
风格迁移实验使用 MoisesDB 和 MedleyDB 跨数据集评估泛化能力