Embedding Alignment in Code Generation for Audio¶

会议: NeurIPS 2025 arXiv: 2508.05473 代码: 无领域: 多模态 / 音频AI 关键词: code generation, audio embedding, contrastive learning, cross-modal alignment, live-coding

一句话总结¶

提出双 MLP + InfoNCE 对比学习框架，将代码嵌入（distilroberta-base）和音频嵌入（wav2vec2）对齐到共享空间，使 LLM 代码生成流程无需编译执行即可从代码推断音乐相似性，CKA 从 0.090 提升至 0.590。

研究背景与动机¶

Live-coding 场景：表演者需要在时间压力和观众面前实时编写音乐生成代码（如 Sonic Pi），LLM 辅助代码生成可以减轻语法负担，让创作者聚焦高层音乐构思
核心痛点：现有 LLM 代码生成模型使用文本相似度指标（如 BLEU、编辑距离）评估候选代码，但文本层面的相似不等于音频层面的相似——两段文本相近的代码可能产生截然不同的声音，反之亦然
关键观察：作者在 27 个 Sonic Pi 教程示例上计算代码-代码和音频-音频的嵌入距离，发现 Pearson 相关仅 0.0159（p=0.677），Spearman 仅 0.0409（p=0.445），说明原始嵌入空间之间几乎不存在线性或秩序关系
参数扰动实验：对代码做微小修改（sleep、amplitude、bpm），代码嵌入相似度保持 >0.990，但音频嵌入相似度范围更大（低于 0.975），且不同参数类型对音频嵌入的影响无一致规律，表明对齐映射是非平凡的

方法详解¶

数据构建¶

基于 27 个 Sonic Pi 教程代码，利用 Jinja 模板引擎随机化参数（音色 synths、采样 samples、音符 notes、attack/release、amp、sleep、effects 等）
生成 500 个不同的 Sonic Pi 代码文件，总计 13,500 条代码-音频配对样本
代码嵌入使用 distilroberta-base，音频嵌入使用 Meta 的 wav2vec2，音频截取 120 BPM 下 9 小节

对称双 MLP 架构¶

两个独立的 MLP 分别处理代码嵌入 \(\texttt{MLP}_c\) 和音频嵌入 \(\texttt{MLP}_a\)
每个 MLP 包含 \(L\) 层线性层，中间层维度 \(d_{\text{hidden}}\)，使用 BatchNorm + GELU 激活
将预训练嵌入投影到共享空间：\(c_i = \texttt{MLP}_c(c_i^0)\)，\(a_i = \texttt{MLP}_a(a_i^0)\)
选择对称 MLP 而非注意力机制，因为目标是高效映射而非引入模态偏向

InfoNCE 对比学习¶

给定 batch 中 \(N\) 对对齐的代码-音频嵌入 \(\{(c_i, a_i)\}_{i=1}^N\)，使用余弦相似度：

\[\text{sim}(c_i, a_j) = \frac{c_i^\top a_j}{\|c_i\| \cdot \|a_j\|}\]

InfoNCE 损失拉近正样本对、推远负样本对：

\[\mathcal{L}_i = -\log \frac{\exp(\text{sim}(c_i, a_i) / \tau)}{\sum_{j=1}^N \exp(\text{sim}(c_i, a_j) / \tau)}\]

\(\tau\) 为温度超参数，控制相似度分布的锐度
该自监督方式无需显式标注，仅利用代码-音频配对关系学习对齐

评估指标¶

指标	类型	说明
CKA (Centered Kernel Alignment)	结构相似性	对正交变换和各向同性缩放不变，捕捉非线性结构相似
CCA (Canonical Correlation Analysis)	线性相关性	度量两组多变量间最大线性相关
Jaccard / overlap@k	邻域一致性	代码空间最近邻是否对应音频空间最近邻
Spearman / Pearson	秩/线性相关	距离排序的相关程度

实验关键数据¶

超参数调优（24 组配置，5 次平均）¶

状态	CKA	CCA
对齐前基线	0.090	0.140
最佳配置（CKA）	0.590	—
最佳配置（CCA）	—	0.902

两项指标均实现 6 倍以上提升。

三个代码补全场景¶

场景	方法	Jaccard	overlap@3	Spearman	Pearson
melody	Raw baseline	0.20	0.33	0.21	0.18
melody	Ours	0.34	0.47	0.16	0.07
drum	Raw baseline	0.00	0.00	—	-0.25
drum	Ours	0.16	0.27	-0.05	-0.12
bass	Raw baseline	0.20	0.33	0.24	0.21
bass	Ours	0.50	0.67	0.44	0.46

关键发现¶

邻域指标全面提升：所有三个场景的 Jaccard 和 overlap@3 均优于 raw baseline
drum 场景改善最大：baseline 完全失败（Jaccard=0），对齐后提升至 0.16/0.27
bass 场景最强：Jaccard 0.50、overlap@3 0.67，秩相关也显著提升
无需编译音频：所有推断直接基于代码嵌入完成，避免了音频渲染的计算开销
UMAP 可视化：对齐前代码（蓝）和音频（橙）完全分离；对齐后两种模态在嵌入空间中出现重叠，语义相关的代码-音频对聚集在临近区域

亮点与洞察¶

问题定义新颖：首次系统研究代码嵌入与音频嵌入的跨模态对齐问题，在 creative coding / live-coding 这一小众但活跃的领域填补了空白
轻量有效的方案：仅用双 MLP + InfoNCE 即可实现显著对齐，无需复杂的 Transformer 跨模态架构
实用价值：对齐后可以仅从代码嵌入推断音频相似性，为代码补全工具提供"音乐感知"能力，让 LLM 辅助 live-coding 时生成的候选代码更多样且有感知意义
初步探索的思路值得借鉴：先做消极实验（证明原始空间无相关性）再motivate 对齐模型，论证逻辑清晰

局限性 / 可改进方向¶

数据规模有限：仅基于 27 个 Sonic Pi 教程模板扩增，音乐风格和代码结构多样性不足
仅支持 Sonic Pi：未验证对其他音乐编程语言（SuperCollider、TidalCycles、Strudel）的泛化能力
秩相关指标不稳定：melody 和 drum 场景中 Spearman/Pearson 未持续提升，说明对齐在细粒度排序上仍有不足
未集成到实际代码补全系统：当前仅在离线实验中验证，尚未嵌入真实的 LLM 代码助手流程
嵌入模型选择：distilroberta-base 为通用文本模型，未针对代码语义优化，更换为 CodeBERT 等可能有更好效果
音频表示：wav2vec2 主要为语音设计，音乐表示可能不够精确，可考虑 CLAP 等音乐专用嵌入

评分¶

新颖性: ⭐⭐⭐ 代码-音频对齐视角新颖
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐
价值: ⭐⭐⭐ 对音频生成领域有特定价值