Across Programming Language Silos: A Study on Cross-Lingual Retrieval-Augmented Code Generation¶

会议: ACL 2026
arXiv: 2506.03535
代码: GitHub
领域: Code Intelligence / Cross-Lingual Code Generation
关键词: 跨语言代码生成, 检索增强生成, 知识迁移, 多语言编程, 代码检索

一句话总结¶

首次系统研究跨编程语言的检索增强代码生成（RACG），构建覆盖13种编程语言的14K实例数据集，揭示跨语言知识迁移的不对等性及其与语言亲缘性和预训练多样性的关系。

领域现状：检索增强代码生成（RACG）通过检索相关代码片段增强LLM的代码生成能力，但现有研究主要聚焦Python和Java等单一语言设置。

现有痛点：编程语言间的代码知识分布严重不均——Python拥有丰富的文档和社区资源，而Scala等小众语言资源匮乏。企业技术栈迁移也产生了大量跨语言代码转换需求。

核心矛盾：RACG能否有效地将一种编程语言的代码知识迁移到另一种语言？这种迁移是否对所有语言对都同样有效？

本文目标：系统研究RACG中的跨编程语言知识迁移机制，回答三个关键研究问题。

切入角度：设计三种检索实验设置（oracle注入、实际检索、无自然语言代码检索），控制变量分析跨语言迁移效果。

核心 idea：跨语言代码知识迁移是可行但不对等的，效果取决于语言对的亲缘性和LLM预训练语料的多样性。

构建覆盖13种编程语言的大规模数据集（约14K实例），包含NL prompt、验证过的参考解和可执行测试用例。通过三种检索设置和5个代码LLM进行系统评估。

三种检索实验设置:
- 功能：从不同角度评估跨语言知识迁移
- 核心思路：(1) Golden Solution Document——oracle检索模拟理想条件，测量跨语言迁移的上界；(2) Top-k Retrieved Documents——完整RACG管道的端到端评估；(3) Top-k without NL——去除自然语言描述，模拟现实中的纯代码片段场景
- 设计动机：通过控制变量分离检索和生成阶段的影响，明确跨语言迁移的瓶颈所在
大规模多语言代码数据集:
- 功能：提供跨13种编程语言的统一评测基准
- 核心思路：每个实例包含NL描述、参考解和测试用例，覆盖C++、Go、Java、JavaScript、Python、Rust等13种语言
- 设计动机：现有数据集仅覆盖2-5种语言，无法支撑大规模跨语言研究
多语言vs Python专用LLM对比:
- 功能：揭示预训练多样性对跨语言迁移能力的影响
- 核心思路：对比多语言LLM（CodeLlama, DeepSeek-Coder, Qwen2.5-Coder）和Python专用LLM（Phi-1, Phi-1.5）在跨语言RACG中的表现
- 设计动机：区分跨语言迁移能力来源——是来自架构还是预训练数据的多样性

本文为实证研究，不涉及模型训练。使用贪心解码（temperature=0.0）确保可复现性，评估指标为Pass@1。

源语言→目标	C++	Go	Java	JS	Python	平均增益
C++	-	+4.47	+20.33	+18.90	+15.04	+14.68
Go	+9.15	-	-	-	-	-
Baseline(无检索)	54.27	42.68	61.79	58.33	59.35	55.28