Function-to-Style Guidance of LLMs for Code Translation¶

会议: ICML 2025
arXiv: 2507.11083
代码: 有（论文提及模型和 benchmark 已公开）
领域: LLM / NLP
关键词: code translation, LLM fine-tuning, functional learning, style learning, readability

一句话总结¶

提出 F2STrans，通过功能学习（正确性）和风格学习（可读性）两阶段渐进式微调 LLM，使 Qwen-1.5B 在 20 种代码翻译场景中平均超越 prompt 增强的 Qwen-32B 和 GPT-4。

研究背景与动机¶

领域现状¶

领域现状：领域现状**: LLM 在代码翻译（Java→Python 等）上取得进展，但翻译结果的正确性和可读性仍是挑战。

现有痛点: 大多数方法关注功能正确性，但代码风格不自然、可读性差。缺乏同时评估功能和风格的 benchmark。

核心矛盾: 功能正确性和代码风格是两个不同维度的目标，直接翻译可能功能正确但风格生硬。

本文解决什么: 设计渐进式框架，先确保功能正确，再优化代码风格。

切入角度: 从在线编程平台挖掘高质量代码对进行功能学习，再用正负风格样本进行风格学习。

核心 idea: 将代码翻译优化解耦为"先功能后风格"两步。

解决思路¶

本文目标：### 整体框架 Stage 1 - Functional Learning: 用高质量源-目标代码对微调，优化翻译正确性。

方法详解¶

整体框架¶

Stage 1 - Functional Learning: 用高质量源-目标代码对微调，优化翻译正确性。 Stage 2 - Style Learning: 用正/负风格样本进一步微调，引导模型输出更自然的代码风格。

关键设计¶

高质量代码对挖掘: 从 LeetCode/Codeforces 中对同一题目的不同语言提交配对，筛选功能等价且质量高的代码对。设计动机：真实多语言代码比合成数据更自然，功能正确性有测试用例保证。
风格学习: 引入对比学习思想，使用正例（符合目标语言惯用法）和负例（功能正确但风格不自然）。模型学习在保持功能不变的前提下向更自然的风格靠拢。
新 benchmark: 包含最新源代码、大量测试用例和人工标注 ground-truth，支持 20 种翻译场景（5 语言两两翻译），同时评估功能和风格。

损失函数 / 训练策略¶

功能学习阶段：标准 SFT loss
风格学习阶段：结合正负样本的对比/偏好学习损失

实验关键数据¶

主实验（20 种翻译场景）¶

模型	功能正确率	风格评分	综合
F2STrans (Qwen-1.5B)	最佳	最佳	SOTA
Qwen-32B + prompt	较高	中等	不及 1.5B微调
GPT-4 + prompt	较高	中等	不及 1.5B微调

消融实验¶

配置	功能正确率	风格评分	说明
完整 F2STrans	最高	最高	两阶段都有
仅功能学习	较高	中等	正确但不自然
仅风格学习	较低	较高	风格好但可能错误
直接联合训练	中等	中等	不如分阶段

关键发现¶

1.5B 微调超越 32B 和 GPT-4 的 prompt 方法
解耦训练优于联合训练
在线编程平台是高质量翻译数据的宝库

亮点与洞察¶

"先功能后风格"可推广到其他代码生成任务
小模型精细微调超越大模型 prompt 再次被验证

局限与展望¶

仅覆盖 5 种编程语言
风格评估部分依赖人工标注
未探讨语义等价性的形式化验证

评分¶

新颖性: ⭐⭐⭐⭐ 功能-风格解耦训练范式新颖
实验充分度: ⭐⭐⭐⭐ 20 种场景、新 benchmark
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对代码翻译工具有直接应用价值

补充思考¶

与领域发展趋势的关系¶

本文的研究方向与当前 AI 研究的几个大趋势密切相关：(1) 对 LLM 内部机制的深入理解需求日益增长；(2) 模型效率和可访问性的重要性不断提升；(3) AI 安全和可靠性成为核心关注点。从方法论角度看，本文代表了一种从"黑盒使用"到"白盒理解"的研究范式转变。

对未来研究的具体建议¶

可以将本文的核心思路与其他模态（视觉、语音）结合
考虑在更大规模的模型和数据上验证结论的普适性
探索与强化学习和在线学习结合的可能性
开发自动化的评估和优化工具链

补充思考¶

与领域发展趋势的关系¶

本文的研究方向与当前 AI 研究的几个大趋势密切相关：模型能力评估与可靠性保证、参数高效微调与模型压缩、以及 AI 安全与对齐。从方法论角度看，本文代表了对 LLM 深层机制的探索，有助于推动从经验驱动到理论驱动的研究范式转变。

对未来研究的具体建议¶

可以将核心思路与其他模态（视觉、语音、多模态）结合，验证方法的跨模态通用性
在更大规模模型（70B+）和更新的架构（Mixture-of-Experts 等）上验证结论
探索与强化学习、在线学习结合的可能性，实现动态适应
开发自动化评估和优化工具，降低方法的使用门槛
考虑与 LLM alignment 研究的交叉，探索安全性和性能的协同优化

Function-to-Style Guidance of LLMs for Code Translation¶

一句话总结¶

研究背景与动机¶

领域现状¶

解决思路¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（20 种翻译场景）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

补充思考¶

与领域发展趋势的关系¶

对未来研究的具体建议¶

补充思考¶

与领域发展趋势的关系¶

对未来研究的具体建议¶

相关论文¶