跳转至

ChipSeek: Optimizing Verilog Generation via EDA-Integrated Reinforcement Learning

会议: ACL 2026
arXiv: 2507.04736
代码: https://github.com/rong-hash/chipseek
领域: LLM 辅助硬件设计
关键词: Verilog生成, EDA集成, 分层奖励, PPA优化, 课程式策略优化

一句话总结

ChipSeek 提出了一个将 EDA 工具链直接集成到训练循环中的分层奖励 RL 框架,通过课程引导的动态策略优化(CDPO)使 LLM 能够生成同时满足功能正确性和 PPA(功耗-性能-面积)优化的 RTL 代码,在标准基准上达到 SOTA。

研究背景与动机

领域现状:LLM 在自动化 RTL 代码生成方面展现了巨大潜力。现有方法通过 SFT、RAG、多智能体和 CoT 推理提升功能正确性,但通常忽略硬件特定指标(PPA)。

现有痛点:(1) 现有模型缺乏同时优化功能正确性和 PPA 的内在机制;(2) 后处理方法(如 MCTS)不能提升 LLM 本身的能力;(3) 现有模型生成的 Verilog 通常不如专家手写的硬件效率。

核心矛盾:当前方法缺乏将功能正确性和 PPA 优化并行纳入训练目标的机制。

本文目标:设计一个将 EDA 工具链反馈直接纳入 RL 训练的框架,使 LLM 内化硬件设计知识。

切入角度:分层奖励设计 + 课程式权重调度 + 提示条件化 PPA 偏好。

核心 idea:通过将完整的开源 EDA 工具链(编译、仿真、综合、后端分析)接入训练循环,提供从语法到 PPA 的分层奖励,让 LLM 在训练中学习硬件设计权衡。

方法详解

整体框架

LLM 作为策略 \(\pi_\theta\),根据设计规格生成 Verilog 代码,由完整 EDA 工具链评估并提供分层奖励,通过 CDPO 进行多目标优化。

关键设计

  1. 分层奖励设计 (Hierarchical Rewards):

    • 功能:提供从语法到 PPA 的多层次反馈
    • 核心思路:分为过程奖励(格式、语法、可综合性)和核心奖励(功能正确性、PPA)。严格的门控机制确保只有通过上游检查才评估下游指标。PPA 奖励为相对于参考设计的改进比例 \(r_m = \text{ref}_m / \text{gen}_m\)
    • 设计动机:避免对无效代码执行昂贵的下游评估;将连续的 PPA 与离散的功能奖励解耦
  2. CDPO (课程引导动态策略优化):

    • 功能:解决多目标优化中的学习阶段失配和尺度失配
    • 核心思路:(a) 解耦优势估计——每个奖励组件独立归一化;(b) 自适应课程——根据全局成功率动态调整过程奖励权重(当语法成功率高时自动减小其权重);(c) 提示条件化 PPA 加权——根据提示中的偏好向量调整功耗/延迟/面积权重
    • 设计动机:简单奖励求和会被易学习的组件主导;课程式调度实现从易到难的学习进程
  3. 自动化数据增强管道:

    • 功能:构建 PPA 感知的训练数据
    • 核心思路:三阶段管道——生成 SFT 冷启动数据、合成多样化 PPA 偏好向量、生成测试台和 PPA 指标
    • 设计动机:解决硬件设计数据稀缺问题

损失函数 / 训练策略

基于 GRPO 的策略优化,使用解耦裁剪和动态权重的多目标优势聚合。SFT 冷启动后进入 RL 训练。

实验关键数据

主实验

  • 在标准基准上达到 SOTA 的功能正确性和 PPA 性能
  • 在特定优化目标(功耗、延迟、面积)上也能产生高效设计

关键发现

  • 将 EDA 工具链纳入训练循环比后处理更有效
  • CDPO 的课程式调度对多目标优化至关重要
  • 提示条件化 PPA 加权实现了灵活的设计偏好控制

亮点与洞察

  • EDA 工具链作为可验证奖励源的思路可推广到其他工程领域
  • CDPO 的多目标优化设计具有通用性
  • 分层门控显著节省计算资源

局限与展望

  • 依赖开源 EDA 工具,商业工具可能产生不同结果
  • EDA 工具执行时间较长,增加了训练成本
  • 未来可探索更复杂的设计场景和更大规模的模型

相关工作与启发

  • 与 RTLFixer/HDLDebugger 的 RAG 方法相比,RL 训练内化了硬件知识
  • 与 VeriGen-MCTS 的后处理相比,RL 提升了 LLM 本身的能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将完整 EDA 工具链纳入 RL 训练是重要创新
  • 实验充分度: ⭐⭐⭐⭐ 多基准、多优化目标的全面评估
  • 写作质量: ⭐⭐⭐⭐ 框架设计清晰,公式推导详尽

相关论文