ChipSeek: Optimizing Verilog Generation via EDA-Integrated Reinforcement Learning¶

会议: ACL 2026
arXiv: 2507.04736
代码: https://github.com/rong-hash/chipseek
领域: LLM 辅助硬件设计
关键词: Verilog生成, EDA集成, 分层奖励, PPA优化, 课程式策略优化

一句话总结¶

ChipSeek 提出了一个将 EDA 工具链直接集成到训练循环中的分层奖励 RL 框架，通过课程引导的动态策略优化（CDPO）使 LLM 能够生成同时满足功能正确性和 PPA（功耗-性能-面积）优化的 RTL 代码，在标准基准上达到 SOTA。

领域现状：LLM 在自动化 RTL 代码生成方面展现了巨大潜力。现有方法通过 SFT、RAG、多智能体和 CoT 推理提升功能正确性，但通常忽略硬件特定指标（PPA）。

现有痛点：(1) 现有模型缺乏同时优化功能正确性和 PPA 的内在机制；(2) 后处理方法（如 MCTS）不能提升 LLM 本身的能力；(3) 现有模型生成的 Verilog 通常不如专家手写的硬件效率。

核心矛盾：当前方法缺乏将功能正确性和 PPA 优化并行纳入训练目标的机制。

本文目标：设计一个将 EDA 工具链反馈直接纳入 RL 训练的框架，使 LLM 内化硬件设计知识。

切入角度：分层奖励设计 + 课程式权重调度 + 提示条件化 PPA 偏好。

核心 idea：通过将完整的开源 EDA 工具链（编译、仿真、综合、后端分析）接入训练循环，提供从语法到 PPA 的分层奖励，让 LLM 在训练中学习硬件设计权衡。

LLM 作为策略 \(\pi_\theta\)，根据设计规格生成 Verilog 代码，由完整 EDA 工具链评估并提供分层奖励，通过 CDPO 进行多目标优化。

分层奖励设计 (Hierarchical Rewards):
- 功能：提供从语法到 PPA 的多层次反馈
- 核心思路：分为过程奖励（格式、语法、可综合性）和核心奖励（功能正确性、PPA）。严格的门控机制确保只有通过上游检查才评估下游指标。PPA 奖励为相对于参考设计的改进比例 \(r_m = \text{ref}_m / \text{gen}_m\)
- 设计动机：避免对无效代码执行昂贵的下游评估；将连续的 PPA 与离散的功能奖励解耦
CDPO (课程引导动态策略优化):
- 功能：解决多目标优化中的学习阶段失配和尺度失配
- 核心思路：(a) 解耦优势估计——每个奖励组件独立归一化；(b) 自适应课程——根据全局成功率动态调整过程奖励权重（当语法成功率高时自动减小其权重）；(c) 提示条件化 PPA 加权——根据提示中的偏好向量调整功耗/延迟/面积权重
- 设计动机：简单奖励求和会被易学习的组件主导；课程式调度实现从易到难的学习进程
自动化数据增强管道:
- 功能：构建 PPA 感知的训练数据
- 核心思路：三阶段管道——生成 SFT 冷启动数据、合成多样化 PPA 偏好向量、生成测试台和 PPA 指标
- 设计动机：解决硬件设计数据稀缺问题

基于 GRPO 的策略优化，使用解耦裁剪和动态权重的多目标优势聚合。SFT 冷启动后进入 RL 训练。