EvoStage: 基于 LLM 的演化分阶段自动算法设计¶
日期: 2026-03-09
arXiv: 2603.07970
代码: 无
领域: LLM / 自动算法设计
关键词: 自动算法设计, 大语言模型, 演化计算, 芯片布局, 贝叶斯优化
一句话总结¶
提出 EvoStage,将算法设计任务分解为多阶段子任务,结合多智能体系统和"全局-局部视角"机制,利用 LLM 在演化框架中逐阶段设计算法并获取中间反馈,在芯片布局等工业场景中仅用 25 次评估即超越人类专家设计和现有 LLM 方法。
研究背景与动机¶
- 现状:传统算法设计依赖人类专家反复迭代,过程繁琐低效、高度依赖领域知识,严重制约解决复杂实际问题的效率。
- LLM 自动算法设计兴起:FunSearch、AlphaEvolve、EoH、ReEvo 等方法在演化框架中利用 LLM 生成算法,已在经典组合优化和数学问题上取得成功。
- 工业场景挑战:(a) 评估代价高昂(芯片布局单次评估数小时)→ 评估预算极有限;(b) 样本稀缺且案例间差距大 → 难以找到通用方案。
- 现有方法的黑盒困境:FunSearch/AlphaEvolve/EoH 等采用黑盒建模,LLM 仅在整个算法完成后获得最终得分反馈,完全不了解目标问题的内在机制,导致在有限预算下容易产生"幻觉式"设计。
- 核心 idea:借鉴 Chain-of-Thought 思想,将算法设计分解为多阶段,每阶段提供实时中间反馈来刷新 LLM 的领域认知、纠正错误设计方向,并通过全局-局部机制避免陷入局部最优。
方法详解¶
整体框架¶
EvoStage 由四个核心组件构成:(1) 演化框架维护算法种群,通过选择和复制迭代改进;(2) 分阶段设计将任务分解为子任务逐步求解;(3) 多智能体系统分工协作(协调者 + 多个编码者);(4) 全局-局部视角机制平衡局部优化和全局探索。
关键设计¶
模块 1:分阶段设计 (Stagewise Design)
- 做什么:将复杂算法设计任务自动分解为 \(K\) 个阶段,每阶段是一个更简单的子任务
- 核心思路:类比 CoT 将复杂推理分解为中间步骤;每完成一个阶段即提供实时执行反馈(如芯片布局的当前线长、溢出量、变化趋势等),LLM 据此更新领域认知、修正后续设计方向
- 设计动机:黑盒建模使 LLM 无法感知算法的实际执行效果,导致在工业场景中产生幻觉;分阶段+中间反馈让 LLM "看见"算法如何逐步解决问题
模块 2:多智能体系统
- 做什么:一个协调者 (Coordinator) 负责反思当前阶段信息并给出下一阶段指导,\(N\) 个编码者 (Coder) 各负责一个算法组件的设计
- 核心思路:协调者接收中间信息 \((I_0, I_1, ..., I_{i-1})\),推理分析当前优化效果,生成目标 \(g_i\);各编码者根据 \(g_i\) 设计对应组件 \(C_{j,i}\)
- 设计动机:当 LLM 需要生成多类型、较长的代码时,错误率显著增加;拆分到多个 Agent 降低单个 Agent 的设计空间,同时协调者确保整体一致性
模块 3:全局-局部视角机制
- 做什么:设计三种算子——Local (Stagewise-Design)、Global-Explore、Global-Enhance,按 1:1:1 频率交替执行
- 核心思路:
- Stagewise-Design(局部):逐阶段设计,获取中间反馈
- Global-Explore(全局探索):从种群采样 \(k\) 个参考设计,一次性生成全新的多阶段算法
- Global-Enhance(全局增强):采样一个设计,微调参数提升性能
- 设计动机:过度聚焦子任务优化可能陷入局部最优;类比"快思考与慢思考",全局视角帮助跳出局部最优、发现更好的设计骨架
损失函数 / 训练策略¶
- 非传统训练,而是演化搜索过程
- 种群大小 \(M=5\),每代生成 5 个个体,共演化 5 代(总计仅 25 次真实评估)
- 选择策略:算法 \(\boldsymbol{A}\) 被选中概率 \(p \propto 1/(r+M)\)(\(r\) 为性能排名),平衡探索与利用
- 分阶段数 \(K=4\)
实验关键数据¶
主实验 1:芯片全局布局 HPWL (×10⁶,越小越好)¶
ISPD 2005 基准:
| 芯片案例 | DREAMPlace-Nesterov | Xplace-NN | EvoStage |
|---|---|---|---|
| adaptec1 | 70.28 | 71.34 | 69.76 |
| adaptec2 | 79.23 | 80.35 | 78.59 |
| adaptec3 | 185.74 | 195.62 | 183.50 |
| bigblue4 | 725.47 | 734.29 | 720.69 |
ICCAD 2015 基准:
| 芯片案例 | DREAMPlace-Nesterov | Xplace-NN | EvoStage |
|---|---|---|---|
| superblue1 | 390.49 | 388.12 | 381.98 |
| superblue3 | 441.02 | 444.84 | 433.81 |
| superblue7 | 553.56 | 548.96 | 544.00 |
| superblue10 | 868.69 | 867.67 | 852.83 |
主实验 2:对比 LLM 方法(ISPD 2005,仅设计学习率)¶
| 方法 | 平均 HPWL 比值 | Pass Rate |
|---|---|---|
| DREAMPlace-Adam | 1.000 | — |
| EoH | 1.227 | 23% |
| AlphaEvolve | 1.029 | 25% |
| EvoStage-single | 0.979 | 67% |
| EvoStage | 0.964 | 78% |
消融实验¶
- 分阶段设计 vs 黑盒建模:分阶段在有限预算下显著优于黑盒
- 多智能体 vs 单智能体:多智能体的代码 Pass Rate 从约 25% 提升到 67-78%
- 全局-局部机制:纯局部易陷入局部最优,加入全局算子后跳出并找到更好设计
关键发现¶
- 历史 SOTA:在 ISPD 2005 和 ICCAD 2015 两个公开基准的所有芯片案例上达到历史最佳 HPWL
- 工业级验证:在商用级 3D 芯片布局工具上,半周线长改善 9.24%,优化迭代效率提升 52.21%
- 代码质量:EvoStage 的 Pass Rate(78-100%)远超 EoH(4-84%)和 AlphaEvolve(4-64%),分阶段设计显著提升了 LLM 生成代码的质量
- 贝叶斯优化迁移:在黑盒优化的采集函数设计上也超越传统专家设计和其他 LLM 方法
亮点与洞察¶
- CoT 思想的跨领域迁移:将推理链的分步思考迁移到算法设计的分阶段执行,实现"设计链"这一新范式
- 中间反馈消除幻觉:LLM 算法设计最大的问题是脱离现实,中间执行反馈的引入精准解决了这一痛点
- 极高效率:仅 25 次评估即超越人类专家数年的迭代优化,对评估昂贵的工业场景极具价值
- 工业落地验证:不仅在学术基准上验证,更在商用级 3D 芯片工具上取得突破性效果
- LLM 新应用场景:提出了 LLM 在自动算法设计中的新应用方向,超越传统聊天/编码助手
局限性 / 可改进方向¶
- 阶段数 \(K\) 和种群大小 \(M\) 需要根据问题手动设定,缺少自适应机制
- 目前仅验证了 Adam 学习率调度和贝叶斯优化两类任务,更广泛的算法设计场景(如强化学习、图优化等)有待探索
- 对 LLM 的选择和能力有较强依赖,不同 LLM 的效果差异未充分讨论
- 多智能体间的信息传递仅通过协调者的自然语言指导,可能存在信息损失
- 工业场景的 3D 芯片布局结果缺少与更多商业工具的对比
相关工作与启发¶
- FunSearch (Google):首次提出用 LLM 演化搜索算法的范式
- AlphaEvolve (Google):大种群+岛屿演化,但仍是黑盒建模
- EoH:同时演化代码和自然语言描述
- DREAMPlace / Xplace:芯片布局领域的 SOTA 工具
- 启发:分阶段+中间反馈的范式可推广到任何需要 LLM 进行复杂设计的场景(如实验设计、系统架构设计等)
评分¶
- ⭐⭐⭐⭐⭐ 新颖性:分阶段设计范式+多智能体+全局局部机制的组合具有高度原创性
- ⭐⭐⭐⭐⭐ 实验充分度:学术基准+工业验证+多任务迁移+多基线对比,极其全面
- ⭐⭐⭐⭐ 写作质量:整体结构清晰,但篇幅较长,部分内容可进一步精简
- ⭐⭐⭐⭐⭐ 价值:解决了 LLM 自动算法设计在工业落地的关键瓶颈,开辟了新范式