EvoStage: 基于 LLM 的演化分阶段自动算法设计¶

日期: 2026-03-09
arXiv: 2603.07970
代码: 无
领域: LLM / 自动算法设计
关键词: 自动算法设计, 大语言模型, 演化计算, 芯片布局, 贝叶斯优化

一句话总结¶

提出 EvoStage，将算法设计任务分解为多阶段子任务，结合多智能体系统和"全局-局部视角"机制，利用 LLM 在演化框架中逐阶段设计算法并获取中间反馈，在芯片布局等工业场景中仅用 25 次评估即超越人类专家设计和现有 LLM 方法。

研究背景与动机¶

现状：传统算法设计依赖人类专家反复迭代，过程繁琐低效、高度依赖领域知识，严重制约解决复杂实际问题的效率。
LLM 自动算法设计兴起：FunSearch、AlphaEvolve、EoH、ReEvo 等方法在演化框架中利用 LLM 生成算法，已在经典组合优化和数学问题上取得成功。
工业场景挑战：(a) 评估代价高昂（芯片布局单次评估数小时）→ 评估预算极有限；(b) 样本稀缺且案例间差距大 → 难以找到通用方案。
现有方法的黑盒困境：FunSearch/AlphaEvolve/EoH 等采用黑盒建模，LLM 仅在整个算法完成后获得最终得分反馈，完全不了解目标问题的内在机制，导致在有限预算下容易产生"幻觉式"设计。
核心 idea：借鉴 Chain-of-Thought 思想，将算法设计分解为多阶段，每阶段提供实时中间反馈来刷新 LLM 的领域认知、纠正错误设计方向，并通过全局-局部机制避免陷入局部最优。

方法详解¶

整体框架¶

EvoStage 由四个核心组件构成：(1) 演化框架维护算法种群，通过选择和复制迭代改进；(2) 分阶段设计将任务分解为子任务逐步求解；(3) 多智能体系统分工协作（协调者 + 多个编码者）；(4) 全局-局部视角机制平衡局部优化和全局探索。

关键设计¶

模块 1：分阶段设计 (Stagewise Design)

做什么：将复杂算法设计任务自动分解为 \(K\) 个阶段，每阶段是一个更简单的子任务
核心思路：类比 CoT 将复杂推理分解为中间步骤；每完成一个阶段即提供实时执行反馈（如芯片布局的当前线长、溢出量、变化趋势等），LLM 据此更新领域认知、修正后续设计方向
设计动机：黑盒建模使 LLM 无法感知算法的实际执行效果，导致在工业场景中产生幻觉；分阶段+中间反馈让 LLM "看见"算法如何逐步解决问题

模块 2：多智能体系统

做什么：一个协调者 (Coordinator) 负责反思当前阶段信息并给出下一阶段指导，\(N\) 个编码者 (Coder) 各负责一个算法组件的设计
核心思路：协调者接收中间信息 \((I_0, I_1, ..., I_{i-1})\)，推理分析当前优化效果，生成目标 \(g_i\)；各编码者根据 \(g_i\) 设计对应组件 \(C_{j,i}\)
设计动机：当 LLM 需要生成多类型、较长的代码时，错误率显著增加；拆分到多个 Agent 降低单个 Agent 的设计空间，同时协调者确保整体一致性

模块 3：全局-局部视角机制

做什么：设计三种算子——Local (Stagewise-Design)、Global-Explore、Global-Enhance，按 1:1:1 频率交替执行
核心思路：
Stagewise-Design（局部）：逐阶段设计，获取中间反馈
Global-Explore（全局探索）：从种群采样 \(k\) 个参考设计，一次性生成全新的多阶段算法
Global-Enhance（全局增强）：采样一个设计，微调参数提升性能
设计动机：过度聚焦子任务优化可能陷入局部最优；类比"快思考与慢思考"，全局视角帮助跳出局部最优、发现更好的设计骨架

损失函数 / 训练策略¶

非传统训练，而是演化搜索过程
种群大小 \(M=5\)，每代生成 5 个个体，共演化 5 代（总计仅 25 次真实评估）
选择策略：算法 \(\boldsymbol{A}\) 被选中概率 \(p \propto 1/(r+M)\)（\(r\) 为性能排名），平衡探索与利用
分阶段数 \(K=4\)

实验关键数据¶

主实验 1：芯片全局布局 HPWL (×10⁶，越小越好)¶

ISPD 2005 基准：

芯片案例	DREAMPlace-Nesterov	Xplace-NN	EvoStage
adaptec1	70.28	71.34	69.76
adaptec2	79.23	80.35	78.59
adaptec3	185.74	195.62	183.50
bigblue4	725.47	734.29	720.69

ICCAD 2015 基准：

芯片案例	DREAMPlace-Nesterov	Xplace-NN	EvoStage
superblue1	390.49	388.12	381.98
superblue3	441.02	444.84	433.81
superblue7	553.56	548.96	544.00
superblue10	868.69	867.67	852.83

主实验 2：对比 LLM 方法（ISPD 2005，仅设计学习率）¶

方法	平均 HPWL 比值	Pass Rate
DREAMPlace-Adam	1.000	—
EoH	1.227	23%
AlphaEvolve	1.029	25%
EvoStage-single	0.979	67%
EvoStage	0.964	78%

消融实验¶

分阶段设计 vs 黑盒建模：分阶段在有限预算下显著优于黑盒
多智能体 vs 单智能体：多智能体的代码 Pass Rate 从约 25% 提升到 67-78%
全局-局部机制：纯局部易陷入局部最优，加入全局算子后跳出并找到更好设计

关键发现¶

历史 SOTA：在 ISPD 2005 和 ICCAD 2015 两个公开基准的所有芯片案例上达到历史最佳 HPWL
工业级验证：在商用级 3D 芯片布局工具上，半周线长改善 9.24%，优化迭代效率提升 52.21%
代码质量：EvoStage 的 Pass Rate（78-100%）远超 EoH（4-84%）和 AlphaEvolve（4-64%），分阶段设计显著提升了 LLM 生成代码的质量
贝叶斯优化迁移：在黑盒优化的采集函数设计上也超越传统专家设计和其他 LLM 方法

亮点与洞察¶

CoT 思想的跨领域迁移：将推理链的分步思考迁移到算法设计的分阶段执行，实现"设计链"这一新范式
中间反馈消除幻觉：LLM 算法设计最大的问题是脱离现实，中间执行反馈的引入精准解决了这一痛点
极高效率：仅 25 次评估即超越人类专家数年的迭代优化，对评估昂贵的工业场景极具价值
工业落地验证：不仅在学术基准上验证，更在商用级 3D 芯片工具上取得突破性效果
LLM 新应用场景：提出了 LLM 在自动算法设计中的新应用方向，超越传统聊天/编码助手

局限性 / 可改进方向¶

阶段数 \(K\) 和种群大小 \(M\) 需要根据问题手动设定，缺少自适应机制
目前仅验证了 Adam 学习率调度和贝叶斯优化两类任务，更广泛的算法设计场景（如强化学习、图优化等）有待探索
对 LLM 的选择和能力有较强依赖，不同 LLM 的效果差异未充分讨论
多智能体间的信息传递仅通过协调者的自然语言指导，可能存在信息损失
工业场景的 3D 芯片布局结果缺少与更多商业工具的对比

评分¶

⭐⭐⭐⭐⭐ 新颖性：分阶段设计范式+多智能体+全局局部机制的组合具有高度原创性
⭐⭐⭐⭐⭐ 实验充分度：学术基准+工业验证+多任务迁移+多基线对比，极其全面
⭐⭐⭐⭐ 写作质量：整体结构清晰，但篇幅较长，部分内容可进一步精简
⭐⭐⭐⭐⭐ 价值：解决了 LLM 自动算法设计在工业落地的关键瓶颈，开辟了新范式