LLM Agents for Knowledge Discovery in Atomic Layer Processing¶

会议: NeurIPS 2025
arXiv: 2509.26201
代码: https://github.com/awwerbro/ALDReactor
领域: llm_agent
关键词: LLM agent, knowledge discovery, atomic layer processing, scientific exploration, tool-augmented reasoning

一句话总结¶

通过让 LLM Agent 控制模拟化学反应器（黑盒函数），证明 Agent 能在无先验知识下通过试错探索、发现并总结未知化学系统的规则，揭示了 Agent 进行开放式科学发现的能力与局限。

研究背景与动机¶

LLM Agent 在材料科学中的应用主要集中在两类： 1. 知识整合：综合、验证和整理领域知识 2. 自驱动实验室：作为自动化实验流程的组件，追求特定优化目标

这两类应用都难以区分 Agent 的训练时知识回忆、潜在知识发现和全新知识发现三种能力。

本文提出一个关键问题：LLM Agent 能否在没有具体目标函数的情况下，仅通过"探索系统"来发现全新知识？

为解决评估问题，作者巧妙地设计了完全虚构的系统（自定义规则的"外星市场"和虚构化学反应器），确保 Agent 无法依赖训练时习得的知识，从而真正测试其发现能力。

这一问题高度相关于半导体工业的原子层处理（ALP）技术：发现和表征新型化学反应是耗时且昂贵的过程，AI/ML 有望加速这一过程。

方法详解¶

整体框架¶

核心思想：将 LangGraph 的工具功能重新用于提供黑盒函数，让 Agent 自由探索而不给定其他目标。

LLM Agent
    ├── 工具 1: perform_experiment(recipe) → 传感器数据摘要
    ├── 工具 2: retrieve_experiment(id) → 完整实验数据
    └── 目标: 描述系统规则（无其他优化目标）

两个测试系统：

外星市场（概念验证）：Agent 需要通过试错发现规则——外星人不卖名字中含"p"或"m"的东西
ALP 反应器模拟（核心实验）：Agent 控制虚拟化学反应器，通过压力传感器和石英晶体微量天平（QCM）来探索虚构化学物质之间的反应

关键设计¶

ALP 反应器模拟系统：

反应器建模为管道，离散化为 $N$ 段，温度均匀。核心方程：

气相物种反应输运方程： $$\frac{\partial c_i(x,t)}{\partial t} = D_i \frac{\partial^2 c_i}{\partial x^2} - v\frac{\partial c_i}{\partial x} - \frac{4}{d}\sum_j r_{ij}$$

表面覆盖率变化： $$\frac{\partial \theta_i}{\partial t} = \frac{1}{\sigma_i}\sum_j r_{ij}$$

反应速率 $r_i = k_i c_i \theta_i \sigma$，其中 $k_i$ 遵循 Arrhenius 动力学。

三种实验配置：

配置	化学物质数	可发现反应	难度
I	2 (A, B)	ALD 沉积	简单，0.5s 曝光即可饱和
II	2 (A, B)	ALD 沉积（动力学更慢）	困难，需 40s 曝光 + 升温
III	4 (A, B, C, D)	ALD + ALE + 钝化 + CVD	复杂，大实验空间

配置 II 中，反应 2 的 Arrhenius 前因子降低 4 倍，化学物 B 的蒸气压降低（Antoine 方程 B 参数减半），要求 Agent 更有耐心地探索。

信息限制设计： - Agent 仅能看到压力和QCM 质量变化信号（类似真实实验人员的有限探测能力） - 完整反应器状态（560 维向量）不对 Agent 开放 - 实验输出经确定性叙述生成 + LLM 摘要，而非原始数据直接传递

损失函数 / 训练策略¶

无传统意义上的训练/损失函数。Agent 评估基于： - 外星市场：规则发现的正确性评分（每识别对一个字母得 1 分，多余规则扣 0.5 分） - ALP 反应器：通过 UMAP 投影将 Agent 的实验轨迹与专家轨迹对比，评估覆盖的实验空间

模型选择：外星市场测试 gpt-5、gemini-2.5-pro、gpt-5-mini、gemini-2.5-flash、gemini-2.0-flash；ALP 反应器使用 gemini-2.5-pro。

实验关键数据¶

主实验¶

外星市场结果：

模型	无实验数限制	指定实验数后
gpt-5	表现最佳（自主做更多实验）	进一步改善
gemini-2.5-pro	较差（过早停止）	显著改善
gpt-5-mini	较差	显著改善
gemini-2.5-flash	较差	显著改善
gemini-2.0-flash	较差	中等改善

关键发现：gpt-5 的优势不在于更强的推理能力，而在于它自发进行了更多实验；其他模型在被要求执行足够数量的实验后性能大幅提升。

ALP 配置 I（简单双化学物质）：3/3 次迭代均发现自限反应本质，成功执行 ALD 沉积，并进一步探索了动力学极限和分解生长。

ALP 配置 II（困难双化学物质）：

提示条件	时间	结果
IIa（标准提示）	3600s	3/3 陷入 CVD 低增长局部最小值
IIb（标准提示）	7200s	3/3 仍陷于局部最小值
IIc（+QCM 参考值）	7200s	1/3 局部最小值, 1/3 错误标记, 1/3 成功发现

ALP 配置 III（四化学物质，完整系统）：

迭代	发现的反应	未发现的反应
1	ALD (B+C), 钝化 (D vs B-C), CVD (高温)	ALE (未识别，仅用 A 作"清洁剂")
2	ALD, ALE, 钝化 (D vs 单脉冲 B/C)	CVD 共剂量, 完整钝化
3	ALE (A+C), C 分解	ALD (B+C), CVD

消融实验¶

持久性的影响： - 不指定实验数时，大多数模型过早停止探索 - 增加实验时间的效果有限（配置 IIa→IIb 无改善） - 提供额外上下文（QCM 参考值）比单纯增加时间更有效

路径依赖性： - 外星市场中几乎所有 Agent 都从 "apple" 开始，有时导致错误的"双 p 规则" - ALP 配置 III 的三次迭代探索了实验空间的不同部分 - 这启发了群体策略——让多个子 Agent 分别探索，由监督 Agent 汇总

关键发现¶

坚持是关键：Agent（和人类一样）需要足够的实验资源才能克服噪声和局部最小值
信号触发好奇心：AG 需要检测到某些信号才会深入探究，无信号时两种策略有效：增加资源或提供更多上下文
路径依赖本质：不同起始点导致不同的发现轨迹，这不是缺陷而是特征——可用于群体探索策略
知识发现的可信度：由于系统完全虚构，可以确认 Agent 进行的是真正的新知识发现而非记忆回忆

亮点与洞察¶

实验设计精妙：使用虚构系统完美解决了"Agent 是否在使用训练时知识"的评估难题
真正的开放式探索：不给 Agent 具体目标（如优化某个属性），而是要求它描述系统——这更接近真实的科学发现
对现实实验的直接可迁移性：反应器配方格式与真实 LabVIEW 控制系统兼容，从模拟切换到物理实验仅需更换 API 端点
"不知道"也有价值：Agent 忽略先验知识可能开辟更新颖的探索路径，这是一个反直觉但深刻的洞见
与 Duan et al. 的联系：同期在生物系统中的类似工作表明，LLM Agent 的科学发现能力是跨领域的

局限性 / 可改进方向¶

仅使用单 Agent：未探索多 Agent 协作探索（虽然提到了群体策略的可能性）
仅验证了模拟环境：未在真实实验室中部署
评估主观性：ALP 部分的结论依赖人工检查 Agent 的陈述和实验轨迹
模型温度未系统调优：提到了温度可能影响探索多样性，但未充分实验
输入空间仍然有限：4 种化学物质已经具有挑战性，真实化学空间远更复杂
缺少 cost-benefit 分析：与人类专家相比，Agent 需要多少实验资源/时间来达到类似覆盖

评分¶

新颖性: ⭐⭐⭐⭐ 用虚构系统测试 LLM 的知识发现能力是巧妙的方法论创新
实验充分度: ⭐⭐⭐ 多种配置和提示策略，但每种仅 3 次迭代，统计力度有限
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，实验描述详尽，讨论部分深刻
价值: ⭐⭐⭐⭐ 为 AI 辅助科学发现开辟了"无目标探索"这一重要研究方向