ChemAmp: Amplified Chemistry Tools via Composable Agents¶

会议: ACL 2026
arXiv: 2505.21569
代码: GitHub
领域: 科学AI/化学
关键词: 工具放大, 可组合智能体, 化学AI, 多智能体系统, 层次化组合

一句话总结¶

提出"工具放大"新范式（区别于传统的工具编排），通过 ChemAmp 框架将化学专用工具（UniMol2、Chemformer等）作为可组合积木块动态构建任务专用超级智能体，在分子设计、反应预测等四个核心化学任务上超越专用模型和通用LLM，同时推理token成本减少94%。

研究背景与动机¶

领域现状：LLM-based智能体已能在化学领域编排多步工具使用流程（如ChemCrow、Coscientist），顺序调用RDKit、分子生成器等工具完成跨任务工作流。

现有痛点：现有方法聚焦于"工具编排"（跨任务调度工具顺序），但单个任务内的性能受制于底层工具的原子能力上限。即使最好的化学专用工具（UniMol2、ChemDFM），在单独使用时分子描述精确匹配仅35%，错误会在推理链中传播。

核心矛盾：工具编排优化的是任务间的工具调度，但任务内的工具性能瓶颈才是真正制约Agent表现的根本因素。

本文目标：从"工具编排"转向"工具放大"——通过动态组合使工具在单个任务内超越各自的原子能力。

切入角度：将每个工具视为可组合的积木块智能体，通过层次化迭代封装构建性能更强的复合工具。

核心idea：两阶段放大——先将原子工具封装为增强的子智能体（Stage 1），再将子智能体组合成层次化网络（Stage 2），通过自适应评分和自动反馈迭代优化组合。

方法详解¶

整体框架¶

ChemAmp 通过两阶段双向封装引擎构建智能体层次结构：Stage 1（原子→复合放大）——每个原子工具被迭代封装为Agent Composite Tool，直到性能不再提升，所有变体注册到工具库；Stage 2（跨复合协同）——从工具库中选择最佳工具为基础，与其他top-k工具组合形成更高层复合工具，迭代直至全局性能趋于稳定。

关键设计¶

Agent Composite Tool 的双重角色：
- 功能：既作为高层智能体的可组合构件，又作为化学子任务的自主执行器
- 核心思路：每个 \(\mathcal{A}(t_1,...,t_n)\) 封装了多个工具及其协调策略，既可被上层智能体调用，也可独立执行。这种双重性使ChemAmp能够识别工具协调产生协同效应的最优增强点
- 设计动机：避免简单堆叠，实现真正的能力涌现
两阶段迭代封装：
- 功能：自动发现最优工具组合
- 核心思路：Stage 1对每个原子工具迭代封装 \(\mathcal{A}_i(t_k)\)，通过任务指标评分 \(s_i\)，只在超过阈值 \(\delta\) 时继续。Stage 2排序工具库，取top-1为基础与top-k组合形成 \(\{\mathcal{A}(t_1,t_2),...,\mathcal{A}(t_1,t_k)\}\)，迭代直至全局性能不再提升
- 设计动机：手工组合不可行，穷举搜索成本过高，迭代+阈值控制平衡效率和效果
极低数据需求（≤10样本）：
- 功能：在极少验证样本下完成工具组合优化
- 核心思路：每个任务仅需≤10个样本进行组合评分和选择，利用化学工具本身的领域知识，ChemAmp只需少量数据判断组合是否带来提升
- 设计动机：化学领域标注数据稀缺，方法必须低数据依赖

实验关键数据¶

主实验（分子设计 - ChemLLMBench）¶

方法	精确匹配	BLEU	FTS
ChemDFM-13B	0.32	0.85	0.74
Text+Chem T5	0.32	0.85	0.82
GPT-4o	0.01	0.57	0.54
ChemAmp	0.42	0.88	0.84

消融实验¶

配置	关键指标	说明
仅Stage 1	有提升	单工具增强有效
Stage 1 + Stage 2	最佳	跨复合协同进一步提升
Vanilla多智能体	较差	简单堆叠不如结构化组合
Token成本	94%减少	vs vanilla多智能体系统

关键发现¶

ChemAmp在四个核心化学任务上全面超越化学专用模型、通用LLM和传统Agent编排系统
推理token成本仅为vanilla多智能体系统的6%，效率极高
自下而上的组合策略优于自上而下的编排策略
分子设计精确匹配从SOTA的0.32提升至0.42（+31%），证明工具放大的实际效果

亮点与洞察¶

范式创新："工具放大"vs"工具编排"的区分清晰有力，从"跨任务调度"转向"任务内增强"
效率与效果兼得：超越SOTA的同时减少94%推理token成本，说明结构化组合比暴力堆叠高效
通用性：虽然应用于化学领域，但工具放大范式可迁移到其他科学领域
低数据需求：≤10样本即可优化组合，实用性强

局限与展望¶

依赖GPT-4o作为核心Agent：组合策略的效果可能受限于底层LLM的能力
仅在ChemLLMBench的100个实例上评估：测试规模偏小
化学领域特有：需验证在其他科学领域的适用性
未来方向：扩展到更多科学领域、研究组合策略的可解释性、降低对闭源LLM的依赖

评分¶

新颖性: ⭐⭐⭐⭐⭐ "工具放大"范式提出新颖且有说服力，两阶段封装引擎设计优雅
实验充分度: ⭐⭐⭐⭐ 四个化学任务全面评估，有消融和效率分析，但测试规模偏小
写作质量: ⭐⭐⭐⭐ 编排vs放大的区分图清晰，算法描述完整
价值: ⭐⭐⭐⭐ 为科学AI工具增强提供了新思路，效率和效果的双重提升有实际部署价值