AutoTool: Efficient Tool Selection for Large Language Model Agents¶

会议: AAAI 2026
arXiv: 2511.14650v1
代码: https://github.com/jiajingyyyyyy/AutoTool
领域: Agent / LLM
关键词: 工具选择, LLM Agent效率, 工具使用惯性, 图结构, 推理成本优化

一句话总结¶

提出AutoTool，一个基于图的免训练工具选择框架，通过发现并利用"工具使用惯性"（tool usage inertia）——即工具调用遵循可预测的顺序模式这一经验现象——构建工具惯性图（TIG），用统计方法代替部分LLM推理来高效选择工具和填充参数，在保持任务完成率的同时减少15-40%的推理成本。

背景与动机¶

LLM Agent（如ReAct范式）在执行多步任务时需要在每一步反复调用LLM来决策使用哪个工具，这带来了巨大的计算开销和延迟。例如一个多步任务可能触发数十次LLM调用，LLM调用的延迟成为实际部署的瓶颈。

然而，作者核心洞察在于：并非所有决策步骤都具有同等复杂度。许多工具调用发生在高度模式化、可重复的上下文中，不需要LLM完整的推理能力。对LLM能力的"过度使用"造成了不必要的计算浪费。

核心问题¶

能否用统计方法取代部分LLM推理，高效地进行工具选择？具体挑战包括： 1. 如何量化和建模工具调用序列中的规律性模式？ 2. 如何在不依赖LLM的前提下自动化参数填充？ 3. 如何在减少推理成本的同时不显著损害任务完成率？

方法详解¶

整体框架¶

AutoTool作为一个插件模块，在每次标准LLM调用之前尝试一次"惯性调用"（inertial invocation），流程分两阶段： 1. 惯性感知模块（Inertia Sensing）：基于历史频率和上下文相关性预测下一个最可能的工具 2. 参数填充模块（Parameter Filling）：通过回溯参数依赖图自动填充工具参数

只有当两个阶段都成功时才绕过LLM直接执行，否则回退到标准LLM推理。

关键设计¶

1. 工具使用惯性的实证发现

在ScienceWorld环境中分析322条轨迹、6014次工具调用，发现工具选择遵循低熵的马尔可夫链模式： - 0阶模型（独立假设）熵：3.50 bits - 1阶模型条件熵：2.52 bits（降低28%） - 2阶模型条件熵：1.93 bits（降低45%） - 似然比检验（G²-test, N=6014）证实各阶间差异显著（p < .001） - 实例：go_to 后接 look_around 概率高达88.7%

在ToolBench（15980条轨迹，1595个工具）上进一步验证：条件熵仅3.62 bits，相比理论最大值10.64 bits降低了65.96%。

2. 工具惯性图（Tool Inertia Graph, TIG）

动态图结构 $G_t = (V_t, E_t, W_t)$，层次化节点设计： - 工具节点（Tool Nodes）：代表可用工具，存储功能描述和执行属性 - 参数节点（Parameter Nodes）：工具节点的子图，代表具体的输入/输出参数

两种有向边： - 工具序列边（Tool Sequence Edges）：连接工具节点，编码顺序依赖关系 - 参数依赖边（Parameter Dependency Edges）：连接参数节点，建模工具间的数据流

边的权重基于成功/失败反馈进行在线更新：成功则增加权重，失败则减少，避免错误传播。仅由LLM生成的高置信序列才能增强边权重。

3. 综合惯性潜力评分（CIPS）

\[\text{CIPS} = (1 - \alpha) \cdot \text{Score}_{\text{freq}} + \alpha \cdot \text{Score}_{\text{ctx}}\]

$\text{Score}_{\text{freq}}$：基于TIG边权重的历史频率分数
$\text{Score}_{\text{ctx}}$：使用SimCSE计算agent当前直觉（thought）与候选工具描述的语义相似度
$\alpha = 0.5$ 平衡两者

惯性置信因子（ICF）防止数据稀疏时过早触发高置信惯性调用： $$\text{ICF} = 1 - k^{-W_{\text{total}}}$$

只有当 $\text{CIPS}(v^*) > \theta_{\text{inertial}}$（默认 $\theta = 0.1$）时才进入参数填充阶段。

4. 层次化参数填充

严格优先级顺序： 1. 依赖回溯（Dependency Backtracking）：沿TIG的参数依赖边找到前序工具输出作为当前输入 2. 环境状态匹配（Environmental State Matching）：利用agent维护的关键状态（如当前位置） 3. 启发式填充（Heuristic Filling）：基于当前状态或任务目标

只有所有必需参数都成功填充，惯性调用才会执行。

5. 安全约束 - 惯性调用不超过总操作的30% - 禁止连续惯性调用 - 内置容错机制：连续两次工具失败后强制检查可用工具列表

损失函数 / 训练策略¶

本方法无需训练（training-free / tuning-free）。TIG完全通过在线学习从执行轨迹中动态构建和更新。边权重的更新规则：

\[w_{t+1}(s_i, s_j) = w_t(s_i, s_j) + \begin{cases} \Delta w_{\text{success}} & \text{if inertial call successful} \\ -\Delta w_{\text{failure}} & \text{if inertial call fails} \end{cases}\]

惯性窗口（inertia window）默认设为2，即依赖最近两个连续动作进行惯性预测。

实验关键数据¶

实验设置：使用Llama4-Scout-17B，在AlfWorld、ScienceWorld、ToolQuery-Academic三个基准上评测，冷启动（无预置轨迹）。

核心结果（Table 3）：

方法	数据集	SpeedUp (tok-in / tok-out / LLMC)
ReAct+AutoTool	AlfWorld	1.60x / 2.87x / 1.18x
ReAct+AutoTool	ScienceWorld	1.30x / 1.41x / 1.31x
ReAct+AutoTool	ToolQuery-Academic	1.15x / 0.92x / 1.20x
Reflexion+AutoTool	AlfWorld	1.33x / 1.20x / 1.29x
Reflexion+AutoTool	ScienceWorld	0.93x / 1.20x / 1.28x
Reflexion+AutoTool	ToolQuery-Academic	1.33x / 1.19x / 1.26x

平均减少LLM调用次数15%-25%，总token消耗降低10%-40%
AlfWorld上ReAct+AutoTool不仅省资源，进度率还有提升（容错机制的功劳）
ToolQuery-Academic上tok-out出现了0.92x的退化（个别场景output token反而增多）

开销分析（Table 4-5）： - 语义计算（SimCSE）的额外开销仅占总任务时间的 2.7% ± 1.5% - 非语义模块（图构建、图搜索、解析、参数填充）开销在秒级，LLM推理时间通常超过千秒

跨模型鲁棒性（Table 7）： - 在Llama-3.3-70B, Qwen2.5-72B, DeepSeekV3上均有效 - DeepSeekV3因指令遵循能力弱导致进度率极低，但AutoTool的容错恢复路径显著提升了其进度率

消融实验要点¶

超参数敏感性分析（Table 6, ScienceWorld）： - $\theta_{\text{inertial}}$：较低值（0.1）触发更多惯性调用，最有效减少LLM调用次数（最低达16.85次） - 由于30%上限和禁止连续惯性调用的约束，即使 $\theta = 0.2$ 时惯性调用数量也接近上限 - 进度率在不同超参数配置下保持稳定，说明安全约束设计合理 - 更宽松的 $\theta$ 实际上是安全且有益的：能捕获更多有效惯性模式而不被低质量调用淹没

N-gram基线对比（Table 9, ScienceWorld, Qwen2.5-32B）： - AutoTool显著优于N-gram（n=3）基线 - N-gram缺少上下文相关性评分和参数依赖图的精确参数填充

亮点¶

惯性观察的理论深度：不仅提出观察而且用信息论（条件熵）和统计检验（G²-test）严格量化，从Markov链到类A*搜索的理论联系建立得清晰
设计的工程自恰性：30%上限+禁止连续惯性+容错恢复路径三重安全保障，系统可控不失控
真正的即插即用：作为模块嵌入ReAct/Reflexion，不修改prompt、不需要训练，冷启动可用
动态在线学习：TIG从零开始，随任务执行逐步完善，实验证明80个任务后性能趋于稳定
开销极低：额外计算仅占总时间约2.7%

局限性 / 可改进方向¶

冷启动问题：完全冷启动时前40个任务性能有明显gap，实际部署中如何高效warm-up是个问题
惯性窗口固定为2：论文承认窗口为3+时由于匹配路径过少导致过拟合，但动态调整窗口长度值得探索
参数填充精度有限：AlfWorld上参数填充成功率最低（开放语言环境），说明非LLM方法在灵活环境中仍有局限
评测任务偏简单和重复性高：AlfWorld、ScienceWorld本身工具集较小（<20个工具），惯性模式明显；在大规模异构工具（如数千个API）场景中效果存疑
Adaptor模式工程成本：每个新数据集/环境需手动实现Adaptor子类，限制了自动化程度
ToolQuery-Academic上tok-out退化：某些场景下效率反而下降，说明方法并非普适最优
超参数需手动调节：$\theta$、$\alpha$、惯性上限等需逐环境调优
未与fine-tuning方法对比：Toolformer、ToolRL等fine-tuning方法可能在效率和效果上都更强，缺少这类对比

与相关工作的对比¶

vs ReAct/Reflexion：AutoTool不是替代而是增强，作为插件减少冗余LLM调用
vs ToolNet/AnyTool：这些方法也用图结构，但关注检索完整性而非效率，仍依赖LLM做决策
vs ToolChain/Tree of Thoughts**：搜索方法关注找到最优动作序列（提升成功率），计算成本反而更高
vs Agent Workflow Memory：都从历史交互中学习，但AWM提取可复用workflow指导决策，AutoTool则用统计结构直接替代LLM推理
vs N-gram模型：AutoTool的图结构+上下文评分+参数依赖图显著优于简单的N-gram序列预测

AutoTool在Table 1中是唯一同时满足Efficiency、LLM Offloading、Inertia Aware、Parameter Flow、Tool Graph五项指标的方法。

启发与关联¶

"惯性"思想可推广：不仅是工具选择，prompt构造、API参数选择等也可能存在类似的低熵模式，值得在更广泛的agent设计中应用
效率-效果的trade-off设计范式：30%上限+回退机制的设计哲学可用于其他需要"统计捷径+LLM兜底"的系统
与Speculative Decoding的类比：AutoTool在agent层面的"猜测执行+验证"与推理层面的投机解码异曲同工
冷启动的bootstrapping：论文提到可以用先验知识初始化TIG，结合少量expert trajectories可能更快收敛
对大规模工具场景的启示：虽然当前实验工具集较小，但ToolBench分析表明惯性在大规模API中也存在，关键在于如何设计更高效的图搜索算法

评分 ⭐⭐⭐⭐ (4/5)¶

优点： - 问题定义准确且实用——LLM Agent效率是明确的工程瓶颈 - 理论分析扎实（信息论量化、统计检验、认知科学类比） - 方法设计精巧且自洽（安全约束、在线学习、层次化参数填充） - 代码开源，实验设置公平（冷启动、与baselines用相同prompt）

不足： - 实际效率收益相对温和（15-25%的LLM调用减少），在API调用已经很便宜的今天，工业价值有限 - 评测环境工具集偏小且模式重复性高，对方法的普适性检验不够 - 缺少与fine-tuning方法的直接对比 - 部分数据集上出现退化（tok-out反增），说明方法的适用边界尚不清晰