ToolSpectrum: Towards Personalized Tool Utilization for Large Language Models¶
会议: ACL 2025
arXiv: 2505.13176
代码: https://github.com/BUAA-IRIP-LLM/ToolSpectrum (有)
领域: LLM Agent / Tool Learning
关键词: 个性化工具使用, LLM工具学习, 用户画像, 环境因素, Benchmark
一句话总结¶
提出 ToolSpectrum benchmark,首次评估 LLM 在用户画像和环境因素双维度下的个性化工具选择能力,发现现有 SOTA 模型在联合推理两个维度时表现显著下降。
研究背景与动机¶
- 领域现状:LLM 工具使用研究快速发展,已有 ToolBench、API-Bank、AppBench 等基准评估 LLM 的工具规划、调用和鲁棒性。但这些基准都假设"给定指令→选择功能正确的工具"即可。
- 现有痛点:现实中存在大量功能重叠的工具(如 Amazon vs Temu、携程 vs 飞猪),用户应该根据自己的偏好(预算敏感?品质优先?)和环境(天气、网络状况、政策限制)选择最合适的工具。现有 benchmark 完全忽略了这种个性化需求。
- 核心矛盾:工具选择不仅是"能用什么",更是"该用什么"——需要结合用户画像(demographics/personality/preference)和环境上下文(天气/时间/设备/政策)做综合推理。
- 本文要解决什么:如何评估 LLM 的个性化工具选择能力?现有模型在这方面表现如何?
- 切入角度:定义个性化工具使用的形式化框架(用户画像 P、环境 E、工具集 T),构建包含 Profile-only、Environment-only、Both 三种设置的评估基准。
- 核心 idea:个性化是工具使用中被忽视但至关重要的维度,当前 LLM 在单一维度个性化上还行,但联合推理两个维度时性能大幅下降。
方法详解¶
整体框架¶
ToolSpectrum 是一个 benchmark(非模型),评估 \(t = \text{Model}(I, \mathcal{P}, \mathcal{E}, \mathcal{T})\),其中输出 \(t\) 包含四个字段:APP(选哪个应用)、API(选哪个接口)、RP(必需参数)、OP(个性化可选参数)。若指令违反应用政策则应返回 None。
关键设计¶
- 个性化的双维度定义:
- 做什么:将影响工具选择的因素形式化为用户画像 \(\mathcal{P}\) 和环境 \(\mathcal{E}\) 两个维度
- 核心思路:
- 用户画像分 3 层:Demographics(年龄/收入/职业等 key-value)、Personality(兴趣描述,自然语言)、Preference(历史偏好,如"常用 Amazon")
- 环境分 3 类:Natural(天气/日期/位置)、Digital(网络/设备状态)、App Domain Policy(如"未成年人不能购买万元商品")
-
设计动机:用户画像和环境涵盖了个性化的两大来源——"你是谁"和"你在什么情境下",且分别有大量个性化研究支持
-
三阶段数据构建流程:
- 做什么:系统化地生成高质量的个性化工具使用评测数据
- 核心思路:(1) 收集 9 个领域(购物/旅行/娱乐/外卖/健康等)的 23 个 APP、42 个 API,手工引入功能重叠的替代工具;(2) 用 GPT-4o + 种子数据 + 人工审核生成 158 个用户画像和 87 个环境设定;(3) 将指令×画像/环境组合输入 GPT-4o 生成工具调用结果,人工 + GPT-4o 双重质量把控(平均分 <8 的丢弃,移除 21.8% 数据)
-
设计动机:三种数据设置(Profile-only 450条、Environment-only 220条、Both 330条)分离各因素影响
-
评估维度:
- 做什么:四层级评估——APP 选择准确率、API 选择准确率、RP(必需参数)F1、OP(可选参数)F1
- 核心思路:APP 和 API 是集合匹配(Jaccard),RP 和 OP 用 key 匹配 + value 语义相似度(GPT-4o 评分)
- 设计动机:OP(Optional Parameters)直接反映个性化能力——能否根据画像/环境填入合适的偏好参数
实验关键数据¶
主实验(选取代表性模型)¶
| 模型 | Profile APP | Profile OP | Env APP | Env OP | Both APP | Both OP |
|---|---|---|---|---|---|---|
| Qwen2.5-7B | 0.73 | 0.27 | 0.66 | 0.03 | 0.22 | 0.06 |
| LLaMA-3.3-70B | 0.72 | 0.39 | 0.70 | 0.25 | 0.25 | 0.20 |
| DeepSeek-R1-671B | 0.84 | 0.62 | 0.80 | 0.53 | 0.32 | 0.50 |
| GPT-4o | 0.80 | - | 0.77 | - | - | - |
| Claude-3.5-sonnet | 0.78 | 0.53 | 0.75 | 0.47 | 0.30 | 0.39 |
消融实验/关键对比¶
| 设置 | 关键观察 |
|---|---|
| Profile-only → Both | APP 准确率从 ~0.80 骤降到 ~0.30,联合推理极其困难 |
| Environment 中 OP | 多数模型 OP ≈ 0,完全无法识别环境暗示的参数偏好 |
| 推理模型(QwQ/R1) | 在 Both 设置下最优(OP 0.39-0.50),推理能力对联合个性化有帮助 |
| 闭源 vs 开源 | GPT-4o/Claude 在单维度上强,但 Both 设置同样大幅下降 |
关键发现¶
- 个性化双维度联合推理是当前 LLM 的瓶颈:几乎所有模型在 Profile & Environment 联合设置下 APP 准确率从 >0.7 降到 ~0.3,说明模型无法同时兼顾两个维度
- 环境维度的 OP 几乎为零:小模型在 Environment 设置下 OP 准确率接近 0,说明模型难以从环境因素中推断出应该设置什么个性化参数
- 推理模型(DeepSeek-R1)显著领先:R1 在 Both OP 达 0.50,远超 Claude-3.5(0.39)和普通 LLM(<0.20),说明显式推理链对复杂个性化有帮助
- 模型通常顾此失彼:在联合设置下,模型倾向于只优化一个维度而忽略另一个
亮点与洞察¶
- 首次定义"个性化工具使用"问题:从功能性工具选择拓展到上下文感知的个性化选择,是 tool learning 领域的重要推进
- 双维度分离实验设计巧妙:Profile-only、Environment-only、Both 三种设置清晰展示了各因素的独立和联合影响
- APP 政策作为环境约束:将应用政策(如年龄限制)纳入环境因素是一个有实际意义的设计,反映了真实场景中的合规需求
局限性 / 可改进方向¶
- 数据由 GPT-4o 生成,可能存在偏差,且数据规模较小(总计 1000 条)
- 评估依赖 GPT-4o 评分(OP 语义比较),可能不够客观
- 仅覆盖中英双语混合场景(App 名称/概念),缺少多语言专项评估
- 未包含多轮对话中的个性化工具使用(当前为单轮)
- 未探索如何提升 LLM 个性化工具使用能力(仅做 benchmark 评估)
相关工作与启发¶
- vs ToolBench/AppBench: 它们评估工具功能正确性,ToolSpectrum 评估在功能等价工具间的个性化选择
- vs τ-Bench: τ-Bench 考虑了部分环境因素但未涉及用户画像,也不评估个性化参数
- vs LaMP/PersonaChat: 它们做个性化文本生成/对话,但不涉及工具调用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性定义和评估个性化工具使用,问题定义有价值
- 实验充分度: ⭐⭐⭐⭐ 测试了 20+ 模型,分析全面,但数据规模偏小
- 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,例子直观
- 价值: ⭐⭐⭐⭐ 揭示了 LLM 的重要能力缺陷,对 agent 系统设计有指导意义