跳转至

ToolSpectrum: Towards Personalized Tool Utilization for Large Language Models

会议: ACL 2025
arXiv: 2505.13176
代码: https://github.com/BUAA-IRIP-LLM/ToolSpectrum (有)
领域: LLM Agent / Tool Learning
关键词: 个性化工具使用, LLM工具学习, 用户画像, 环境因素, Benchmark

一句话总结

提出 ToolSpectrum benchmark,首次评估 LLM 在用户画像和环境因素双维度下的个性化工具选择能力,发现现有 SOTA 模型在联合推理两个维度时表现显著下降。

研究背景与动机

  1. 领域现状:LLM 工具使用研究快速发展,已有 ToolBench、API-Bank、AppBench 等基准评估 LLM 的工具规划、调用和鲁棒性。但这些基准都假设"给定指令→选择功能正确的工具"即可。
  2. 现有痛点:现实中存在大量功能重叠的工具(如 Amazon vs Temu、携程 vs 飞猪),用户应该根据自己的偏好(预算敏感?品质优先?)和环境(天气、网络状况、政策限制)选择最合适的工具。现有 benchmark 完全忽略了这种个性化需求。
  3. 核心矛盾:工具选择不仅是"能用什么",更是"该用什么"——需要结合用户画像(demographics/personality/preference)和环境上下文(天气/时间/设备/政策)做综合推理。
  4. 本文要解决什么:如何评估 LLM 的个性化工具选择能力?现有模型在这方面表现如何?
  5. 切入角度:定义个性化工具使用的形式化框架(用户画像 P、环境 E、工具集 T),构建包含 Profile-only、Environment-only、Both 三种设置的评估基准。
  6. 核心 idea:个性化是工具使用中被忽视但至关重要的维度,当前 LLM 在单一维度个性化上还行,但联合推理两个维度时性能大幅下降。

方法详解

整体框架

ToolSpectrum 是一个 benchmark(非模型),评估 \(t = \text{Model}(I, \mathcal{P}, \mathcal{E}, \mathcal{T})\),其中输出 \(t\) 包含四个字段:APP(选哪个应用)、API(选哪个接口)、RP(必需参数)、OP(个性化可选参数)。若指令违反应用政策则应返回 None。

关键设计

  1. 个性化的双维度定义:
  2. 做什么:将影响工具选择的因素形式化为用户画像 \(\mathcal{P}\) 和环境 \(\mathcal{E}\) 两个维度
  3. 核心思路:
    • 用户画像分 3 层:Demographics(年龄/收入/职业等 key-value)、Personality(兴趣描述,自然语言)、Preference(历史偏好,如"常用 Amazon")
    • 环境分 3 类:Natural(天气/日期/位置)、Digital(网络/设备状态)、App Domain Policy(如"未成年人不能购买万元商品")
  4. 设计动机:用户画像和环境涵盖了个性化的两大来源——"你是谁"和"你在什么情境下",且分别有大量个性化研究支持

  5. 三阶段数据构建流程:

  6. 做什么:系统化地生成高质量的个性化工具使用评测数据
  7. 核心思路:(1) 收集 9 个领域(购物/旅行/娱乐/外卖/健康等)的 23 个 APP、42 个 API,手工引入功能重叠的替代工具;(2) 用 GPT-4o + 种子数据 + 人工审核生成 158 个用户画像和 87 个环境设定;(3) 将指令×画像/环境组合输入 GPT-4o 生成工具调用结果,人工 + GPT-4o 双重质量把控(平均分 <8 的丢弃,移除 21.8% 数据)
  8. 设计动机:三种数据设置(Profile-only 450条、Environment-only 220条、Both 330条)分离各因素影响

  9. 评估维度:

  10. 做什么:四层级评估——APP 选择准确率、API 选择准确率、RP(必需参数)F1、OP(可选参数)F1
  11. 核心思路:APP 和 API 是集合匹配(Jaccard),RP 和 OP 用 key 匹配 + value 语义相似度(GPT-4o 评分)
  12. 设计动机:OP(Optional Parameters)直接反映个性化能力——能否根据画像/环境填入合适的偏好参数

实验关键数据

主实验(选取代表性模型)

模型 Profile APP Profile OP Env APP Env OP Both APP Both OP
Qwen2.5-7B 0.73 0.27 0.66 0.03 0.22 0.06
LLaMA-3.3-70B 0.72 0.39 0.70 0.25 0.25 0.20
DeepSeek-R1-671B 0.84 0.62 0.80 0.53 0.32 0.50
GPT-4o 0.80 - 0.77 - - -
Claude-3.5-sonnet 0.78 0.53 0.75 0.47 0.30 0.39

消融实验/关键对比

设置 关键观察
Profile-only → Both APP 准确率从 ~0.80 骤降到 ~0.30,联合推理极其困难
Environment 中 OP 多数模型 OP ≈ 0,完全无法识别环境暗示的参数偏好
推理模型(QwQ/R1) 在 Both 设置下最优(OP 0.39-0.50),推理能力对联合个性化有帮助
闭源 vs 开源 GPT-4o/Claude 在单维度上强,但 Both 设置同样大幅下降

关键发现

  • 个性化双维度联合推理是当前 LLM 的瓶颈:几乎所有模型在 Profile & Environment 联合设置下 APP 准确率从 >0.7 降到 ~0.3,说明模型无法同时兼顾两个维度
  • 环境维度的 OP 几乎为零:小模型在 Environment 设置下 OP 准确率接近 0,说明模型难以从环境因素中推断出应该设置什么个性化参数
  • 推理模型(DeepSeek-R1)显著领先:R1 在 Both OP 达 0.50,远超 Claude-3.5(0.39)和普通 LLM(<0.20),说明显式推理链对复杂个性化有帮助
  • 模型通常顾此失彼:在联合设置下,模型倾向于只优化一个维度而忽略另一个

亮点与洞察

  • 首次定义"个性化工具使用"问题:从功能性工具选择拓展到上下文感知的个性化选择,是 tool learning 领域的重要推进
  • 双维度分离实验设计巧妙:Profile-only、Environment-only、Both 三种设置清晰展示了各因素的独立和联合影响
  • APP 政策作为环境约束:将应用政策(如年龄限制)纳入环境因素是一个有实际意义的设计,反映了真实场景中的合规需求

局限性 / 可改进方向

  • 数据由 GPT-4o 生成,可能存在偏差,且数据规模较小(总计 1000 条)
  • 评估依赖 GPT-4o 评分(OP 语义比较),可能不够客观
  • 仅覆盖中英双语混合场景(App 名称/概念),缺少多语言专项评估
  • 未包含多轮对话中的个性化工具使用(当前为单轮)
  • 未探索如何提升 LLM 个性化工具使用能力(仅做 benchmark 评估)

相关工作与启发

  • vs ToolBench/AppBench: 它们评估工具功能正确性,ToolSpectrum 评估在功能等价工具间的个性化选择
  • vs τ-Bench: τ-Bench 考虑了部分环境因素但未涉及用户画像,也不评估个性化参数
  • vs LaMP/PersonaChat: 它们做个性化文本生成/对话,但不涉及工具调用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性定义和评估个性化工具使用,问题定义有价值
  • 实验充分度: ⭐⭐⭐⭐ 测试了 20+ 模型,分析全面,但数据规模偏小
  • 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,例子直观
  • 价值: ⭐⭐⭐⭐ 揭示了 LLM 的重要能力缺陷,对 agent 系统设计有指导意义