ToolSpectrum: Towards Personalized Tool Utilization for Large Language Models¶

会议: ACL 2025
arXiv: 2505.13176
代码: https://github.com/BUAA-IRIP-LLM/ToolSpectrum (有)
领域: LLM Agent / Tool Learning
关键词: 个性化工具使用, LLM工具学习, 用户画像, 环境因素, Benchmark

一句话总结¶

提出 ToolSpectrum benchmark，首次评估 LLM 在用户画像和环境因素双维度下的个性化工具选择能力，发现现有 SOTA 模型在联合推理两个维度时表现显著下降。

研究背景与动机¶

领域现状：LLM 工具使用研究快速发展，已有 ToolBench、API-Bank、AppBench 等基准评估 LLM 的工具规划、调用和鲁棒性。但这些基准都假设"给定指令→选择功能正确的工具"即可。
现有痛点：现实中存在大量功能重叠的工具（如 Amazon vs Temu、携程 vs 飞猪），用户应该根据自己的偏好（预算敏感?品质优先?）和环境（天气、网络状况、政策限制）选择最合适的工具。现有 benchmark 完全忽略了这种个性化需求。
核心矛盾：工具选择不仅是"能用什么"，更是"该用什么"——需要结合用户画像（demographics/personality/preference）和环境上下文（天气/时间/设备/政策）做综合推理。
本文要解决什么：如何评估 LLM 的个性化工具选择能力？现有模型在这方面表现如何？
切入角度：定义个性化工具使用的形式化框架（用户画像 P、环境 E、工具集 T），构建包含 Profile-only、Environment-only、Both 三种设置的评估基准。
核心 idea：个性化是工具使用中被忽视但至关重要的维度，当前 LLM 在单一维度个性化上还行，但联合推理两个维度时性能大幅下降。

方法详解¶

整体框架¶

ToolSpectrum 是一个 benchmark（非模型），评估 \(t = \text{Model}(I, \mathcal{P}, \mathcal{E}, \mathcal{T})\)，其中输出 \(t\) 包含四个字段：APP（选哪个应用）、API（选哪个接口）、RP（必需参数）、OP（个性化可选参数）。若指令违反应用政策则应返回 None。

关键设计¶

个性化的双维度定义:
做什么：将影响工具选择的因素形式化为用户画像 \(\mathcal{P}\) 和环境 \(\mathcal{E}\) 两个维度
核心思路：
- 用户画像分 3 层：Demographics（年龄/收入/职业等 key-value）、Personality（兴趣描述，自然语言）、Preference（历史偏好，如"常用 Amazon"）
- 环境分 3 类：Natural（天气/日期/位置）、Digital（网络/设备状态）、App Domain Policy（如"未成年人不能购买万元商品"）
设计动机：用户画像和环境涵盖了个性化的两大来源——"你是谁"和"你在什么情境下"，且分别有大量个性化研究支持
三阶段数据构建流程:
做什么：系统化地生成高质量的个性化工具使用评测数据
核心思路：(1) 收集 9 个领域（购物/旅行/娱乐/外卖/健康等）的 23 个 APP、42 个 API，手工引入功能重叠的替代工具；(2) 用 GPT-4o + 种子数据 + 人工审核生成 158 个用户画像和 87 个环境设定；(3) 将指令×画像/环境组合输入 GPT-4o 生成工具调用结果，人工 + GPT-4o 双重质量把控（平均分 <8 的丢弃，移除 21.8% 数据）
设计动机：三种数据设置（Profile-only 450条、Environment-only 220条、Both 330条）分离各因素影响
评估维度:
做什么：四层级评估——APP 选择准确率、API 选择准确率、RP（必需参数）F1、OP（可选参数）F1
核心思路：APP 和 API 是集合匹配（Jaccard），RP 和 OP 用 key 匹配 + value 语义相似度（GPT-4o 评分）
设计动机：OP（Optional Parameters）直接反映个性化能力——能否根据画像/环境填入合适的偏好参数

实验关键数据¶

主实验（选取代表性模型）¶

模型	Profile APP	Profile OP	Env APP	Env OP	Both APP	Both OP
Qwen2.5-7B	0.73	0.27	0.66	0.03	0.22	0.06
LLaMA-3.3-70B	0.72	0.39	0.70	0.25	0.25	0.20
DeepSeek-R1-671B	0.84	0.62	0.80	0.53	0.32	0.50
GPT-4o	0.80	-	0.77	-	-	-
Claude-3.5-sonnet	0.78	0.53	0.75	0.47	0.30	0.39

消融实验/关键对比¶

设置	关键观察
Profile-only → Both	APP 准确率从 ~0.80 骤降到 ~0.30，联合推理极其困难
Environment 中 OP	多数模型 OP ≈ 0，完全无法识别环境暗示的参数偏好
推理模型（QwQ/R1）	在 Both 设置下最优（OP 0.39-0.50），推理能力对联合个性化有帮助
闭源 vs 开源	GPT-4o/Claude 在单维度上强，但 Both 设置同样大幅下降

关键发现¶

个性化双维度联合推理是当前 LLM 的瓶颈：几乎所有模型在 Profile & Environment 联合设置下 APP 准确率从 >0.7 降到 ~0.3，说明模型无法同时兼顾两个维度
环境维度的 OP 几乎为零：小模型在 Environment 设置下 OP 准确率接近 0，说明模型难以从环境因素中推断出应该设置什么个性化参数
推理模型（DeepSeek-R1）显著领先：R1 在 Both OP 达 0.50，远超 Claude-3.5（0.39）和普通 LLM（<0.20），说明显式推理链对复杂个性化有帮助
模型通常顾此失彼：在联合设置下，模型倾向于只优化一个维度而忽略另一个

亮点与洞察¶

首次定义"个性化工具使用"问题：从功能性工具选择拓展到上下文感知的个性化选择，是 tool learning 领域的重要推进
双维度分离实验设计巧妙：Profile-only、Environment-only、Both 三种设置清晰展示了各因素的独立和联合影响
APP 政策作为环境约束：将应用政策（如年龄限制）纳入环境因素是一个有实际意义的设计，反映了真实场景中的合规需求

局限性 / 可改进方向¶

数据由 GPT-4o 生成，可能存在偏差，且数据规模较小（总计 1000 条）
评估依赖 GPT-4o 评分（OP 语义比较），可能不够客观
仅覆盖中英双语混合场景（App 名称/概念），缺少多语言专项评估
未包含多轮对话中的个性化工具使用（当前为单轮）
未探索如何提升 LLM 个性化工具使用能力（仅做 benchmark 评估）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性定义和评估个性化工具使用，问题定义有价值
实验充分度: ⭐⭐⭐⭐ 测试了 20+ 模型，分析全面，但数据规模偏小
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，例子直观
价值: ⭐⭐⭐⭐ 揭示了 LLM 的重要能力缺陷，对 agent 系统设计有指导意义