When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors¶

会议: ACL 2026
arXiv: 2604.21255
代码: https://github.com/Syuchin/AgentEcho
领域: LLM Agent
关键词: 模型蒸馏、行为同质化、工具使用、Agent评测、行为相似度

一句话总结¶

本文提出了 RPS 和 AGS 两个互补指标来量化 LLM Agent 在工具使用行为上的蒸馏导致的同质化现象，通过区分必要行为和非必要行为，在 18 个模型上揭示了跨家族行为继承模式，发现 Kimi-K2 与 Claude Sonnet 4.5 的行为相似度甚至超过 Anthropic 自家模型。

研究背景与动机¶

领域现状：当前 LLM Agent 正经历"寒武纪大爆发"，大量高性能 Agent 不断涌现。然而，尽管这些模型来源各异，它们在推理步骤、工具调用习惯甚至失败模式上表现出高度一致的行为，暗示许多模型可能是少数主导教师模型的"蒸馏回声"。

现有痛点：现有的相似度度量方法主要关注静态对话中的响应级别相似性，无法捕捉多步工具使用轨迹的动态特性。更关键的是，这些方法无法区分"必要行为"（任务成功所必需的操作）和"非必要行为"（反映模型自主偏好的操作），导致相似度被任务本身要求的共同正确路径所膨胀。

核心矛盾：不区分必要行为和非必要行为，就无法判断两个模型趋同是因为只有一条正确路径，还是因为一个模型在盲目模仿另一个模型的习惯——这是量化蒸馏影响的根本障碍。

本文目标：设计一套系统框架来隔离非必要行为模式，从语言表达和工具操作两个维度量化 Agent 之间的蒸馏引发的行为同质化。

切入角度：作者观察到很多 Agent 会执行冗余的工具调用（如在答案显而易见时仍逐个尝试所有可用工具），这些非必要的行为选择恰恰是判断模型是否被蒸馏的"行为指纹"。

核心 idea：通过将 Agent 轨迹分解为必要行为和非必要行为，分别用 RPS（语言表达相似度）和 AGS（动作图相似度）两个指标来捕捉不同维度的行为继承信号。

方法详解¶

整体框架¶

给定一组模型和工具使用任务集，收集每个模型的执行轨迹，然后从两个正交维度进行相似度分析：RPS 关注模型如何用语言表达回复（verbal fingerprint），AGS 关注模型如何选择和组织工具调用（behavioral fingerprint）。以 Claude Sonnet 4.5 (thinking) 作为参考"oracle"模型，计算其他模型与其的行为相似度。

关键设计¶

Response Pattern Similarity (RPS):
- 功能：量化两个模型在语言表达上的相似程度
- 核心思路：采用两阶段管线——首先通过 Stage Annotation 将轨迹语义对齐到五个规范阶段（认证、信息获取、执行、验证、通知），解决不同模型完成同一任务的轮次数量不同的问题；然后在共享阶段上，由 LLM Judge 从风格（Style）、结构（Structure）和对齐（Alignment）三个维度打分（1-5 分），最终取 Overall 分的均值
- 设计动机：直接比较全轨迹或逐轮对齐会匹配到无关内容，导致评分不可靠；通过语义级别的阶段对齐，确保只比较功能等价的交互片段
Action Graph Similarity (AGS):
- 功能：从工具调用序列中分析结构化的行为模式
- 核心思路：将对话轨迹构造为有向图 \(G=(V, E_s, E_d)\)，其中节点为工具调用，\(E_s\) 为时序顺序边，\(E_d\) 为依赖边（前一个工具的输出被后一个工具使用）。然后从三个子维度度量相似度：\(S_{\text{node}}\)（可选工具一致率，排除所有成功模型都必须调用的 mandatory 工具）、\(S_{\text{seq}}\)（顺序模式相似度，提取写后验证率/写前确认率/错误重试率三维特征向量的余弦相似度）、\(S_{\text{dep}}\)（依赖模式相似度，提取输出复用率/最长依赖链长度/输出扇出率的余弦相似度）
- 设计动机：核心创新在于 \(S_{\text{node}}\) 通过交集运算 \(\mathcal{F}_t^{\text{mandatory}} = \bigcap_{M \in \mathcal{M}_t^*} \text{Tools}(M, t)\) 识别必要工具并排除，只在可选工具上计算一致性，避免了因共同正确性导致的分数膨胀（平均膨胀 12.2pp）
依赖边的 LLM 验证机制:
- 功能：准确识别工具之间的输出-输入依赖关系
- 核心思路：简单的字符串匹配会产生大量假阳性（如常见的日期或 ID 恰巧重复），因此使用 LLM Judge 对每个候选依赖边进行语义有效性验证，判断匹配的值是确实来自源工具的输出，还是事先已知的信息（如用户输入）
- 设计动机：确保依赖图的准确性，避免噪声边干扰相似度计算

损失函数 / 训练策略¶

本文为评测框架，不涉及模型训练。在受控蒸馏实验中，使用 LoRA 在 200 条 Claude Sonnet 4.5 的 τ-Bench 轨迹上微调 Qwen2.5-14B-Instruct，以 DeepSeek R1 作为非教师对照组，验证指标的方向性检测能力。

实验关键数据¶

主实验¶

模型	AGS (%)	RPS Overall	\(S_{\text{node}}\) (%)	\(S_{\text{dep}}\) (%)
Claude Opus 4.1 (thinking)	83.0	3.85	81.0	93.7
Kimi-K2 (thinking)	82.7	3.65	82.6	94.7
GPT-4.1	79.5	3.15	75.9	88.0
GPT-5	76.1	2.70	71.3	87.7
DeepSeek-R1	78.6	3.05	78.3	85.0
GLM-4.6	80.3	3.42	80.4	88.7
Qwen3-235B (thinking)	75.9	2.40	68.1	92.4

消融实验¶

配置	AGS toward Teacher	AGS toward Control	说明
Baseline (未蒸馏)	0.59	0.64	原始 Qwen2.5-14B
Distilled (蒸馏后)	0.72 (+0.13)	0.59 (-0.05)	AGS 呈现方向性信号
GED Baseline	0.42	0.39	原始对比
GED Distilled	0.65 (+0.23)	0.59 (+0.20)	GED 无法区分方向

关键发现¶

Within-family 模型对的 AGS 比 cross-family 高 5.9pp，验证了指标能捕捉行为继承
Kimi-K2 (thinking) 的 \(S_{\text{node}}\) 和 \(S_{\text{dep}}\) 均超过 Anthropic 自家的 Opus 4.1，暗示强烈的跨家族行为继承
RPS 和 AGS 的 Pearson 相关系数仅为 0.491，说明两个指标捕捉了独立的行为维度

亮点与洞察¶

将 mandatory/optional 工具的区分引入蒸馏检测是非常巧妙的设计，排除 mandatory 工具后 \(S_{\text{node}}\) 平均降低 12.2pp，说明不做此区分会严重高估跨模型相似度。这一思路可推广到其他 Agent 行为分析场景。
受控蒸馏实验的方向性验证设计精巧：AGS 向教师方向增加（+0.13）而向对照方向减少（-0.05），而 GED 向两个方向都增加（+0.23/+0.20），清晰证明了 AGS 能区分"特定教师导向的趋同"与"通用能力提升"。
案例分析中发现 Kimi-K2 和 Claude 共享"热情肯定语气"（如 "Excellent!", "Perfect!"）和冗余验证偏好（先调用 find_user_id_by_email 再继续），而 GPT-5 风格完全不同，这些细粒度的行为指纹非常有说服力。

局限与展望¶

仅以 Claude Sonnet 4.5 (thinking) 为参考模型报告结果，完整的 18 模型两两比较需要 153 次对比，计算成本较高
评测仅覆盖 τ-Bench 和 τ²-Bench 的三个英语客服领域，对其他领域、任务类型和语言的泛化性有待验证
RPS 依赖于特定领域的阶段分类法，推广到代码生成或多 Agent 协作等非工具使用范式需要进一步方法论工作

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出区分必要/非必要行为的工具使用蒸馏检测框架，切入点非常独特
实验充分度: ⭐⭐⭐⭐ 覆盖 8 个提供商 18 个模型，受控实验设计严谨，但仅限英语客服领域
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，案例分析生动，从直觉到量化的论证链条完整
综合推荐: ⭐⭐⭐⭐⭐ 对理解当前 LLM 生态中的行为同质化现象具有重要价值