Identifying and Analyzing Performance-Critical Tokens in Large Language Models¶

会议: AAAI 2026
arXiv: 2401.11323
代码: https://github.com/ybai-nlp/PCT_ICL
领域: NLP理解
关键词: In-Context Learning, 性能关键token, 注意力消融, 模板token, 信息聚合

一句话总结¶

通过representation-level和token-level两种消融实验，发现LLM在ICL中直接依赖的"性能关键token"是模板和停用词token（如"Answer:"），而非人类会关注的内容token（如实际文本），并揭示了LLM通过将内容信息聚合到这些关键token的表示中来间接利用内容。

研究背景与动机¶

领域现状：ICL已成为LLM的主流few-shot学习方法，但对LLM如何从demonstration中学习和泛化仍理解不足。已有研究表明ICL对prompt的微小变化（如demo顺序）非常敏感。
现有痛点：之前的研究要么只关注最后一个token（function vector），要么只关注label word，缺乏对prompt中所有token角色的系统性研究。
核心矛盾：人类在学习analogy时关注"内容words"（如名词/形容词），但LLM是否也如此？
本文要解决什么？ 系统性地识别ICL prompt中哪些token的表示直接影响性能（性能关键token），并分析其特征
切入角度：将ICL prompt的token分为三类（content/stopword/template），通过消融各类token的表示来测量对性能的影响
核心idea一句话：LLM并不直接依赖内容token的表示，而是依赖模板和停用词token——后者聚合了前者的信息

方法详解¶

整体框架¶

将ICL prompt token分三类，设计两种消融实验，在多个LLM和数据集上系统评估： - Token分类：Template（如"Article:", "Answer:"）、Stopword（标点和功能词）、Content（实际文本内容） - Representation-level消融：从test example的attention中mask掉特定类型token的表示 - Token-level消融：直接从prompt中删除特定类型的token

关键设计¶

Representation-level消融:
做什么：测试哪类token的表示被test example直接依赖
核心思路：修改attention mask，使test example只能attend到特定类型的token表示，然后测量分类准确率变化。如果只保留template+stopword的表示就能维持性能，说明这些才是性能关键token
关键发现：masking content tokens几乎不影响性能，但masking template/stopword tokens导致性能大幅下降。这说明LLM直接从template/stopword的表示中获取任务信息
Token-level消融:
做什么：测试哪类token的信息对整个prompt的信息流至关重要
核心思路：直接从prompt中删除特定类型token。如果删除content token导致性能大幅下降（即使representation-level消融显示它不是直接依赖），说明content token的信息被间接传递了
关键发现：删除content token确实大幅降低性能——这与representation-level消融的结果看似矛盾。解释：content token的信息被LLM聚合到了template/stopword token的表示中
性能关键token的三个特征:
词汇含义：与任务相关的词（如分类任务中的"Answer:"）更可能是性能关键token
重复性：在prompt中反复出现的token更可能是性能关键的（如每个demo都有的template）
结构线索：标记demo边界的token（如换行符、分隔符）提供关键的结构信息

损失函数 / 训练策略¶

纯分析工作，无训练。使用Llama 3B-33B、Llama 2、Mistral 7B、Gemma 3 4B。6个分类数据集，每个15 seeds × 500 test examples。

实验关键数据¶

主实验——表示级消融（Representation-Level Ablation）¶

从标准ICL（Standard ICL）中mask掉某类token的表示（仅影响test example的attention），测量准确率变化：

设置	AGNews	SST2	DBPedia	平均△
Standard ICL（7B）	85.0	93.2	66.7	基准70.7
− content	82.4	85.5	64.2	-3.8
− stopword	84.8	88.0	65.7	-2.5
− template	0.9	61.0	12.9	-32.8

从零样本（Zero-shot）中加入某类token的表示：

设置	33B模型平均△
Zero-shot基线	54.6
+ content	-6.7（反而下降）
+ stopword	+17.7
+ template	+24.6

Token级消融（Token-Level Ablation）¶

配置	效果	说明
只mask content表示	性能几乎不变（-3.8%）	content不是test example的直接依赖
只mask template表示	性能暴跌（-32.8%）	template是test example的直接依赖
从prompt中删除content token	性能大幅下降	content信息是必需的——但间接提供
切断content→template信息流	性能下降	验证了信息聚合机制

关键发现¶

反直觉核心发现：LLM不像人类那样直接"关注"内容token，而是将内容信息聚合到模板token的表示中，再从模板表示中做决策
Template token的平均贡献是content的6.5倍：+template带来平均+24.6%提升，+content仅-6.7%（甚至负面影响），量化差距极大
Content token的"间接贡献"假说：表示级消融显示content不重要，token级消融显示content必需——这个"矛盾"证明content通过聚合到template表示来间接贡献
三个特征（词汇含义/重复性/结构线索）在所有模型大小上都一致，说明这是LLM的通用机制
结果对不同instruction prompt和不同模型（Llama/Llama 2/Mistral/Gemma 3）都鲁棒

亮点与洞察¶

"LLM和人类的attention完全不同"这个发现非常有启发性：人类关注内容词，LLM关注模板/结构词。这挑战了"LLM像人一样理解text"的假设
信息聚合假说很优雅：content → template的信息流解释了两种消融结果的"矛盾"——content重要但不直接参与，它通过聚合到template表示间接影响
对prompt engineering的实际意义：模板的设计（而非内容的措辞）可能对ICL性能影响更大

局限性 / 可改进方向¶

主要在分类任务上验证，生成任务的结果在附录中但不够深入
消融方法假设可以clean地分离token类型，但实际中有些token同时兼具多种角色
未研究instruction-tuned模型是否有不同的依赖模式

评分¶

新颖性: ⭐⭐⭐⭐⭐ "模板比内容更关键"的发现非常反直觉且有深度
实验充分度: ⭐⭐⭐⭐⭐ 8种LLM、6个数据集、多种消融方式、15 seeds
写作质量: ⭐⭐⭐⭐ 逻辑链清晰（分类→消融→发现→解释→特征分析）
价值: ⭐⭐⭐⭐⭐ 对理解ICL机制和优化prompt engineering都有重要启示