Towards Improved Sentence Representations using Token Graphs¶

会议: ICLR 2026
arXiv: 2603.03389
代码: https://github.com/ipsitmantri/GLOT
领域: NLP / 图学习
关键词: 句子表征, 图神经网络, Token图, 池化, 冻结LLM

一句话总结¶

提出 Glot，一种轻量结构感知池化模块，将冻结 LLM 的 token 级隐状态构建为潜在相似性图，通过 GNN 细化后聚合为句子表征，在 GLUE/MTEB 上与微调方法竞争力相当但仅需 20× 更少参数和 100× 更快训练。

研究背景与动机¶

领域现状：LLM 产生 token 级隐状态，但许多下游任务需要单向量句子表征。标准做法是 mean/max/[CLS] 池化——将 token 视为独立集合。

现有痛点：(a) 标准池化丢弃了自注意力层捕获的丰富关系结构；(b) 当仅少数 token 携带任务相关信号时，mean 池化被噪声淹没；(c) decoder-only LLM 的 causal attention 优化了 next-token prediction 而非句子理解。全模型微调太贵。

核心矛盾：如何在不微调 LLM 的条件下，从冻结模型的输出中获得高质量句子表征？

本文目标：将池化重新定义为"先做关系学习，再聚合"——token 不是独立集合而是图。

切入角度：LLM 的 token 隐状态天然携带相似性结构（cosine similarity），可以构建潜在图。GNN 在图上传播信息后再聚合，比 DeepSets 框架更强。

核心 idea：Glot = Token 相似性图构建 + Token-GNN 细化 + 可学习 readout。冻结 LLM backbone，仅训练轻量 GNN head。

方法详解¶

整体框架¶

冻结 LLM 产生 \(\mathbf{X} \in \mathbb{R}^{L \times d}\) → 构建 token 相似性图 \(\mathcal{G}\) → Token-GNN 细化 → 加权聚合 readout → 句子向量 \(\mathbf{z}\)。

关键设计¶

Token 图构建:
- 功能：基于 cosine 相似度构建稀疏图
- 核心思路：\(\mathbf{S}_{ij} = \cos(\mathbf{x}_i, \mathbf{x}_j)\)，仅 \(\mathbf{S}_{ij} > \tau\) 时创建边。\(\tau\) 是超参数
- 设计动机：保留语义相关的 token 间连接，丢弃无关连接。阈值控制图稀疏度
Token-GNN 细化:
- 功能：在 token 图上传播信息
- 核心思路：\(K\) 层 GNN，\(\mathbf{a}_i^{(\ell)} = \text{AGGREGATE}_{j \in \mathcal{N}_i}(\mathbf{h}_j^{(\ell)})\)，\(\mathbf{h}_i^{(\ell+1)} = \sigma(\mathbf{W}^{(\ell)} \text{CONCAT}(\mathbf{h}_i^{(\ell)}, \mathbf{a}_i^{(\ell)}))\)
- 设计动机：GNN 捕获 token 间依赖，如"not good"中 not 对 good 的否定。DeepSets（K=0）无法建模此类交互
可学习 Readout:
- 功能：加权聚合细化后的 token 表征
- 核心思路：\(m_i = \mathbf{v}^\top \tanh(\mathbf{W}_m \mathbf{u}_i + \mathbf{b}_m)\)，\(\pi = \text{softmax}(\mathbf{m})\)，\(\mathbf{z} = \sum_i \pi_i \mathbf{u}_i\)
- 设计动机：自适应权重优于固定 mean/max。理论证明 Glot 泛化了 mean/max/CLS 和 AdaPool

损失函数 / 训练策略¶

任务特定损失（分类用 CE，相似度用 cosine）。仅训练 GNN head + 任务分类器，backbone 完全冻结。可训练参数比 LoRA 等 PEFT 方法少 20×。

实验关键数据¶

主实验（GLUE + 冻结 BERT）¶

方法	CoLA (MCC)	SST-2 (Acc)	STS-B (Spea)	MRPC (F1)	QQP (F1)
[CLS]	22.66	83.83	61.08	79.58	19.70
Mean	19.55	82.91	74.96	80.28	29.01
AdaPool	29.20	87.72	80.01	77.99	40.15
Glot	47.49	90.25	83.86	82.58	62.19

消融实验（信号稀释压力测试）¶

方法	0% 噪声	50% 噪声	90% 噪声
Mean	~92%	~70%	~52%
AdaPool	~93%	~78%	~60%
Glot	~95%	~94%	97%+

关键发现¶

CoLA 上 Glot 比 [CLS] 提升 +25 MCC（47.49 vs 22.66）——关系建模对语言理解至关重要
信号稀释压力测试：90% 随机干扰 token 时，Mean 和 AdaPool 崩溃（~50-60%），Glot 保持 97%+
Decoder-only LLM 受益最大：SmolLM2 和 TinyLlama 上 Glot 相比 Mean 提升很大
参数效率极高：比 LoRA 等 PEFT 方法少 20× 参数，训练快 100×+
理论保证：Glot 严格泛化 DeepSets，GNN 消息传播 > 纯集合函数

亮点与洞察¶

"池化即关系学习"的新范式：不把 token 当独立集合，而是构建图做基于关系的压缩
冻结 LLM + 轻量 GNN 的实用价值：避免昂贵微调，仅需少量可训练参数
压力测试的诊断价值：90% 噪声下的鲁棒性差异清晰展示了关系学习 vs 独立聚合的本质区别

局限与展望¶

图构建依赖 cosine 相似度阈值 \(\tau\)，需要调参
GNN 增加内存和计算开销（虽比微调少得多）
未探索预训练 GNN head 跨任务迁移的可能性
长文本（如文档级）的 token 图可能过大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将池化重定义为图关系学习是新颖且有理论支撑的范式转换
实验充分度: ⭐⭐⭐⭐⭐ GLUE+MTEB+IMDB+压力测试+6种backbone，非常全面
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，从理论到实践逻辑完整
价值: ⭐⭐⭐⭐⭐ 高效实用，对冻结 LLM 的下游应用有即时价值