Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity¶

会议: ACL 2025
arXiv: 2502.13063
代码: GitHub
领域: 语言模型压缩 / 表示容量 / 信息论
关键词: 嵌入容量, token压缩, 无损压缩, 可训练记忆向量, LLM输入表示

一句话总结¶

通过逐样本优化方法将文本压缩到可训练的 [mem] 向量中，发现 Llama-3.1-8B 可以将 1568 个 token 无损压缩到单个输入向量中，揭示了现有方法（约 x10 压缩比）与实际可达极限（x1500+）之间存在两个数量级的差距。

研究背景与动机¶

领域现状: LLM 基于 Transformer 架构，输入嵌入维度随模型增大（Llama 系列从 2,048 到 16,384），但每个嵌入仍只表示一个 token。然而，一个 2048 维 16-bit 向量理论上可编码约 32,768 bit，足以表示约 1,931 个 token。
现有痛点: 现有上下文压缩方法（如 AutoCompressors、ICAE、500xCompressor）依赖编码器模型，最大无损压缩比通常不超过 x10，而有损压缩虽可达 x500 但质量严重下降。
核心矛盾: 输入向量的理论信息容量远高于当前实际可达的压缩比，存在巨大的利用率差距。
本文要解决什么: 探索 LLM 输入表示的压缩极限——到底能把多少 token 塞进一个向量？
切入角度: 放弃编码器（编码器本身可能是瓶颈），采用逐样本优化——直接针对每段文本优化一组 [mem] 向量，用冻结 LLM 解码。
核心idea一句话: 通过逐样本优化可训练输入向量，直接探索 LLM 输入嵌入空间的信息容量极限。

方法详解¶

整体框架¶

将要压缩的文本 \([t_1, ..., t_N]\) 前加一组可训练的 [mem] 向量 \([m_1, ..., m_K]\)，冻结 LLM 所有参数，仅优化 [mem] 向量以最小化标准的 next-token prediction 交叉熵损失。推理时从学到的 [mem] 向量开始生成，让 LM 自回归解码出原始文本。

关键设计¶

逐样本优化 (Per-sample Optimization): 不训练通用编码器，而是为每段文本独立优化 [mem] 向量——这虽然计算昂贵，但能揭示容量的理论上界。优化过程类似 Prompt Tuning，但目标是精确重建原始文本。
三指标评估体系:
Decoding Capacity（解码容量，以 token 计）：能完美重建（>99% 准确率）的最大文本长度
Token Gain（token 增益）：[mem] 向量额外正确解码的 token 数（减去 LLM 自身可预测的）
Information Gain（信息增益）：交叉熵减少量（bit），衡量 [mem] 向量降低不确定性的能力
跨域验证：在自然文本（PG-19 书籍）、新发表文本（2024年后的同人小说）和随机词序列三种文本上验证，证明容量不依赖于文本的可预测性或训练数据记忆。

损失函数 / 训练策略¶

标准 next-token prediction 交叉熵损失
仅优化 [mem] 向量（\(K \times d_{model}\) 个参数），LLM 参数完全冻结
每段文本独立优化，类似 Prompt Tuning 但目标不同

实验关键数据¶

主实验¶

单个 [mem] 向量的解码容量（PG-19 自然文本）：

模型	解码容量(tokens)	Token增益	信息增益(bits)
Pythia-160M	80	70.9	396.4
Pythia-1.4B	160	158.0	792.8
Llama-3.2-1B	512	426.2	2119.9
Llama-3.2-3B	1024	720.3	3292.2
Llama-3.1-8B	1568	1094.1	4865.7

随机文本（无语言模型可预测性）上的结果：

模型	解码容量	Token增益	信息增益
Llama-3.2-1B	316	294.9	2265.2
Llama-3.1-8B	792	623.2	4541.2

消融实验¶

多向量线性扩展：

模型	[mem]数量	可完美解码长度
Pythia-160M	1	80
Pythia-160M	32	2016（接近上下文上限 2048）
Llama-3.2-1B	1	512
Llama-3.2-1B	16	7168

关键发现¶

容量极限由交叉熵决定: 不论文本长度或领域，只要文本的总交叉熵低于模型特有的信息增益阈值，就可完美重建。这个阈值是模型的固有属性。
PG-19 ≈ 同人小说: 可能被训练过的 PG-19 和模型未见过的同人小说压缩表现几乎相同，说明容量不依赖于训练数据记忆
容量线性扩展: 多个 [mem] 向量的容量近似线性增长
架构无关: Mamba（状态空间模型）也展现类似的压缩行为
容量利用率：新模型（Llama, OLMo）比旧模型（Pythia, OPT）利用率更高，可能反映预训练质量

亮点与洞察¶

揭示了惊人的两个数量级差距——现有编码器方法（x10）vs 可达极限（x1500），为未来研究指明了巨大优化空间
信息增益与文本交叉熵的线性关系非常优雅——将压缩极限与信息论直接关联
发现"容量利用率"可能是衡量预训练质量的新指标
一个有趣的推论：《霍比特人》（约 120,000 token）可用 Llama-3.1-8B 压缩到 128 个输入向量

局限性 / 可改进方向¶

逐样本优化计算开销极大，目前不适合实际应用——核心价值在于揭示理论上界
学到的 [mem] 向量的语义结构和表示性质尚不清楚
最大模型仅到 8B，更大模型的 scaling law 未知
随机文本使用词典词而非直接从 tokenizer 采样，可能轻微高估容量
未探索压缩后的向量在下游任务中的直接可用性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 逐样本优化探索容量上界的思路非常新颖，发现震撼
实验充分度: ⭐⭐⭐⭐ 多模型、多数据源、多指标，但缺少更大scale
写作质量: ⭐⭐⭐⭐⭐ 信息论框架严谨，指标定义清晰，可视化出色
价值: ⭐⭐⭐⭐⭐ 为整个上下文压缩领域重新定义了追求目标，指明了巨大的优化空间