ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer¶
会议: ICLR 2026
arXiv: 2603.03583
代码: 未公开
领域: NLP / tokenizer-free LM(被分到 segmentation 分区)
关键词: byte-level LM, tokenizer-free, coding rate, hierarchical architecture, self-tokenization
一句话总结¶
提出 ByteFlow Net,一种无需分词器的分层字节级语言模型,利用信息论中的编码率(coding rate)自适应地将原始字节流压缩为语义单元,在预训练损失和下游任务上超越 BPE 基线和已有字节级架构。
背景与动机¶
- 现代 LLM 依赖固定的 BPE 分词器,一旦训练完成只能在固定粒度上操作
- 固定分词导致计数、算术、结构化数据、多语言等场景下的脆弱行为
- 分词是流水线中唯一不可学习的阶段,打破了端到端建模
- 已有无分词方案:纯字节级模型(序列太长计算昂贵)、启发式分块(固定步长/空格边界,inductive bias 强)
- 动态分块方法(BLT 用熵阈值)需要多阶段训练,非真正端到端
- 缺乏原则性的方法来引导 FLOPs 的动态分配
方法详解¶
架构: 五阶段分层结构——Local Encoder → Downsampling → Global Transformer → Upsampling → Decoder
Local Encoder: - 浅而窄的 Transformer,使用滑动窗口注意力(SWA) + Canon Layer 实现高效字节级 token mixing - Canon Layer: 类似 kernel=4 的 causal conv1d,促进局部信息传播
Coding-Rate Chunking (核心创新): - 计算每个位置的边际编码率 \(\Delta R_t = R_\varepsilon(h_{1:t}) - R_\varepsilon(h_{1:t-1})\) - 编码率高的位置 = 信息增益大 = 自然分割边界 - 选择 Top-K 个最高 \(\Delta R_t\) 位置作为 chunk 边界,保持静态计算图 - 避免了全局阈值带来的动态长度和 OOM 问题
Global Transformer: 深而宽,在压缩后的 \(K \ll T\) 序列上做全注意力(主要 FLOPs 集中于此)
Upsampling: 多线性重构 + 大残差连接,将全局表示映射回字节级
Decoder: 与 Local Encoder 对称,做 next-byte prediction
实验关键数据¶
| 模型 (1.3B, 500B tokens) | HellaSwag | WinoGrande | BoolQ | Avg |
|---|---|---|---|---|
| LLaMA (BPE) | 54.12 | 53.74 | 73.26 | 60.15 |
| AU-Net | 50.34 | 54.12 | 73.85 | 60.59 |
| ByteFlow Net | 55.42 | 56.93 | 76.48 | 63.19 |
- 600M 规模:ByteFlow 平均 50.89 vs LLaMA 49.15 vs AU-Net 49.38
- 1.3B 规模优势更明显:ByteFlow 63.19 vs LLaMA 60.15(+3.04)
- BPB 指标上也一致优于 BPE 基线和其他字节级方法
- 展现出优越的 scaling 行为
亮点¶
- 原则性分块: 用信息论编码率替代启发式规则,chunking 有理论依据
- 完全端到端: 无需预训练分词器或单独的熵模型
- 计算效率: 大部分 FLOPs 分配给全局 Transformer 处理压缩表示,字节级处理轻量化
- 静态计算图: Top-K 选择避免动态长度带来的 GPU 批处理问题
局限性¶
- 仅在学术规模(≤1.3B)验证,未展示在更大规模下的表现
- 只在 FineWeb-Edu 上预训练,未验证多语言/代码等场景
- 编码率计算涉及 log det 运算,实际训练开销未详细讨论
- 与分词 LLM 在大规模下的差距是否收敛仍不确定
相关工作¶
- MegaByte/SpaceByte/AU-Net: 启发式分块的分层字节级模型
- BLT: 用预训练熵模型做动态分块,非完全端到端
- H-Net: 并行工作,用余弦相似度做分块
- MambaByte: 纯字节级 SSM 模型
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (编码率驱动的自分割,理论优雅)
- 实验充分度: ⭐⭐⭐ (规模较小,下游 benchmark 有限)
- 写作质量: ⭐⭐⭐⭐ (清晰,理论动机阐述充分)
- 价值: ⭐⭐⭐⭐ (无分词器 LM 方向的重要进展)