跳转至

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

会议: ICLR 2026
arXiv: 2603.03583
代码: 未公开
领域: NLP / tokenizer-free LM(被分到 segmentation 分区)
关键词: byte-level LM, tokenizer-free, coding rate, hierarchical architecture, self-tokenization

一句话总结

提出 ByteFlow Net,一种无需分词器的分层字节级语言模型,利用信息论中的编码率(coding rate)自适应地将原始字节流压缩为语义单元,在预训练损失和下游任务上超越 BPE 基线和已有字节级架构。

背景与动机

  1. 现代 LLM 依赖固定的 BPE 分词器,一旦训练完成只能在固定粒度上操作
  2. 固定分词导致计数、算术、结构化数据、多语言等场景下的脆弱行为
  3. 分词是流水线中唯一不可学习的阶段,打破了端到端建模
  4. 已有无分词方案:纯字节级模型(序列太长计算昂贵)、启发式分块(固定步长/空格边界,inductive bias 强)
  5. 动态分块方法(BLT 用熵阈值)需要多阶段训练,非真正端到端
  6. 缺乏原则性的方法来引导 FLOPs 的动态分配

方法详解

架构: 五阶段分层结构——Local Encoder → Downsampling → Global Transformer → Upsampling → Decoder

Local Encoder: - 浅而窄的 Transformer,使用滑动窗口注意力(SWA) + Canon Layer 实现高效字节级 token mixing - Canon Layer: 类似 kernel=4 的 causal conv1d,促进局部信息传播

Coding-Rate Chunking (核心创新): - 计算每个位置的边际编码率 \(\Delta R_t = R_\varepsilon(h_{1:t}) - R_\varepsilon(h_{1:t-1})\) - 编码率高的位置 = 信息增益大 = 自然分割边界 - 选择 Top-K 个最高 \(\Delta R_t\) 位置作为 chunk 边界,保持静态计算图 - 避免了全局阈值带来的动态长度和 OOM 问题

Global Transformer: 深而宽,在压缩后的 \(K \ll T\) 序列上做全注意力(主要 FLOPs 集中于此)

Upsampling: 多线性重构 + 大残差连接,将全局表示映射回字节级

Decoder: 与 Local Encoder 对称,做 next-byte prediction

实验关键数据

模型 (1.3B, 500B tokens) HellaSwag WinoGrande BoolQ Avg
LLaMA (BPE) 54.12 53.74 73.26 60.15
AU-Net 50.34 54.12 73.85 60.59
ByteFlow Net 55.42 56.93 76.48 63.19
  • 600M 规模:ByteFlow 平均 50.89 vs LLaMA 49.15 vs AU-Net 49.38
  • 1.3B 规模优势更明显:ByteFlow 63.19 vs LLaMA 60.15(+3.04)
  • BPB 指标上也一致优于 BPE 基线和其他字节级方法
  • 展现出优越的 scaling 行为

亮点

  • 原则性分块: 用信息论编码率替代启发式规则,chunking 有理论依据
  • 完全端到端: 无需预训练分词器或单独的熵模型
  • 计算效率: 大部分 FLOPs 分配给全局 Transformer 处理压缩表示,字节级处理轻量化
  • 静态计算图: Top-K 选择避免动态长度带来的 GPU 批处理问题

局限性

  • 仅在学术规模(≤1.3B)验证,未展示在更大规模下的表现
  • 只在 FineWeb-Edu 上预训练,未验证多语言/代码等场景
  • 编码率计算涉及 log det 运算,实际训练开销未详细讨论
  • 与分词 LLM 在大规模下的差距是否收敛仍不确定

相关工作

  • MegaByte/SpaceByte/AU-Net: 启发式分块的分层字节级模型
  • BLT: 用预训练熵模型做动态分块,非完全端到端
  • H-Net: 并行工作,用余弦相似度做分块
  • MambaByte: 纯字节级 SSM 模型

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (编码率驱动的自分割,理论优雅)
  • 实验充分度: ⭐⭐⭐ (规模较小,下游 benchmark 有限)
  • 写作质量: ⭐⭐⭐⭐ (清晰,理论动机阐述充分)
  • 价值: ⭐⭐⭐⭐ (无分词器 LM 方向的重要进展)