ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer¶

会议: ICLR 2026
arXiv: 2603.03583
代码: 未公开
领域: NLP / tokenizer-free LM（被分到 segmentation 分区）
关键词: byte-level LM, tokenizer-free, coding rate, hierarchical architecture, self-tokenization

一句话总结¶

提出 ByteFlow Net，一种无需分词器的分层字节级语言模型，利用信息论中的编码率(coding rate)自适应地将原始字节流压缩为语义单元，在预训练损失和下游任务上超越 BPE 基线和已有字节级架构。

背景与动机¶

现代 LLM 依赖固定的 BPE 分词器，一旦训练完成只能在固定粒度上操作
固定分词导致计数、算术、结构化数据、多语言等场景下的脆弱行为
分词是流水线中唯一不可学习的阶段，打破了端到端建模
已有无分词方案：纯字节级模型（序列太长计算昂贵）、启发式分块（固定步长/空格边界，inductive bias 强）
动态分块方法（BLT 用熵阈值）需要多阶段训练，非真正端到端
缺乏原则性的方法来引导 FLOPs 的动态分配

方法详解¶

架构: 五阶段分层结构——Local Encoder → Downsampling → Global Transformer → Upsampling → Decoder

Local Encoder: - 浅而窄的 Transformer，使用滑动窗口注意力(SWA) + Canon Layer 实现高效字节级 token mixing - Canon Layer: 类似 kernel=4 的 causal conv1d，促进局部信息传播

Coding-Rate Chunking (核心创新): - 计算每个位置的边际编码率 \(\Delta R_t = R_\varepsilon(h_{1:t}) - R_\varepsilon(h_{1:t-1})\) - 编码率高的位置 = 信息增益大 = 自然分割边界 - 选择 Top-K 个最高 \(\Delta R_t\) 位置作为 chunk 边界，保持静态计算图 - 避免了全局阈值带来的动态长度和 OOM 问题

Global Transformer: 深而宽，在压缩后的 \(K \ll T\) 序列上做全注意力（主要 FLOPs 集中于此）

Upsampling: 多线性重构 + 大残差连接，将全局表示映射回字节级

Decoder: 与 Local Encoder 对称，做 next-byte prediction

实验关键数据¶

模型 (1.3B, 500B tokens)	HellaSwag	WinoGrande	BoolQ	Avg
LLaMA (BPE)	54.12	53.74	73.26	60.15
AU-Net	50.34	54.12	73.85	60.59
ByteFlow Net	55.42	56.93	76.48	63.19

600M 规模：ByteFlow 平均 50.89 vs LLaMA 49.15 vs AU-Net 49.38
1.3B 规模优势更明显：ByteFlow 63.19 vs LLaMA 60.15（+3.04）
BPB 指标上也一致优于 BPE 基线和其他字节级方法
展现出优越的 scaling 行为

亮点¶

原则性分块: 用信息论编码率替代启发式规则，chunking 有理论依据
完全端到端: 无需预训练分词器或单独的熵模型
计算效率: 大部分 FLOPs 分配给全局 Transformer 处理压缩表示，字节级处理轻量化
静态计算图: Top-K 选择避免动态长度带来的 GPU 批处理问题

局限性¶

仅在学术规模(≤1.3B)验证，未展示在更大规模下的表现
只在 FineWeb-Edu 上预训练，未验证多语言/代码等场景
编码率计算涉及 log det 运算，实际训练开销未详细讨论
与分词 LLM 在大规模下的差距是否收敛仍不确定

评分¶

新颖性: ⭐⭐⭐⭐⭐ (编码率驱动的自分割，理论优雅)
实验充分度: ⭐⭐⭐ (规模较小，下游 benchmark 有限)
写作质量: ⭐⭐⭐⭐ (清晰，理论动机阐述充分)
价值: ⭐⭐⭐⭐ (无分词器 LM 方向的重要进展)