Efficient Learned Data Compression via Dual-Stream Feature Decoupling¶

会议: ACL 2026
arXiv: 2604.07239
代码: https://github.com/huidong-ma/FADE
领域: 模型压缩 / 数据压缩
关键词: 学习型数据压缩、双流特征解耦、概率建模、并行流水线、无损压缩

一句话总结¶

本文提出FADE框架，通过双流多尺度解耦器将微观句法和宏观语义特征分离到并行浅层流中处理（取代深层串行堆叠），结合层次化门控精炼器和并发流并行流水线，在压缩率和吞吐量上同时达到SOTA。

研究背景与动机¶

领域现状：学习型数据压缩（LDC）利用深度学习进行概率预测，已显著超越传统方法（Gzip、zstd等）的压缩率。主流方法使用自回归框架——每步预测条件概率分布 \(P(x_t|x_{<t})\)，然后通过熵编码压缩。

现有痛点：存在两个结构性限制——(1) 单一流架构难以同时捕获微观句法（局部N-gram模式）和宏观语义（长距离依赖），迫使使用深层MLP堆叠来近似复杂分布，加剧自回归解码延迟；(2) 异构系统中GPU概率生成和CPU算术编码的速度不匹配导致流水线停滞，而自回归串行解码严格受Amdahl定律约束，阻止并行加速。

核心矛盾：精确的概率建模（高压缩率）需要深层网络，但深层串行执行导致高延迟；通过分析互信息衰减曲线，数据序列确实存在"微观句法"（尖锐的初始衰减）和"宏观语义"（持续的非零尾部）两种不同的依赖模式。单流MLP用共享参数拟合这两种异质特征，导致显著性分布弥散。

本文目标：在保持或提升压缩率的同时，大幅降低延迟和提高吞吐量。

切入角度：从信息论角度分析数据的双重依赖模式，据此设计显式特征解耦——将深层串行替换为浅层并行，同时解决模型和系统两个层面的瓶颈。

核心 idea：用CNN分支捕获微观局部模式、MLP分支捕获宏观全局依赖，通过内容自适应路由器动态融合，再用层次化门控精炼器做实例自适应精炼。

方法详解¶

整体框架¶

FADE包含三个核心创新：(1) 双流多尺度解耦器（DMD）将特征分离到局部CNN流和全局MLP流中并行处理；(2) 层次化门控精炼器（HGR）通过粗细两级精炼实现实例自适应的概率建模；(3) 并发流并行流水线（CSPP）融合数据并行和时序并行，实现零等待处理。

关键设计¶

双流多尺度解耦器（DMD）:
- 功能：将微观句法和宏观语义特征分离到具有不同归纳偏置的并行流中处理，取代深层串行堆叠。
- 核心思路：全局流使用GeGLU-based Rolling Cache捕获长距离依赖——维护一个滚动缓存 \(\bm{M}\)，每步通过 \(\bm{M}_t = \text{Roll}(\bm{M}_{t-1}, \text{GeGLU}(\bm{X}_t))\) 更新；局部流使用1D卷积施加强局部归纳偏置，精确捕获N-gram模式。内容自适应路由器通过Sigmoid门控生成逐维度的混合权重：\(\bm{H}_{\text{mix}} = \bm{\alpha} \odot \bm{H}_{\text{global}} + (1-\bm{\alpha}) \odot \bm{H}_{\text{local}}\)。
- 设计动机：互信息衰减分析和特征显著性热力图证实，单流MLP的显著性分布弥散，无法捕获尖锐的微观句法波动。两个并行浅层流取代一个深层串行流，同时解决了特征干扰和延迟问题。
层次化门控精炼器（HGR）:
- 功能：对DMD融合后的特征进行粗到细的实例自适应精炼，提升概率估计精度。
- 核心思路：两级级联——(a) 粗粒度通道交互：使用批矩阵乘法（BMM）与持久化记忆 \(\bm{W}_U \in \mathbb{R}^{B \times d_h \times d_h}\)，每个batch索引对应固定数据流，通过反向传播演化捕获流特定模式；然后用内容感知自门控 \(\bm{H}_{\text{coarse}} = (\bm{H}_a \odot \sigma(\bm{H}_{\text{mix}} \bm{W}_c)) + \lambda_c \cdot \bm{H}_{\text{mix}}\) 抑制噪声。(b) 细粒度非线性精炼：通过GeGLU和投影进一步精化。
- 设计动机：DMD的全局共享参数难以适应在线压缩中非平稳的特征分布变化。持久化记忆实现了"每个数据流记住自己的模式"，门控机制选择性增强有用特征、抑制噪声。
并发流并行流水线（CSPP）:
- 功能：突破自回归串行约束，实现压缩和解压缩的全流水线并行。
- 核心思路：两个维度的并行——(a) 时序并行：异步ping-pong缓冲解耦GPU和CPU的生产者-消费者线程，零拷贝指针交换消除内存争用；(b) 数据并行：将输入流分割为 \(N\) 个独立子流，每个子流维持内部因果性，\(N\) 个worker通过双屏障协议并发执行，将复杂度从 \(O(B)\) 降至 \(O(B/N)\)。压缩阶段融合两种并行，解压缩阶段因因果性仅用数据并行。
- 设计动机：现有方法在压缩阶段可以利用时序并行，但解压缩阶段因自回归因果性退回串行。CSPP通过子流切分绕过了全局因果依赖，使解压缩速度匹配压缩速度。

损失函数 / 训练策略¶

使用交叉熵损失优化概率预测精度。HGR中的持久化记忆通过在线反向传播适应各数据流的特定模式。

实验关键数据¶

主实验¶

方法	平均压缩率↑	吞吐量	延迟	GPU内存
传统方法 (Gzip/zstd)	低	高	低	—
PAC	中高	中	中	中
SEP	高	中高	中	中高
EDPC	高	高	中低	中低
FADE	最高	最高	最低	最低

消融实验¶

配置	压缩率	吞吐量	说明
Full FADE	最优	最优	完整模型
w/o 局部流	下降	略升	损失微观句法捕获能力
w/o HGR	下降	略升	实例适应性丧失
w/o CSPP	相同	大幅下降	系统并行的重要性

关键发现¶

FADE在压缩率和吞吐量上同时达到SOTA，打破了以往两者之间的trade-off
双流解耦将深层串行替换为浅层并行，显著降低延迟同时提升表达能力
持久化记忆使HGR能在在线压缩中实现流特定的自适应，比全局共享参数更精确
CSPP的数据并行策略使解压缩速度接近压缩速度，解决了长期存在的不对称问题
在文本、音频、图像、视频、浮点和基因组等异构数据上均表现优异

亮点与洞察¶

从信息论分析到架构设计的完整链条：先用互信息衰减和自相似矩阵验证双重依赖模式的存在，再据此设计解耦架构。这种"分析驱动设计"比直觉驱动更有说服力。
浅层并行替代深层串行：在不牺牲表达能力的前提下降低延迟，核心洞察是"分离+专精"优于"统一+堆叠"。
持久化记忆的创新使用：BMM中每个batch索引对应一个可学习的权重矩阵，在在线压缩中通过反向传播不断演化，实现了"记住每个数据流的独特模式"。

局限与展望¶

数据并行需要将输入分割为独立子流，子流间的跨流依赖被忽略
持久化记忆的大小与batch size线性相关，大规模并行时内存开销可能显著
与基于LLM的压缩方法（如LLMZip）相比，压缩率仍有差距，但效率优势巨大
自适应路由器的权重分配策略较简单，可探索更复杂的MoE-style路由

评分¶

新颖性: ⭐⭐⭐⭐ 双流解耦的设计有清晰的理论支撑和实验验证
实验充分度: ⭐⭐⭐⭐⭐ 7个数据集（文本/音频/图像/视频/浮点/基因组/异构），全面覆盖
写作质量: ⭐⭐⭐⭐ 结构清晰，从分析到设计到系统层层递进
价值: ⭐⭐⭐⭐ 同时解决模型和系统两个层面的瓶颈，工程实用性高