From Signal Degradation to Computation Collapse: Uncovering the Two Failure Modes of LLM Quantization¶

会议: ACL 2026
arXiv: 2604.19884
代码: 无
领域: 模型量化 / 可解释性
关键词: 后训练量化, 信号退化, 计算崩溃, 机械可解释性, 因果追踪, 知识召回, PTQ

一句话总结¶

本文通过系统的机械可解释性分析，揭示LLM量化存在两种质性不同的失败模式：4-bit的信号退化（Signal Degradation，计算模式完整但精度受损，可局部修复）和2-bit的计算崩溃（Computation Collapse，关键组件功能性破坏，需结构重建）。

研究背景与动机¶

领域现状: 后训练量化（PTQ）是LLM高效部署的关键技术。4-bit量化被广泛认为是精度与压缩的最佳平衡点，而2-bit量化通常会触发灾难性的"性能悬崖"——准确率骤降至接近零。

现有痛点: 现有研究集中于三个方向：(1) 宏观评估（测量性能下降幅度）；(2) 算法改进（离群值抑制、旋转矩阵等数值优化）；(3) 初步机械探索（层/组件敏感性分析）。三者共同局限在于将量化损害视为"数值问题"，未深入探究模型内部机制为何失败。

核心矛盾: 2-bit的灾难性失败究竟是4-bit退化的"量变"积累，还是代表了一种质变？如果是质变，则意味着当前所有基于数值优化的修复策略在2-bit上从根本上就走错了方向。

本文目标: 通过系统的机械可解释性分析（层级信息流、因果路径、组件功能、表示空间），揭示量化失败的内在机制差异，并验证不同失败模式对应不同的修复策略。

切入角度: 将量化失败类比为信号处理问题——信号是被噪声削弱了（退化）还是计算管道本身坏了（崩溃）？

核心idea: 4-bit和2-bit的失败不是程度之别而是本质之别。信号退化可通过定向的无训练修复恢复，计算崩溃则需要结构重建（如微调），这一差异是区分两种模式最有力的证据。

方法详解¶

整体框架: 以Llama-3.1-8B为主要分析对象，在事实知识召回任务（Pararel）上系统对比FP16/4-bit/2-bit的内部行为。通过四层分析建立假说并验证：宏观现象 → 层级探测 → 因果分析 → 组件/表示验证 → 机制导向干预。

关键设计:

多层次知识信号追踪
- 功能: 追踪知识信号在模型内部的存在状态和因果传递完整性
- 核心思路: 使用Logit Lens逐层投影隐状态到词表空间，观察正确token的概率/排名变化。4-bit下信号在中后层出现但强度减弱（退化）；2-bit下信号始终接近零（缺失）。跨模型因果激活修补进一步验证：将FP16"干净"激活注入量化模型的关键位置（最后主语token），4-bit可恢复但2-bit完全无响应
- 设计动机: 区分"信号变弱"和"信号从未产生"两种根本不同的内部状态，是建立两种模式假说的核心证据
组件级功能性诊断（注意力+FFN键值记忆）
- 功能: 定位失败发生在具体哪些组件及其失败方式
- 核心思路: 注意力层面用归一化熵（全局集中度）+ JSD散度（焦点偏离度）；FFN层面用门控符号翻转率（SFR，>30%表示严重不稳定）、Top-1%激活神经元Jaccard重叠（≈0.1表示激活完全错位）和输出余弦相似度（≈0表示语义方向完全偏离）。2-bit在所有指标上显示组件功能性崩溃
- 设计动机: 将宏观的"信号缺失"归因到具体的组件功能失效，确认是精度损失还是功能丧失
机制感知的两阶段修复 vs 系统不可逆性验证
- 功能: 验证两种模式的可修复性存在根本差异
- 核心思路: 对4-bit设计"源保护+信号恢复"：保护前几层（Llama/Mistral用8-bit保留前2层，~4.25 avg bits；Qwen/Gemma用峰度选择，~4.1 avg bits）+ 峰值信号放大（α倍logit放大）。2-bit下同样策略和EORA低秩补偿均无效。"多米诺实验"显示仅量化前2层即导致100%→41.65%
- 设计动机: 可修复性的差异是区分两种模式最直接、最有力的实用证据

实验关键数据¶

4-bit修复实验（Failure Subset上的准确率）:

模型	Baseline(4-bit)	+基础修复	+信号放大(最终)
Llama3.1-8B	0.00%	67.91%	75.19% (α=3)
Mistral-7B	0.00%	66.86%	81.26% (α=9)
Qwen3-8B	0.00%	40.24%	79.88% (α=7)
Gemma2-9B	0.00%	33.85%	64.08% (α=2)

2-bit"多米诺效应"（Llama3.1-8B）:

量化层数	Robust子集	Failure子集
无(FP16)	100.00%	100.00%
Layer 0	65.47%	15.03%
Layers 0-1	41.65%	5.29%
Layers 0-5	2.51%	0.38%

表示空间结构分析: - 4-bit: CKA保持清晰对角结构，激活子空间与FP16相似度>0.8 - 2-bit: CKA几乎全暗（结构崩溃），激活子空间相似度≈0 - 4-bit误差子空间与信号对齐度≈0.3（类似随机噪声） - 2-bit误差子空间与信号对齐度≈0.8（直接干扰主特征）

关键发现: - 4-bit是"答案排名下降"（正确答案仍在Top-5），2-bit是"排名崩溃"（降至数千位，等同随机猜测） - 架构依赖的退化模式：Llama/Mistral呈"早期表示瓶颈"，Qwen/Gemma呈"均匀退化" - 2-bit模型即使接收高精度信号输入也无法正确处理——组件本身已失效 - 跨GPTQ和AWQ两种量化方法，两种失败模式的区分一致

亮点与洞察¶

质性区分的框架价值: 首次系统证明4-bit和2-bit不是同一连续谱上的不同程度，而是两种根本不同的失败模式
诊断→修复的完整闭环: 机制分析直接指导修复策略设计，且修复有效性差异反过来验证了诊断
"多米诺实验"极具说服力: 2-bit仅量化前2层就导致灾难性崩溃，且30层FP16后续层无法恢复，直观展示了计算崩溃的不可逆性
误差方向分析洞察深刻: 2-bit的量化误差与信号子空间高度对齐意味着噪声不是随机的，而是系统性地破坏了模型的核心特征

局限与展望¶

聚焦weight-only量化，activation量化的失败模式待研究
评估锚定在事实回忆任务，复杂推理任务中的表现待验证
修复策略需要额外精度开销（~4.1-4.25 avg bits），实用性待优化
两种模式的边界（3-bit行为）值得深入研究
不同模型架构的失败模式分界点可能不同

评分¶

新颖性: ★★★★★ — 两种失败模式的系统区分和验证是全新且重要的贡献
实验充分度: ★★★★★ — 4个模型、多层次分析、多指标验证，证据链完整
写作质量: ★★★★★ — 从现象→假设→验证→干预层层递进，叙事极为清晰
价值: ★★★★☆ — 为量化研究提供了重要的诊断框架和机制洞见