Quant Experts: Token-aware Adaptive Error Reconstruction for Large VLM Quantization¶

会议: CVPR 2026
arXiv: 2602.24059
代码: 待确认
领域: 模型压缩 / 多模态VLM
关键词: PTQ量化, MoE, VLM, token感知, 自适应补偿, 低秩适配器

一句话总结¶

揭示VLM中重要通道的分布和出现频率在跨模态和token间差异显著，提出基于MoE的token感知PTQ框架：共享专家补偿全局token无关误差，路由专家自适应补偿局部token依赖误差，72B模型W4A6恢复5.09%精度。

VLM PTQ中，现有方法依赖静态识别和全局补偿敏感通道，但重要通道的位置不固定——不同模态和token的重要通道分布差异巨大。少数通道在多数token中出现（token无关），多数通道仅在特定token中激活（token依赖）。

需区分token无关和token依赖两类重要通道，采用不同补偿策略。全局补偿无法应对token级动态性。

校准数据统计通道频率 → 划分token无关/依赖通道 → SE用whitened SVD重建全局误差 → REs根据NPMI共现聚类+谱聚类分组，每组配低秩适配器 → 路由器动态选最优专家

误差重建目标\(\min\|(E-\tilde{E})x\|_F\)；可选细化：逐层16epochs, AdamW lr=1e-4；SVD总秩=64

模型/设置	QE Avg↑	LQER	MBQ	全精度
Qwen2VL-2B W4A6	58.74	55.92	54.73	62.97
InternVL2-8B W4A6	68.13	65.29	65.00	70.60
Qwen2VL-72B W4A6 MMMU/OCR	58.11/76.60	52.33/59.60	52.67/69.70	61.44/78.70

MoE引入额外参数和计算；聚类数需设定
→ 与 ideas/20260316_attention_aware_quant.md 和 ideas/20260316_svd_quant_dense_prediction_vlm.md 密切相关

vs SmoothQuant/AWQ: 静态通道缩放忽略token差异；vs LQER: 全局低秩统一处理；vs MBQ: 模态级不到token级

Token感知量化可直接启发dense prediction VLM量化；MoE低秩框架可扩展到检测/分割backbone