IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models¶

会议: ICML2025
arXiv: 2410.21759
代码: csguoh/IntLoRA
领域: 扩散模型量化
关键词: LoRA, 网络量化, 扩散模型, 低秩适配, 整数运算, 推理加速

一句话总结¶

提出 IntLoRA，通过整数型低秩参数实现量化扩散模型的微调，合并权重后无需额外 PTQ 即可直接获得量化推理权重，兼顾训练与推理效率。

研究背景与动机¶

大规模文本到图像扩散模型（如 Stable Diffusion、SDXL、FLUX）在个性化生成任务中表现出色，但全参数微调在消费级 GPU 上受限于显存。LoRA 和量化技术的结合（如 QLoRA）已可在量化权重上直接微调，降低了训练成本。

核心问题：现有方法在训练时使用 FP16 的低秩参数，合并时需将量化的预训练权重转回 FP16，部署时再做一次 PTQ。这个流程存在两大缺陷：

流程冗余：训练→反量化→合并→再量化，额外 PTQ 步骤增加了部署复杂度

性能下降严重：低比特（如 4-bit）下 PTQ 导致显著质量退化（DINO 从 0.48 降至 0.21）

根本原因在于预训练权重（INT）与适配权重（FP16）的算术类型不一致，导致合并后权重必须回到浮点域。

方法详解¶

IntLoRA 的核心思想：让低秩适配参数也工作在整数域，使合并后的权重天然为量化格式。包含三项关键技术：

1. 适配-量化分离（AQS）¶

原始 LoRA 将 \(\mathbf{AB}\) 零初始化以保持微调起点与预训练一致，但全零分布对量化不友好（缩放因子 \(s=0\) 导致除零）。AQS 引入辅助矩阵 \(\mathbf{R}\) 将梯度与量化解耦：

\[\mathbf{W'} = \mathcal{Q}[\mathbf{W} - \text{sg}(\mathbf{R})] + \text{sg}(\mathbf{R}) + \mathbf{AB}\]

其中 \(\text{sg}(\cdot)\) 为停止梯度操作。\(\mathbf{AB}\) 仍零初始化保持原始 LoRA 梯度，而 \(\text{sg}(\mathbf{R}) + \mathbf{AB}\) 提供非零分布便于量化。\(\mathbf{R}\) 可通过分布统计和固定随机种子在线生成，无需额外存储。

2. 乘法低秩适配（MLA）¶

原始 LoRA 采用加法形式 \(\mathbf{W} + \mathbf{AB}\)，当两者独立量化后无法直接合并（需共享量化器，限制参数空间）。MLA 将加法重写为等价的乘法形式：

\[\mathbf{W'} = \underbrace{\left[s \cdot \mathbf{I} + \frac{1}{\mathbf{W}_{\text{round}} - z} \odot (\mathbf{R} + \mathbf{AB})\right]}_{\text{适配项（可训练）}} \odot \underbrace{(\mathbf{W}_{\text{round}} - z)}_{\text{预训练项（整数）}}\]

适配项与预训练项可使用独立量化器，消除了共享量化参数的约束。

3. 方差匹配控制（VMC）¶

辅助矩阵 \(\mathbf{R}\) 的方差 \(\sigma_\mathbf{R}\) 存在选择困境：过大则量化后无法重建原始 \(\mathbf{W}\)，过小则适配项分布不够集中于零附近。VMC 通过方差比对齐：

\[\mathbf{R}^* = r^\alpha \cdot \mathbf{R}, \quad r = \frac{\sigma_\mathbf{W}}{\sigma_\mathbf{R}}\]

标量 \(\alpha\) 作为精细调节指数，在量化难度与信息保留之间取得平衡。

两种实现版本¶

IntLoRA_MUL（整数乘法）：对适配项施加均匀仿射量化，合并通过整数 Hadamard 乘积完成：

\[\mathbf{W'} = \bar{s} \cdot (\mathbf{U}_{\text{round}} - \bar{z}) \odot (\mathbf{W}_{\text{round}} - z)\]

IntLoRA_SHIFT（位移）：对适配项施加 \(\log_2\) 量化，通过位移操作完成适配：

\[\mathbf{W'} = \text{sign}(\mathbf{V}) \odot [(\mathbf{W}_{\text{round}} - z) \gg \text{shift}]\]

训练时使用 STE（直通估计器）反向传播量化梯度。

实验关键数据¶

主体驱动生成（DreamBooth, SD v1.5）¶

方法	位宽	DINO↑	CLIP-I↑	CLIP-T↑
LoRA (FP16)	W16A16	0.4828	0.6968	0.2954
QLoRA	W8A8	0.4153	0.6661	0.2824
IR-QLoRA	W8A8	0.4070	0.6630	0.2841
IntLoRA_MUL	W8A8	0.4498	0.6882	0.2858
QLoRA	W4A8	0.2136	0.6134	0.2510
QA-LoRA	W4A8	0.4127	0.6897	0.2700
IntLoRA_MUL	W4A8	0.4242	0.6913	0.2710

可控生成 FID↓（ControlNet）¶

方法	8-bit S2I	8-bit L2F	4-bit S2I	4-bit L2F
LoRA (FP16)	31.39	37.50	31.39	37.50
QLoRA	31.09	38.88	71.75	117.37
IR-QLoRA	31.81	36.30	35.83	39.63
IntLoRA_MUL	31.08	37.52	30.87	33.62

训练与推理效率（SD v1.5, RTX 3090）¶

方法	位宽	训练速度	模型大小	需要PTQ
LoRA	W32A32	0.68s/img	7700MB	✔
QLoRA	W8A8	0.85s/img	1925MB	✔
IntLoRA_MUL	W8A8	0.87s/img	1925MB	✘
QLoRA	W4A8	0.85s/img	963MB	✔

IntLoRA 训练速度与 QLoRA 持平，但推理时省去 PTQ 步骤，直接获得量化权重。

亮点与洞察¶

消除推理 PTQ：核心贡献在于将适配参数转为整数运算，合并后权重天然量化，端到端免 PTQ
MLA 的数学等价性：从加法到乘法的重构保持数学等价，却解耦了预训练与适配的量化器约束
AQS 梯度-量化解耦：巧妙利用 stop-gradient 分离"学习需要零初始化"与"量化需要非零分布"的矛盾
VMC 理论分析扎实：从方差-相关系数的 trade-off 出发推导最优辅助矩阵，有数学依据
辅助矩阵零存储开销：\(\mathbf{R}\) 通过固定种子在线生成，不增加模型存储
4-bit 场景优势显著：QLoRA 在 W4A8 下 DINO 暴跌至 0.21，IntLoRA 维持 0.42，gap 巨大

局限与展望¶

仅验证扩散模型：未在 LLM 上验证，尽管技术上可迁移，泛化性待考察
训练速度未加速：训练阶段 STE 和辅助矩阵引入额外计算，速度并未优于 QLoRA
\(\alpha\) 超参搜索：VMC 中的指数 \(\alpha\) 需要针对不同任务搜索，自动化程度不足
激活量化仍为PTQ：论文聚焦权重量化，激活量化仍用传统方案，未一体化解决
IntLoRA_SHIFT 表现弱于 IntLoRA_MUL：\(\log_2\) 量化精度受限，实际优势主要来自 MUL 版本

评分¶

新颖性: ⭐⭐⭐⭐ 加法→乘法重构+AQS解耦+VMC调控三件套设计精巧
实验充分度: ⭐⭐⭐⭐ 覆盖主体生成/可控生成/风格定制三任务，含消融分析
写作质量: ⭐⭐⭐⭐ 数学推导清晰，图示直观，问题定义明确
价值: ⭐⭐⭐⭐ 解决量化LoRA落地的实际痛点，4-bit场景优势突出