ICML 2025 医学图像 Vision AutoRegressive VAR微调 LoRA 差分隐私参数高效微调图像生成 DiffFit

Implementing Adaptations for Vision AutoRegressive Model¶

会议: ICML 2025
arXiv: 2507.11441
代码: https://github.com/sprintml/finetuning_var_dp
领域: 图像生成 / 差分隐私
关键词: Vision AutoRegressive, VAR微调, LoRA, 差分隐私, 参数高效微调, 图像生成, DiffFit

一句话总结¶

本文首次系统实现并评测了Vision AutoRegressive（VAR）模型的各种适配方法（FFT/LoRA/LNTuning）及差分隐私适配，发现VAR在非DP场景下显著超越扩散模型适配（DiffFit），收敛速度更快、计算效率更高，但DP适配性能仍然不佳，揭示了隐私保护图像生成领域的重要研究空白。

研究背景与动机¶

Vision AutoRegressive（VAR）模型近期被提出作为扩散模型（DM）在图像生成领域的强力替代。VAR将"下一个token预测"转变为"下一个尺度预测"，从低分辨率到高分辨率逐步生成2D token网格，速度更快。然而：

适配方法缺失：扩散模型已有丰富的微调技术（DiffFit、DreamBooth、Textual Inversion），但VAR的适配方法几乎未被探索。

差分隐私适配空白：当微调数据为敏感数据（如医学影像）时，需要隐私保护。DP适配已在DM上广泛研究，VAR尚无此类方案。

实现层面的挑战：VAR原始代码库的注意力算子和前向函数需要打补丁才能引入LoRA和DP-SGD。

核心动机：弥合图像自回归模型与扩散模型在模型适配和隐私保护方面的差距。

方法详解¶

整体框架¶

围绕预训练VAR模型（ImageNet-1K class-conditional, 256×256），系统实现三种适配策略：

Full Fine-Tuning (FFT)：更新模型全部参数
LoRA：在自注意力的Q/K/V和投影层插入低秩矩阵 \(\Delta W = BA\)，\(r=16\), \(\alpha=2r\)
LayerNorm Tuning (LNTuning)：仅更新Adaptive LayerNorm模块的参数

关键设计¶

1. VAR适配¶

LoRA实现： - 目标模块：自注意力的query、key、value矩阵及投影层 - 同时微调Adaptive LayerNorm模块 - 低秩分解：\(\Delta W \in \mathbb{R}^{d \times k}\)，\(\Delta W = BA\)，\(B \in \mathbb{R}^{d \times r}\)，\(A \in \mathbb{R}^{r \times k}\)，\(r \ll \min(d,k)\)

LNTuning实现： - 仅更新Adaptive LayerNorm模块中新引入的可训练参数 - 所有其他权重冻结

实现挑战：VAR原始注意力算子需要打补丁才能引入LoRA适配器（详见附录F）。

2. 差分隐私适配¶

使用DP-SGD算法：

\(\theta_{i+1} = \theta_i - \eta \left(\frac{1}{L}\sum_{k=1}^{L} \text{clip}(g(x_k)) + \mathcal{N}(0, \sigma^2 C^2 I)\right)\)

其中 \(\text{clip}(g(x_k)) = g(x_k) / \max(1, \|g(x_k)\|_2 / C)\)

增强多重性（Augmentation Multiplicity）：对每个样本生成 \(k\) 个增强视图，平均其梯度以提高信噪比。

实现挑战：需要解决VAR代码中模型特定buffer和非标准前向函数的问题。

评估指标¶

FID（Fréchet Inception Distance）：量化生成质量
PFLOPs：量化计算成本

实验关键数据¶

主实验：VAR vs DiffFit（FID↓）¶

模型	方法	Food-101	CUB-200	Oxford Flowers	Stanford Cars	可训练参数
DiT-XL-2	DiffFit	6.96	5.48	20.18	9.90	0.83M (0.12%)
VAR d16	FFT	6.11	5.74	12.08	7.42	309.6M
VAR d16	LoRA	6.94	7.84	13.18	8.87	6.02M (1.91%)
VAR d20	FFT	5.38	5.58	11.65	6.31	599.7M
VAR d20	LoRA	6.97	6.29	11.16	9.42	9.42M (1.54%)

关键发现： - VAR FFT在所有数据集上全面超越DiffFit - VAR LoRA在多数数据集上也可超越或匹配DiffFit - VAR收敛极快：仅需数千步即达到最终FID，而扩散模型需要长时间训练

差分隐私适配（Oxford Flowers, LoRA）¶

模型	\(k=1\)	\(k=128\)
VAR-d16	69.92	63.24
VAR-d20	68.92	59.29

不同\(\epsilon\)下的DP-LoRA（\(k=32\)）：

模型	\(\epsilon=1\)	\(\epsilon=10\)	\(\epsilon=100\)	\(\epsilon=1000\)
VAR-d16	196.52	60.24	41.63	35.36
VAR-d20	160.33	63.38	43.35	35.06

关键发现： - DP微调下模型难以收敛，需要极高\(\epsilon\)值才能获得可接受的生成质量 - 增强多重性（\(k=128\)）仅带来适度改善，但计算成本增加128倍 - LoRA在DP场景下优于LNTuning，可能因为可训练参数更少

计算成本¶

FFT的计算成本最高（Food-101上约为PEFT的4.5倍）
LNTuning计算成本最低
LoRA在性能和成本间取得最佳平衡

亮点与洞察¶

首个VAR适配系统基准：弥补了图像自回归模型在模型适配方面的评估空白
收敛速度优势：VAR在少量更新步后即收敛，对比DM需要大量扩展训练——这源于VAR确定性预测目标（无输入噪声随机性）
DP适配的挑战揭示：DP-SGD的梯度裁剪+噪声注入对VAR的影响比DM更严重，开辟了新的研究方向
开源代码的实用价值：公开了所有适配方法的实现和补丁，降低了后续研究的门槛

局限性¶

仅在class-conditional VAR上评估，未涉及text-conditional或unconditional设置
DP适配性能不佳，尚未找到有效解决方案
仅评估256×256分辨率，高分辨率场景未探索
增强多重性改善有限且计算开销巨大

评分¶

⭐⭐⭐ — 工作扎实且开源代码有实用价值，但主要贡献在于"实现和基准测试"而非方法创新。DP适配性能不佳的问题被指出但未解决。作为首个VAR适配基准，具有奠基性意义，但深度和新颖性有限。