Decoupling Vision and Language: Codebook Anchored Visual Adaptation¶
会议: CVPR2026
arXiv: 2602.19449
代码: 待确认
领域: 医学图像 / 视觉语言模型
关键词: 离散视觉token, codebook, 视觉编码器适配, 领域迁移, token剪枝, LVLM
一句话总结¶
提出 CRAFT,通过离散 codebook 将视觉编码器与语言模型解耦,仅微调视觉编码器即可实现领域适配,且适配后的编码器可跨 LLM 架构无缝复用,在 10 个领域基准上平均提升 13.51%。
背景与动机¶
- 大型视觉语言模型(LVLM)的视觉编码器在医学图像、细粒度分类等长尾领域表现不佳,编码器的感知错误会级联传导至语言模型,导致错误推理
- 现有适配方法通常修改编码器与 LLM 之间的连续特征接口(投影层调优 / LoRA),二者仍然耦合——每当编码器或 LLM 更换时必须重新对齐
- 同时微调视觉编码器和 LLM 代价高昂且容易遗忘指令跟随能力;领域数据稀缺使问题更加突出
- 仅微调编码器又不够:一旦特征分布偏移,冻结的 LLM 无法正确解读新的视觉嵌入
- 近期离散化 LVLM(VILA-U、Janus 等)展示了离散视觉 token 与连续方案相当甚至更优的性能,提供了一种天然的"共享语言"接口
- 核心问题:能否在不触碰原始 LLM 的前提下完成 LVLM 的领域适配?
方法详解¶
整体框架 — CRAFT (Codebook RegulAted Fine-Tuning)¶
CRAFT 在离散 LVLM 上工作:视觉编码器 \(E_\theta\) 输出连续特征后,通过冻结的共享 codebook \(\mathcal{C}=\{c_k\}_{k=1}^K\) 做最近邻量化得到离散 token 序列,再通过投影器送入冻结的 LLM。训练时仅更新视觉编码器参数。
三部分训练损失¶
- 替代对齐损失 (Surrogate Alignment Loss, \(\mathcal{L}_{\text{SAL}}\)):用一个(可以很小的)替代语言模型 \(\mathcal{M}\) 对图文联合序列做自回归预测,梯度回传至视觉编码器,引导其选择对领域任务有用的 codebook token
- 承诺损失 (Commitment Loss, \(\mathcal{L}_{\text{commit}}\)):保持编码器输出靠近所分配的 codebook 条目,防止特征漂移导致量化失真——codebook 始终冻结,仅编码器端受约束
- 对比损失 (Contrastive Loss, \(\mathcal{L}_{\text{con}}\)):利用图像描述与标签扩展文本,通过 sigmoid 对比学习保持预训练语义结构
总损失:\(\mathcal{L}_{\text{CRAFT}} = \lambda_{\text{con}}\mathcal{L}_{\text{con}} + \lambda_{\text{commit}}\mathcal{L}_{\text{commit}} + \mathcal{L}_{\text{SAL}}\)
其中 VQA 任务 \(\lambda_{\text{con}}=0.1\),分类任务 \(\lambda_{\text{con}}=1.0\);\(\lambda_{\text{commit}}=0.1\)。
量化的不可导通过 straight-through estimator 处理。
测试时 Token 剪枝¶
- 稀有度加权分配:统计训练集上各 codebook 条目的全局频率 \(p_{\text{dom}}(k)\),定义稀有权重 \(\rho_k = 1/p_{\text{dom}}(k)\);高频背景 token 被大幅剪枝,保留信息量高的稀有 token
- 条目内选择:优先保留量化残差大(难以量化、信息丰富)及空间孤立的 token,鼓励空间覆盖多样性
- 通过一维搜索 \(\gamma\) 控制保留比例 \(M/N\),论文默认 keep ratio = 0.8
- 剪枝各组件消融:随机选择 62.10% → 稀有度加权 63.55% → 加残差排序 63.86% → 加空间隔离 64.05%
- 将频率统计从领域数据换成 ImageNet-1K 仅降低 0.04%(64.01%),说明剪枝策略对参考语料库鲁棒
实验关键数据¶
主实验(Table 1,10 个基准,精确匹配准确率 %)¶
| 方法 | 视觉token | PlantVillage | VQARAD | EuroSAT | Cars | Dogs | 10项均值 |
|---|---|---|---|---|---|---|---|
| Zero-shot VILA-U-7B | 离散 | 43.83 | 35.67 | 69.15 | 72.50 | 82.40 | 55.07 |
| Zero-shot VILA-7B | 连续 | 47.20 | 41.67 | 79.48 | 76.30 | 78.33 | 59.89 |
| Vision FT (连续) | 连续 | 62.13 | 43.67 | 67.35 | 86.80 | 71.43 | 61.76 |
| CRAFT (7B surr.) | 离散 | 77.27 | 45.67 | 77.80 | 92.74 | 84.77 | 68.58 |
CRAFT 以 VILA-U-7B 为替代模型时达到最优:平均 68.58%,比 zero-shot 提升 +13.51%,比最强连续基线高 +6.82%。
推理质量保持(Table 2,VQARAD 数据集)¶
| 方法 | 正确率 | 解释存在率 | 相关性 | 忠实度 | Overall |
|---|---|---|---|---|---|
| VILA-LLM-LoRA | 44.65 | 6.34 | 0.26 | 0.25 | -0.98 |
| Projector FT | 44.89 | 4.01 | 0.28 | 0.22 | -0.61 |
| CRAFT | 47.34 | 75.98 | 2.95 | 1.99 | 3.21 |
连续微调方法严重丧失指令跟随与解释能力(Presence 低至 4–6%),CRAFT 保持 76% 的解释生成率。
消融实验(Table 5,VILA-U-7B backbone)¶
| 设置 | VQARAD | Dogs | PlantVillage | IconQA | 均值 |
|---|---|---|---|---|---|
| 去掉 \(\mathcal{L}_{\text{commit}}\) | 10.33 | 16.53 | 25.97 | 3.31 | 14.04 |
| 去掉 \(\mathcal{L}_{\text{SAL}}\) | 37.87 | 83.66 | 75.03 | 15.49 | 53.01 |
| 去掉 \(\mathcal{L}_{\text{con}}\) | 45.13 | 71.57 | 45.69 | 47.24 | 52.41 |
| 完整 CRAFT | 45.67 | 84.77 | 77.27 | 48.50 | 64.05 |
承诺损失最为关键——去掉后性能崩溃至 14%;SAL 对推理任务贡献大,对比损失对分类任务贡献大。
跨 LLM 迁移(Table 3)¶
编码器用 Qwen2-0.5B 训练后直接搭配 Qwen2.5-3B 推理:均值从 46.74% → 59.98%(+13.24%);搭配 Qwen2-1.5B:49.06% → 63.25%(+14.19%)。用 VILA-U-7B 训练的编码器迁移至 Qwen2-1.5B 同样有效(+14.56%),验证了 codebook 级别的模块化可行性。
效率(Table 4)¶
- 使用 Qwen2-0.5B 作为替代模型:显存仅 10.7 GiB(降低 61.6%),训练时间 1.35 min(降低 73.5%)
- 推理端 keep ratio=0.8 时 FLOPs 降低 16%,延迟降低 7%
亮点¶
- 视觉-语言真正解耦:适配后的编码器可即插即用到任何共享同一 codebook 的 LLM(Table 3 验证了 5 个不同架构/规模的推理 backbone),这是连续方案无法实现的
- 零 LLM 遗忘:LLM 完全冻结,不需要额外指令数据防遗忘,保持完整解释与推理能力;在 VQARAD 上解释存在率 76% vs LoRA 的 6%
- 极轻量训练:替代模型可以很小(0.5B),仅训视觉编码器,8 卡 A100 训练仅需数分钟;显存低至 10.7 GiB
- 测试时 token 剪枝:基于频率稀有度的无训练剪枝方案,进一步提升效率和鲁棒性;keep ratio 0.6 以上性能稳定
- 离散 token 的新优势论证:首次系统证明离散视觉 token 支持模块化、可迁移的视觉适配,为离散 LVLM 开辟新应用场景
局限性 / 可改进方向¶
- 依赖于预训练好的离散 codebook(VILA-U 的 16384 条目),codebook 质量和规模是性能上限;Table 6 显示 codebook 缩小到 10% 时均值从 76.71% 降至 32.28%
- 当替代模型能力远弱于推理 backbone 时,部分细粒度任务(Flowers、Dogs)反而会退化——0.5B 替代模型使 Flowers 从 75.80% 降至 72.31%
- 当前 codebook 假定固定不变,未来 codebook 扩展或合并时的向后兼容性尚不明确(作者在 Future Work 中提出此开放问题)
- 仅在分类和 VQA 任务上验证,缺乏开放式生成、目标检测、图像分割等更多任务形态的评估
- 对比损失依赖额外的描述模型生成 caption,增加了数据准备复杂度
- 离散化本身存在信息损失,对需要像素级精度的任务(如分割、检测)可能不适用
与相关工作的对比¶
- Projector FT / Vision FT:仍在连续空间操作,编码器变化后需重新对齐 LLM;CRAFT 通过离散 codebook 天然隔离,编码器迁移零成本
- LLM LoRA:虽然准确率可提升,但严重破坏指令跟随能力(解释存在率低至 ~2%),CRAFT 完全避免此问题,因为 LLM 全程冻结
- LDIFS (Mukhoti et al.):用 \(\ell_2\) 正则化防止 CLIP 特征漂移,但仍在连续空间操作;CRAFT 的 commitment loss 在离散空间实现类似目标且更稳定
- 离散 LVLM (VILA-U, Janus):CRAFT 首次利用离散 codebook 做领域适配而非生成任务,揭示了离散化在模块化和可迁移性方面的独特优势
- 多编码器方案 (InternVL 等):通过叠加额外视觉编码器提升通用性能;CRAFT 则通过微调单一编码器实现领域增强,更轻量且不增加推理参数
评分¶
- 新颖性: ⭐⭐⭐⭐ — 离散 codebook 做视觉-语言解耦适配的思路新颖,视觉编码器跨 LLM 迁移很有吸引力
- 实验充分度: ⭐⭐⭐⭐ — 10 个基准 × 5 个 backbone 的组合评测充分,消融完整,推理质量评测有说服力
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,Figure 1/2 直观对比连续 vs 离散方案,实验组织合理
- 价值: ⭐⭐⭐⭐ — 对医学等资源受限领域的 LVLM 适配具有实用意义,解耦设计降低部署与维护成本