Decoupling Vision and Language: Codebook Anchored Visual Adaptation¶

会议: CVPR2026
arXiv: 2602.19449
代码: 待确认
领域: 医学图像 / 视觉语言模型
关键词: 离散视觉token, codebook, 视觉编码器适配, 领域迁移, token剪枝, LVLM

一句话总结¶

提出 CRAFT，通过离散 codebook 将视觉编码器与语言模型解耦，仅微调视觉编码器即可实现领域适配，且适配后的编码器可跨 LLM 架构无缝复用，在 10 个领域基准上平均提升 13.51%。

背景与动机¶

大型视觉语言模型（LVLM）的视觉编码器在医学图像、细粒度分类等长尾领域表现不佳，编码器的感知错误会级联传导至语言模型，导致错误推理
现有适配方法通常修改编码器与 LLM 之间的连续特征接口（投影层调优 / LoRA），二者仍然耦合——每当编码器或 LLM 更换时必须重新对齐
同时微调视觉编码器和 LLM 代价高昂且容易遗忘指令跟随能力；领域数据稀缺使问题更加突出
仅微调编码器又不够：一旦特征分布偏移，冻结的 LLM 无法正确解读新的视觉嵌入
近期离散化 LVLM（VILA-U、Janus 等）展示了离散视觉 token 与连续方案相当甚至更优的性能，提供了一种天然的"共享语言"接口
核心问题：能否在不触碰原始 LLM 的前提下完成 LVLM 的领域适配？

方法详解¶

整体框架 — CRAFT (Codebook RegulAted Fine-Tuning)¶

CRAFT 在离散 LVLM 上工作：视觉编码器 \(E_\theta\) 输出连续特征后，通过冻结的共享 codebook \(\mathcal{C}=\{c_k\}_{k=1}^K\) 做最近邻量化得到离散 token 序列，再通过投影器送入冻结的 LLM。训练时仅更新视觉编码器参数。

三部分训练损失¶

替代对齐损失 (Surrogate Alignment Loss, \(\mathcal{L}_{\text{SAL}}\))：用一个（可以很小的）替代语言模型 \(\mathcal{M}\) 对图文联合序列做自回归预测，梯度回传至视觉编码器，引导其选择对领域任务有用的 codebook token
承诺损失 (Commitment Loss, \(\mathcal{L}_{\text{commit}}\))：保持编码器输出靠近所分配的 codebook 条目，防止特征漂移导致量化失真——codebook 始终冻结，仅编码器端受约束
对比损失 (Contrastive Loss, \(\mathcal{L}_{\text{con}}\))：利用图像描述与标签扩展文本，通过 sigmoid 对比学习保持预训练语义结构

总损失：\(\mathcal{L}_{\text{CRAFT}} = \lambda_{\text{con}}\mathcal{L}_{\text{con}} + \lambda_{\text{commit}}\mathcal{L}_{\text{commit}} + \mathcal{L}_{\text{SAL}}\)

其中 VQA 任务 \(\lambda_{\text{con}}=0.1\)，分类任务 \(\lambda_{\text{con}}=1.0\)；\(\lambda_{\text{commit}}=0.1\)。

量化的不可导通过 straight-through estimator 处理。

测试时 Token 剪枝¶

稀有度加权分配：统计训练集上各 codebook 条目的全局频率 \(p_{\text{dom}}(k)\)，定义稀有权重 \(\rho_k = 1/p_{\text{dom}}(k)\)；高频背景 token 被大幅剪枝，保留信息量高的稀有 token
条目内选择：优先保留量化残差大（难以量化、信息丰富）及空间孤立的 token，鼓励空间覆盖多样性
通过一维搜索 \(\gamma\) 控制保留比例 \(M/N\)，论文默认 keep ratio = 0.8
剪枝各组件消融：随机选择 62.10% → 稀有度加权 63.55% → 加残差排序 63.86% → 加空间隔离 64.05%
将频率统计从领域数据换成 ImageNet-1K 仅降低 0.04%（64.01%），说明剪枝策略对参考语料库鲁棒

实验关键数据¶

主实验（Table 1，10 个基准，精确匹配准确率 %）¶

方法	视觉token	PlantVillage	VQARAD	EuroSAT	Cars	Dogs	10项均值
Zero-shot VILA-U-7B	离散	43.83	35.67	69.15	72.50	82.40	55.07
Zero-shot VILA-7B	连续	47.20	41.67	79.48	76.30	78.33	59.89
Vision FT (连续)	连续	62.13	43.67	67.35	86.80	71.43	61.76
CRAFT (7B surr.)	离散	77.27	45.67	77.80	92.74	84.77	68.58

CRAFT 以 VILA-U-7B 为替代模型时达到最优：平均 68.58%，比 zero-shot 提升 +13.51%，比最强连续基线高 +6.82%。

推理质量保持（Table 2，VQARAD 数据集）¶

方法	正确率	解释存在率	相关性	忠实度	Overall
VILA-LLM-LoRA	44.65	6.34	0.26	0.25	-0.98
Projector FT	44.89	4.01	0.28	0.22	-0.61
CRAFT	47.34	75.98	2.95	1.99	3.21

连续微调方法严重丧失指令跟随与解释能力（Presence 低至 4–6%），CRAFT 保持 76% 的解释生成率。

消融实验（Table 5，VILA-U-7B backbone）¶

设置	VQARAD	Dogs	PlantVillage	IconQA	均值
去掉 \(\mathcal{L}_{\text{commit}}\)	10.33	16.53	25.97	3.31	14.04
去掉 \(\mathcal{L}_{\text{SAL}}\)	37.87	83.66	75.03	15.49	53.01
去掉 \(\mathcal{L}_{\text{con}}\)	45.13	71.57	45.69	47.24	52.41
完整 CRAFT	45.67	84.77	77.27	48.50	64.05

承诺损失最为关键——去掉后性能崩溃至 14%；SAL 对推理任务贡献大，对比损失对分类任务贡献大。

跨 LLM 迁移（Table 3）¶

编码器用 Qwen2-0.5B 训练后直接搭配 Qwen2.5-3B 推理：均值从 46.74% → 59.98%（+13.24%）；搭配 Qwen2-1.5B：49.06% → 63.25%（+14.19%）。用 VILA-U-7B 训练的编码器迁移至 Qwen2-1.5B 同样有效（+14.56%），验证了 codebook 级别的模块化可行性。

效率（Table 4）¶

使用 Qwen2-0.5B 作为替代模型：显存仅 10.7 GiB（降低 61.6%），训练时间 1.35 min（降低 73.5%）
推理端 keep ratio=0.8 时 FLOPs 降低 16%，延迟降低 7%

亮点¶

视觉-语言真正解耦：适配后的编码器可即插即用到任何共享同一 codebook 的 LLM（Table 3 验证了 5 个不同架构/规模的推理 backbone），这是连续方案无法实现的
零 LLM 遗忘：LLM 完全冻结，不需要额外指令数据防遗忘，保持完整解释与推理能力；在 VQARAD 上解释存在率 76% vs LoRA 的 6%
极轻量训练：替代模型可以很小（0.5B），仅训视觉编码器，8 卡 A100 训练仅需数分钟；显存低至 10.7 GiB
测试时 token 剪枝：基于频率稀有度的无训练剪枝方案，进一步提升效率和鲁棒性；keep ratio 0.6 以上性能稳定
离散 token 的新优势论证：首次系统证明离散视觉 token 支持模块化、可迁移的视觉适配，为离散 LVLM 开辟新应用场景

局限性 / 可改进方向¶

依赖于预训练好的离散 codebook（VILA-U 的 16384 条目），codebook 质量和规模是性能上限；Table 6 显示 codebook 缩小到 10% 时均值从 76.71% 降至 32.28%
当替代模型能力远弱于推理 backbone 时，部分细粒度任务（Flowers、Dogs）反而会退化——0.5B 替代模型使 Flowers 从 75.80% 降至 72.31%
当前 codebook 假定固定不变，未来 codebook 扩展或合并时的向后兼容性尚不明确（作者在 Future Work 中提出此开放问题）
仅在分类和 VQA 任务上验证，缺乏开放式生成、目标检测、图像分割等更多任务形态的评估
对比损失依赖额外的描述模型生成 caption，增加了数据准备复杂度
离散化本身存在信息损失，对需要像素级精度的任务（如分割、检测）可能不适用

与相关工作的对比¶

Projector FT / Vision FT：仍在连续空间操作，编码器变化后需重新对齐 LLM；CRAFT 通过离散 codebook 天然隔离，编码器迁移零成本
LLM LoRA：虽然准确率可提升，但严重破坏指令跟随能力（解释存在率低至 ~2%），CRAFT 完全避免此问题，因为 LLM 全程冻结
LDIFS (Mukhoti et al.)：用 \(\ell_2\) 正则化防止 CLIP 特征漂移，但仍在连续空间操作；CRAFT 的 commitment loss 在离散空间实现类似目标且更稳定
离散 LVLM (VILA-U, Janus)：CRAFT 首次利用离散 codebook 做领域适配而非生成任务，揭示了离散化在模块化和可迁移性方面的独特优势
多编码器方案 (InternVL 等)：通过叠加额外视觉编码器提升通用性能；CRAFT 则通过微调单一编码器实现领域增强，更轻量且不增加推理参数

评分¶

新颖性: ⭐⭐⭐⭐ — 离散 codebook 做视觉-语言解耦适配的思路新颖，视觉编码器跨 LLM 迁移很有吸引力
实验充分度: ⭐⭐⭐⭐ — 10 个基准 × 5 个 backbone 的组合评测充分，消融完整，推理质量评测有说服力
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，Figure 1/2 直观对比连续 vs 离散方案，实验组织合理
价值: ⭐⭐⭐⭐ — 对医学等资源受限领域的 LVLM 适配具有实用意义，解耦设计降低部署与维护成本