Unifying Vision-Language Latents for Zero-Label Image Caption Enhancement¶

会议: NeurIPS 2025
arXiv: 2510.12931
代码: 暂无
领域: 多模态VLM
关键词: 零标签学习, 图像描述, 视觉-语言对齐, 联合嵌入, 自监督

一句话总结¶

本文提出ViZer框架，通过统一视觉-语言潜空间对齐的训练范式，在无任何文本标注的情况下提升VLM的图像描述能力——仅使用原始图像数据就能让模型生成更接地、更描述性的caption。

研究背景与动机¶

视觉语言模型（VLM）在大规模图像-文本预训练后取得了出色表现，但它们对标注数据的依赖限制了可扩展性，同时留下了大量未标注图像数据被闲置。这种标注稀缺不仅约束了训练范围，还导致视觉编码器和语言模型之间的持续性不匹配——即使在SOTA系统中也会产生幻觉、事实错误的caption和不一致的多模态推理。

表征学习领域的进展（如JEPA、DINO）展示了在不依赖像素重建或密集监督的情况下，通过预测式潜空间建模可以学到更鲁棒、泛化性更强的特征。然而，这些方法主要面向视觉表征学习，并未直接用于生成接地的caption或同步跨模态语义。

核心矛盾在于：当前的对齐策略（如CLIP的对比学习、Q-Former的可学习查询）通常在预训练阶段静态完成，在与下游LLM集成时不会持续调整对齐。这留下了一个表征上的鸿沟——视觉和语言模型各自强大，但潜空间没有被直接共适应。

ViZer的切入角度是：能否在训练过程中主动对齐视觉和语言表征，从而在无标注数据的情况下提升VLM性能？这不是简单的自监督特征学习，而是直接优化跨模态对齐以服务生成式图像描述任务。

方法详解¶

整体框架¶

ViZer在冻结的视觉编码器和VLM的隐层特征空间之间引入一个轻量级映射器（mapper），通过对比损失训练该映射器实现视觉特征和文本特征的对齐。VLM本身使用LoRA微调，训练信号来自ViZer mapper提供的对齐损失——无需任何文本标签。

关键设计¶

ViZer映射器（Alignment Mapper）:
- 定义映射函数 \(M_\tau(\cdot) = h_\tau(f_\psi(\cdot))\)，其中 \(h\) 是MLP（将文本嵌入变换到视觉特征空间），\(f_\psi\) 是VLM的transformer层（不含LM头）
- 视觉特征 \(F_I = V_\theta(I)\) 直接从冻结视觉编码器提取
- 文本特征通过映射器处理：\(\hat{F}_T = M_\tau(E_\phi(x_{:t}))\)
- 参数高效，可随数据集或模型规模灵活扩展
- 设计动机：受联合嵌入原理启发，学习视觉和语言嵌入间的双向映射，不同于静态投影层，ViZer在训练中持续优化对齐
两种映射器变体（ViZer\(_{\text{GT}}\) 和 ViZer\(_{\text{G}}\)）:
- ViZer\(_{\text{GT}}\)：映射器在真实图像-文本对上训练，图像caption作为文本输入
- ViZer\(_{\text{G}}\)：完全零标签——映射器使用VLM自身生成的caption训练，\(\hat{F}_T = M_\tau(f_\psi(V_\theta(I) \circ E_\phi(P))_{t+1:})\)，其中 \(P\) 是caption提示
- 只有ViZer\(_{\text{G}}\)是真正的无监督零标签方案
- 设计动机：ViZer\(_{\text{G}}\)通过模型自身生成的caption建立对齐，形成自我改进的闭环
零标签VLM训练:
- VLM使用LoRA微调（rank=32, alpha=64），仅在未标注的OpenImagesV7数据上训练
- 损失函数为余弦相似度：\(\mathcal{L}_{\text{zero}} = 1 - \frac{F_I \cdot \hat{F}_T}{\|F_I\| \times \|\hat{F}_T\|}\)
- 使用LoRA避免干扰预训练能力，可通过关闭LoRA恢复原始零样本性能
- 设计动机：通过对齐的潜空间提供梯度信号替代缺失的文本标签，让VLM在无标注数据上自我提升

损失函数 / 训练策略¶

Mapper和VLM各训练1个epoch
使用AdamW优化器，weight decay 0.01
Mapper深度固定为2层MLP，宽度可变（最优256）
Mapper在COCO+CC3M混合数据上训练，VLM严格在无标签的OpenImagesV7上训练
所有训练在单张RTX 4090 (24GB)上完成

实验关键数据¶

主实验¶

方法	模型	COCO BLEU1	COCO CIDEr	COCO CLIPS	CC3M CLIPS
Base	SmolVLM	0.3784	0.276	0.2529	0.2617
RL	SmolVLM	0.3623	0.255	0.2506	0.2604
ViZer\(_{\text{GT}}\)	SmolVLM	0.5564	0.505	0.2569	0.2647
ViZer\(_{\text{G}}\)	SmolVLM	0.4081	0.337	0.2571	0.2636
Base	Qwen2-VL	0.5249	0.521	0.2693	0.2766
ViZer\(_{\text{G}}\)	Qwen2-VL	0.5373	0.470	0.2744	0.2774

消融实验（Mapper超参数，SmolVLM-Base）¶

ViZer变体	数据量	宽度	COCO BLEU1	COCO CIDEr	说明
ViZer\(_{\text{GT}}\)	10k	256	0.4064	0.342	数据量少但效果不错
ViZer\(_{\text{GT}}\)	40k	256	0.4169	0.355	最优配置
ViZer\(_{\text{GT}}\)	100k	256	0.4161	0.354	过多数据无额外增益
ViZer\(_{\text{G}}\)	10k	256	0.4112	0.313	ViZer\(_{\text{G}}\)偏好更少数据
ViZer\(_{\text{G}}\)	40k	256	0.3662	0.254	数据增多反而退化

关键发现¶

CLIPScore在所有ViZer变体上持续提升，表明图像-caption语义一致性确实增强
传统指标（BLEU、CIDEr）提升有限甚至不升反降——因为ViZer生成的caption包含更多参考caption中不存在的正确细节，被当作"错误"惩罚
定性评估显示ViZer显著改善：将"ITAP of an airplane"提升为"ITAP of an airplane flying over power lines"；将"\<PERSON> in 2008"改为"Woman surfing in the ocean"
小数据反而更好：ViZer\(_{\text{GT}}\)的最优数据量约40k，ViZer\(_{\text{G}}\)仅需约10k，过多数据导致mapper过拟合
RL baseline（使用奖励模型）效果甚微，因为奖励信号倾向于保守更新以保护预训练表征

亮点与洞察¶

范式突破：证明了VLM可以仅通过未标注图像数据自我提升caption能力，开创了视觉-语言领域的零标签增强训练数据路
评估指标反思：深刻揭示了CIDEr/BLEU等参考依赖指标的局限性——它们惩罚正确但超出参考范围的细节，这对自监督方法极不公平
架构通用性：ViZer可即插即用地集成到任何使用视觉编码器的VLM架构，训练仅需单张24GB GPU

局限与展望¶

当baseline caption质量极差时，ViZer改进有限（如消防站的年份猜测）
目前仅验证了图像描述任务，向VQA扩展存在挑战——VQA关注局部区域而非全局语义
缺乏合适的自动化评估指标——需要开发不依赖参考文本且具有图像理解能力的评估方法
在分布外图像（医学、卫星等）上的表现未知

评分¶

新颖性: ⭐⭐⭐⭐ 零标签caption训练是新颖方向，但思路上是联合嵌入/对比学习在VLM上的自然延伸
实验充分度: ⭐⭐⭐ 定量结果有限（指标不适用），主要靠定性比较；在更大模型和更多任务上的验证不足
写作质量: ⭐⭐⭐⭐ 动机清晰，对评估指标局限性的讨论深入，但某些设计决策的解释可更充分
价值: ⭐⭐⭐⭐ 为利用海量未标注图像数据提升VLM提供了实用路径，对标注稀缺场景有直接应用价值