Scaling Language-Centric Omnimodal Representation Learning¶

会议: NeurIPS 2025
arXiv: 2510.11693
代码: GitHub
领域: 多模态VLM
关键词: 多模态表示学习, 对比学习, MLLM嵌入, 跨模态对齐, 生成-表示缩放律

一句话总结¶

提出 LCO-Emb 框架，发现多模态大模型（MLLM）在生成式预训练中已隐式建立跨模态对齐，仅需轻量级的纯文本对比学习微调即可激活全模态表示能力，并发现生成能力与表示性能正相关的 Generation-Representation Scaling Law (GRSL)。

现有痛点：领域现状：跨模态表示对齐是多模态AI的核心课题。传统方法（如CLIP）依赖大规模配对数据的对比学习来实现视觉-语言对齐，但在多语言检索、视觉文本理解、交错多模态编码等复杂任务上性能趋于饱和。

核心痛点：

CLIP范式的瓶颈：CLIP风格模型靠扩大模型、数据、batch size来提升，但对深层跨模态理解任务效果有限

MLLM嵌入优势的黑箱问题：近期基于MLLM的嵌入方法表现优于CLIP，但为什么更好缺乏深入分析

多模态训练数据需求庞大：现有最优方法（如GME）需要800万对多模态配对数据

核心洞察：MLLM在生成式预训练过程中，语言解码器学会了在共享表示空间中利用多模态信号来生成单模态输出，因此已经隐式地实现了跨模态对齐。对比学习只需要作为轻量的"激活"步骤，而非从头学习对齐。

LCO-Emb 的核心思路非常简洁：取出 MLLM 的语言解码器（LLM），用纯文本对比学习 + LoRA 微调，再插回原始 MLLM 架构中。冻结模态编码器和投影器，仅更新解码器的 LoRA 参数。

隐式跨模态对齐的发现与验证
- 通过各向异性（Anisotropy）分析证明：原始 MLLM 表示空间存在退化（高各向同性度），纯文本对比学习后，不仅文本嵌入变得各向同性，图像、音频、视频嵌入也同步改善
- 通过核级相似性（Kernel-level Similarity）分析证明：纯文本微调后，图像与语言模态间的 kNN 重合度显著提升，且 7B 模型比 3B 有更强的跨模态核对齐
Language-Centric 对比学习策略
- 仅使用文本配对数据（all-NLI 的 27.6 万三元组）进行 InfoNCE 对比学习
- 采用 LoRA 而非全参微调，核心目的不是参数效率，而是最小化对预训练权重的扰动，保留已建立的跨模态对齐结构
- 可选: 加入约 9.4 万条合成多模态配对数据做校准，共 37 万样本
多模态变体与模型融合
- 分别在不同数据集上微调（all-NLI 侧重语义相似性，Scale-1M 侧重多语言和场景描述），通过 Model Soup 权重平均融合取各自优势
- 支持 LLaVA-Next、Qwen2.5-VL、Qwen2.5-Omni 多种 MLLM 骨干

模型	数据量	检索(en)	聚类	零样本分类	线性探查	组合性	文档理解	vSTS(en)	均分
CLIP-ViT-bigG (2B)	-	34.2	80.8	72.4	77.8	35.0	35.5	73.4	51.3
GME (7B)	8.0M	37.9	69.6	55.5	68.7	52.2	86.1	81.8	64.5
LCO-Emb-VL (7B, 文本)	276k	31.8	52.7	49.1	68.5	40.4	66.0	88.4	60.4
LCO-Emb-Omni (7B, 多模态)	370k	36.4	80.0	68.5	74.1	50.1	75.4	86.2	68.8

训练策略	GPU小时	多语言检索	vSTS(en)	文档理解	线性探查	均分
CLIP-style CL (多模态800K)	~550h	18.24	73.92	44.89	38.93	50.02
Full-Finetune (纯文本)	~17.3h	44.05	83.15	58.02	53.34	66.49
LoRA (纯文本)	~9.3h	56.64	85.05	67.49	53.91	71.98

最重要的洞察：对比学习在 MLLM 上的角色不是"学习对齐"，而是"激活对齐"——MLLM 已经在生成预训练中隐式建立了跨模态对齐，对比学习只是把表示空间从各向异性退化中"唤醒"
GRSL (Generation-Representation Scaling Law)：模型的生成能力越强，经对比微调后的表示性能上界越高。这一关系通过 PAC-Bayesian 框架给出了理论解释——生成损失 \(\mathcal{L}_g(P)\) 决定了表示性能的上界
LoRA 的新视角：LoRA 的核心价值不是参数效率，而是对预训练知识和跨模态对齐的最小扰动
极致的数据效率：仅 27.6 万文本对即可超过使用 800 万多模态数据的 GME