MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model¶

会议: CVPR 2026
arXiv: 2602.06393
代码: https://github.com/naver-ai/muco (有)
领域: 多模态VLM
关键词: 多模态嵌入, 对比学习, 多轮对话, 检索, 多模态大语言模型

一句话总结¶

MuCo 提出了一种基于多轮对话的对比学习框架，利用 MLLM 的对话能力在单次前向传播中同时处理多个关联的 query-target 对，大幅提升训练效率，并在 MMEB 和 M-BEIR 检索基准上取得 SOTA 性能。

研究背景与动机¶

领域现状：通用多模态嵌入模型（Universal Multimodal Embedding Models）基于多模态大语言模型（MLLM）构建，通常采用对比学习来对齐不同模态间 query-target 对的表征。这类模型在图文检索、视觉问答检索等任务中取得了显著成功。

现有痛点：现有方法建立在"单轮（single-turn）"范式上——每个 query-target 对被视为独立的数据点。这带来了两个核心问题：(1) 计算效率低下，每个 pair 需要单独的前向传播；(2) 忽略了与同一上下文（如同一张图像）关联的多个查询之间的潜在语境关系。

核心矛盾：MLLM 天生具有多轮对话能力，但现有多模态嵌入训练范式完全未利用这一特性。单轮范式导致有效 batch size 受限，且无法捕捉同一图像关联的多个语义维度之间的共享上下文信息。

本文目标：设计一种训练框架，能在单次前向传播中处理与同一图像关联的多组 query-target 对，同时提取多个嵌入表征，从而放大有效 batch size 并增强跨模态表征的连贯性。

切入角度：作者观察到 MLLM 在推理阶段本身就支持多轮对话，每一轮的回答均条件化于共享的上下文。如果将嵌入学习的每个 query-target 对类比为对话中的一轮交互，就可以在一次前向中提取多个嵌入。

核心 idea：将对比学习从"单轮独立"升级为"多轮对话"，在 MLLM 的单次前向传播中同时编码多个关联的 query 和 target，共享图像上下文表征，实现训练效率和表征质量的双重提升。

方法详解¶

整体框架¶

MuCo 的整体 pipeline 如下：输入一张图像及其关联的多个 query-target 对（如不同维度的描述、不同粒度的问答），将它们组织成多轮对话的形式，送入 MLLM 进行单次前向传播。模型在每轮对话结束时提取 EOS token 作为该轮的嵌入表征，最终得到多个 query 嵌入和 target 嵌入。所有嵌入在对比学习框架下进行批内负采样训练。

关键设计¶

多轮对比学习（Multi-Turn Contrastive Learning）:
- 功能：将传统单轮独立的 query-target 对比学习升级为多轮共享上下文的联合训练
- 核心思路：给定一张图像 \(I\) 和 \(K\) 个关联的 query-target 对 \(\{(q_k, t_k)\}_{k=1}^K\)，将它们组织为多轮对话输入 MLLM。每轮的 query 和 target 分别编码为嵌入向量，所有 \(K\) 个嵌入在一次前向传播中同时获得。这等效于将有效 batch size 放大了 \(K\) 倍，因为每个样本贡献 \(K\) 个对比对，而非传统方法中的 1 个
- 设计动机：利用 MLLM 对话机制中的 KV-cache 共享，避免重复编码图像上下文，大幅降低计算开销。同时多轮间的上下文依赖帮助模型学到更连贯的多维度表征
M3T 多模态多轮数据集（Multimodal Multi-Turn Dataset）:
- 功能：为多轮对比学习提供训练数据
- 核心思路：构建了一个包含 500 万样本的多模态多轮数据集 M3T。每个样本包含一张图像和多个关联的 query-target 对，涵盖图文检索、视觉问答、图像描述等多种任务类型。数据集通过从现有数据源整合和扩展生成，确保同一图像关联的多个 pair 覆盖不同语义维度
- 设计动机：现有多模态嵌入训练数据集均为单轮格式，无法直接用于多轮对比学习。M3T 填补了这一空白，为大规模多轮训练提供基础
嵌入提取与归一化策略:
- 功能：从 MLLM 的多轮输出中高效提取可比较的嵌入向量
- 核心思路：采用 EOS token pooling 策略，在每轮对话结束位置提取 token 表征作为该轮的嵌入。对提取的嵌入进行 L2 归一化后用于对比损失计算。在推理时，模型既支持单轮查询（兼容已有 benchmark），也支持多轮批量查询
- 设计动机：EOS pooling 天然对应对话中每轮回复的结束，语义最为完整；归一化确保嵌入空间的几何一致性

损失函数 / 训练策略¶

MuCo 使用标准的 InfoNCE 对比损失，但其有效 batch size 被放大了 \(K\) 倍（\(K\) 为每样本的轮数）。具体地，对于 batch 中所有样本的所有轮次提取的 query-target 对，使用批内负采样进行对比学习。训练采用 DeepSpeed 进行分布式训练，支持 2B 和 7B 两种模型规模。

实验关键数据¶

主实验¶

基准	指标	MuCo-2B	MuCo-7B	之前SOTA	提升
MMEB	Avg Score	70.1	74.2	~69	+1.1 / +5.2
M-BEIR	Recall@10	-	SOTA	-	显著提升

消融实验¶

配置	MMEB Score	说明
Single-turn baseline	~68	传统单轮对比学习
MuCo (K=2)	~69.5	每样本2轮对话
MuCo (K=4)	70.1	每样本4轮对话，最佳配置
MuCo w/o M3T	~68.5	不使用 M3T 数据集
MuCo full (7B)	74.2	完整配置 + 大模型

关键发现¶

多轮对比学习带来的提升随轮数 \(K\) 增加而增长，但存在饱和点，约 4 轮为最优平衡
M3T 数据集的多轮格式对性能提升至关重要，仅用多轮框架但单轮数据效果有限
2B 模型已达 70.1 分，7B 模型进一步提升到 74.2，表明框架在不同规模上均有效
训练效率显著提升：相比处理 \(K\) 倍数量的单轮样本，MuCo 减少了约 \((K-1)/K\) 的图像编码计算量

亮点与洞察¶

对话即批量的思路非常巧妙：把 MLLM 的多轮对话能力重新诠释为"批量嵌入提取"，概念简单但效果显著，且几乎无额外架构修改
共享图像上下文的设计天然鼓励模型学到图像的多面性表征，不同 query 关注同一图像的不同语义维度，有助于学到更丰富的嵌入空间
这种思路可以迁移到任何基于 MLLM 的嵌入学习场景，如文档检索、代码检索等——只要能为同一上下文构造多组 query-target 对

局限与展望¶

多轮训练要求每个样本有多个高质量的 query-target 对，数据构造成本较高
当前 M3T 数据集的规模和多样性仍有提升空间，更大规模的多轮数据可能带来进一步收益
论文主要在检索任务上验证，在生成式任务（如 VQA 生成、图像描述）上的嵌入质量有待探索
多轮之间的顺序是否影响嵌入质量？论文未深入分析轮次排列的敏感性

评分¶

新颖性: ⭐⭐⭐⭐ 多轮对话对比学习的视角新颖，但技术实现相对直接
实验充分度: ⭐⭐⭐⭐ 在 MMEB 和 M-BEIR 两个主流基准上验证，但消融分析可以更细致
写作质量: ⭐⭐⭐⭐ 方法阐述清晰，动机逻辑链完整
价值: ⭐⭐⭐⭐ 提供了多模态嵌入训练效率提升的通用方案，实用性强