TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval¶

日期: 2026-03-03
arXiv: 2603.02929
代码: 无
领域: 多模态/VLM
关键词: 多模态检索, Chain-of-Thought, 自适应推理, 嵌入学习, 零样本泛化

一句话总结¶

TRACE 将生成式 CoT 推理与判别式嵌入学习统一，先生成推理链解析查询意图再压缩为紧凑嵌入，模型自动学会对简单查询跳过推理、对复杂查询激活推理，在 M-BEIR 基准上达到新 SOTA。

领域现状：通用多模态检索需要统一嵌入模型处理从简单关键词到复杂组合指令的多样用户意图。MLLM 已被适配为检索器（UniIR、E5-V、LamRA），但它们只做静态编码。
现有痛点：当前主流方法将 MLLM 视为静态编码器——输入压缩为固定向量，一次前向传播完成。这对复杂意图（如"移除某物体"、"改变视觉属性"）产生认知瓶颈：模型被迫在单次编码中完成多步逻辑推理。
核心矛盾：MLLM 拥有强大的生成推理能力，但编码器范式完全浪费了这个能力。而外部查询扩展/改写（两阶段 pipeline）又打断了视觉感知和逻辑推理的流畅衔接。
切入角度：在编码前先用 MLLM 的生成头产生推理链，将推理过程内化到嵌入过程中。同时让模型自主判断何时需要推理（复杂查询）、何时直接编码（简单查询）。
核心 idea 一句话：用 MLLM 先"想"再"编码"——生成推理链后压缩为嵌入向量，通过隐式路由实现简单查询直达、复杂查询深度推理。

基于 Qwen2.5-VL 构建。输入多模态查询后，模型自回归生成推理序列，最后一个特殊 token <|emb|> 的前一个隐状态作为检索嵌入。训练时同时优化生成损失（CE loss）和检索损失（InfoNCE loss）。

自适应推理路由（涌现行为）：
- M-BEIR-CoT 数据集包含直接编码（\(z=0\)）和推理增强（\(z=1\)）两种样本
- 模型自然学会：简单查询时第一个 token 直接生成 <|emb|>（跳过推理），复杂查询时先生成文本推理链再生成 <|emb|>
- 无需显式门控或架构分支——完全通过自回归概率分布涌现
M-BEIR-CoT 数据集构建：
- Phase 1：GPT-4o 评估查询复杂度，路由到直接编码或推理增强
- Phase 2：为不同检索子任务设计专门的 CoT 提示模板（视觉推理、指令跟随、逻辑推演等）
- Phase 3：规则过滤（格式/长度）+ 模型过滤（语义一致性），最终 575k 推理样本 + 518k 简单样本
- 训练时移除辅助标签（<reasoning>, <answer>），强制自然生成
嵌入提取机制：
- 利用因果注意力特性：<|emb|> 前一个 token 的隐状态负责预测终止标识符
- 该状态自然聚合了整个前序上下文（原始查询 + 生成的 CoT）
- 作为语义瓶颈点，是最优的检索嵌入提取位置

单阶段联合训练：\(\mathcal{L} = \lambda_{gen}\mathcal{L}_{gen} + \lambda_{ret}\mathcal{L}_{ret}\)
生成损失监督推理链质量，检索损失结构化嵌入空间
关键发现：查询侧推理显著提升语义对齐，但候选侧推理会灾难性降低性能

方法	平均提升
LamRA-Ret → TRACE	+2.2% 平均提升
在推理密集任务上提升尤为明显