UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark¶

会议: CVPR 2026
arXiv: 2603.05075
代码: 有（项目页）
领域: 音频/语音（多模态基准）
关键词: 多模态基准, 任意到任意, 交错多模态, 评估套件, 智能体模型

一句话总结¶

提出首个统一的任意到任意交错多模态基准 UniM（31K 样本、7 种模态、30 个领域），配套三维评估体系和基于可追溯推理的智能体基线 UniMA，揭示现有 MLLM 在交错多模态范式下的严重不足。

研究背景与动机¶

1. 领域现状¶

多模态大语言模型（MLLM）已从早期的视觉-语言理解快速演进到同时支持理解与生成的统一框架（如 NExT-GPT、AnyGPT、MIO 等），交错多模态学习（interleaved multimodal learning）成为下一代系统的核心能力。

2. 痛点¶

现有交错多模态基准（MMIE、CoMM、ISG-Bench、OpenING 等）存在三个关键缺陷：

模态覆盖窄：仅限文本+图像两种模态，无法评估音频、视频、文档、代码、3D 等更广泛的模态组合
能力评估单一：每个数据实例只测试单一能力，无法反映真实场景中多能力交织的复合推理
领域多样性不足：集中在通用领域，忽视自然科学、社会科学等专业场景

3. 核心矛盾¶

模型能力已扩展到多模态任意到任意转换，但缺乏与之匹配的系统性评估基准——现有基准的评估维度、模态覆盖、难度分级都远远滞后于模型发展。

4. 要解决什么¶

构建一个同时覆盖 多模态（7 种）、多领域（30 个）、多能力（每实例多任务）、多难度（3 级）的统一交错多模态基准，并设计匹配的评估方法和基线模型。

5. 切入角度¶

从真实世界数据出发（公开数据集、社交媒体、维基百科/YouTube 等知识库），构建开放式 QA 格式的大规模交错多模态数据集，输入输出均为任意模态的交错序列。

6. 核心 idea¶

三大贡献：（1）UniM 数据集——首个统一任意到任意交错多模态基准；（2）UniM 评估套件——语义正确性+结构完整性+交错连贯性三维评估；（3）UniMA——基于可追溯证据推理的智能体基线模型。

方法详解¶

整体框架¶

UniM 采用开放式 QA 格式：输入/输出为任意模态组合的交错序列，非文本内容用占位符标签表示（如 <<image1>>、<<video2>>）。数据集包含 31,026 个高质量实例，覆盖 7 种模态（文本、图像、音频、视频、文档、代码、3D），跨越 30 个领域（自然科学、社会科学、通用领域三大类），并按规则划分为 Easy/Medium/Hard 三个难度等级。

关键设计¶

1. 三维评估套件¶

传统指标（如 accuracy）无法应对开放式多模态生成，论文设计了三个互补评估维度：

语义正确性与生成质量（SQCS）： - 做什么：评估生成内容的语义对齐度和感知质量 - 核心思路：将所有模态输出转为类 caption 文本表示，用 LLM-as-Judge 评估语义正确性（SC）；设计模态特定的无参考质量评估（GQ） - 公式：\(\text{SQCS} = \text{SC} \cdot (\eta^{\text{SQCS}} + (1 - \eta^{\text{SQCS}}) \cdot \text{GQ})\)，其中 \(\eta^{\text{SQCS}} = 0.7\)

响应结构完整性（StS/LeS）： - 做什么：评估模型是否遵循任务定义的模态类型和数量要求 - 核心思路：StS（严格结构分数）要求模态类型和占位符数量完全匹配；LeS（宽松结构分数）只要求模态类型覆盖一致 - 设计动机：分离结构合规性与语义正确性，独立衡量模型的指令遵循能力

交错连贯性（ICS）： - 做什么：评估跨模态逻辑连贯性和风格协调性 - 核心思路：\(\text{ICS} = \eta^{\text{ICS}} \cdot \text{HC} + (1 - \eta^{\text{ICS}}) \cdot \text{SH}\)，HC 度量跨模态语义结构一致性，SH 度量写作风格/视觉美学一致性，\(\eta^{\text{ICS}} = 0.8\)

2. 支持率修正（Supporting Rate）¶

做什么：区分模型的绝对能力和相对能力
核心思路：引入支持率 \(\tau\) 作为条件修正，\(\mathcal{X}^{rel} = \tau \cdot \mathcal{X}^{abs}\)，避免因模型不支持某些模态而产生的评估偏差

3. UniMA 智能体基线模型¶

接收模块（Receiving Module）：将非文本模态转换为任务条件密集描述（TCDC），形成统一文本空间。

可追溯证据推理模块（TER）：核心推理引擎，通过四步结构化证据推理链（SERC）： - Step 1：生成 TCDC 和改写问题 → 提升语义正确性 - Step 2：判断是否涉及数据分析 → 调用代码解释器生成数据报告 - Step 3：组织模态内容、文本内容和工具列表 → 分别提升 SQCS、ICS、StS/LeS - Step 4：整合所有证据生成最终报告草稿

关键机制：Checker 检测报告中的事实和逻辑错误，Judger 回溯进行纠正推理，通过迭代的「生成→检查→回溯→重新生成」循环实现可追溯的可靠推理。

生成模块（Generating Module）：根据验证后的最终报告，生成交错多模态输出。

损失函数 / 训练策略¶

UniMA 基于智能体框架构建而非端到端训练，集成专用多模态编码器/解码器，核心依赖 TER 的结构化推理流程而非梯度优化。评估套件中 \(\eta^{\text{SQCS}} = 0.7\)、\(\eta^{\text{ICS}} = 0.8\) 通过与人类评估的最优对齐确定。

实验关键数据¶

主实验¶

表1：语义正确性与生成质量（SQCS）及支持率

领域	模型	SC	GQ	SQCS_abs	τ	SQCS_rel
自然科学	AnyGPT	13.7	37.9	11.1	90.4	10.7
自然科学	NExT-GPT	8.4	23.4	6.2	62.0	2.9
自然科学	MIO	19.7	29.1	15.9	59.2	10.0
自然科学	UniMA	59.8	79.7	57.3	100	57.3
社会科学	AnyGPT	18.0	23.8	15.5	94.7	14.7
社会科学	NExT-GPT	16.8	31.9	13.3	89.0	10.8
社会科学	MIO	25.2	32.8	21.4	80.8	16.1
社会科学	UniMA	76.2	81.0	72.7	100	72.7
通用领域	UniMA	64.7	83.6	62.2	100	62.2

表2：交错连贯性评估（ICS）

领域	模型	HC	SH	ICS_abs	ICS_rel
自然科学	AnyGPT	39.9	46.3	41.8	38.5
自然科学	NExT-GPT	23.5	26.1	24.9	16.3
自然科学	MIO	49.4	63.7	52.1	31.8
自然科学	UniMA	68.4	71.9	69.1	69.1
社会科学	AnyGPT	31.3	35.3	32.1	29.2
社会科学	MIO	46.3	55.0	51.6	42.0
社会科学	UniMA	73.1	76.5	73.8	73.8
通用领域	MIO	68.3	77.7	60.0	45.7
通用领域	UniMA	68.7	74.3	69.8	69.8

消融实验¶

表3：UniMA 消融实验

配置	SQCS	ICS	StS	LeS
UniMA（完整）	85.1	63.4	52.7	82.6
w/o TER	72.9 (-12.2)	56.6 (-6.8)	16.4 (-36.3)	21.8 (-60.8)
w/o TCDC	78.4 (-6.7)	57.7 (-5.7)	46.2 (-6.5)	82.1 (-0.5)
w/o Verification	72.9 (-12.2)	54.7 (-8.7)	38.3 (-14.4)	66.8 (-15.8)

关键发现：移除 TER 导致 StS/LeS 最大幅度下降（-36.3/-60.8），证明可追溯推理对结构完整性至关重要；移除验证子模块导致所有指标全面下降，说明检查-回溯-重生成机制对可靠输出不可或缺。

关键发现¶

现有模型表现极差：基线模型 SQCS 大多低于 20%，NExT-GPT 和 MIO 的 StS/LeS 大多低于 5%，说明现有 MLLM 远未达到交错多模态学习的要求
支持率严重限制相对性能：AnyGPT 通用领域 StS 从 12.5% 降至 9.8%（rel），MIO 自然科学 SQCS 从 15.9% 降至 10.0%（rel），模态支持不全面是核心瓶颈
领域差异显著：社会科学 SQCS 最高（常见概念+描述性推理），通用领域 ICS 最高（开放域数据更匹配训练分布），自然科学表现最差（需精确术语+结构化逻辑）
UniMA 大幅领先：StS/LeS 比 AnyGPT 高 2-6 倍，比 NExT-GPT/MIO 高 15-40 倍
难度敏感性：只有 UniMA 表现出与难度一致的性能梯度，基线模型在最简单任务上就已失败，无法区分任务复杂度

亮点与洞察¶

问题定义价值大：首次系统化定义"任意到任意交错多模态学习"并提供完整评测框架，填补了 7 模态/30 领域/多难度级别的评估空白
评估套件设计精巧：SQCS/StS-LeS/ICS 三维度解耦了语义、结构、连贯性，与人类评估的 Pearson 相关系数高达 0.974/0.960
支持率修正机制（\(\tau\)）公平处理了模型模态支持不完整的问题，兼顾绝对能力和相对能力
TER 模块设计：证据可追溯 + 检查回溯机制在 agentic 框架中有效提升了结构化输出质量

局限性 / 可改进方向¶

UniMA 本质是 agentic pipeline（多模块拼接），非端到端统一模型，其优势部分来自工程集成而非模型能力突破
7 种模态中代码（2.6%）和 3D（1.4%）占比极低，评估这两类模态的代表性存疑
评估强依赖 LLM-as-Judge，引入了评估模型自身的偏差
缺少人类基线性能（human performance），难以判断 UniMA 的 ~60% SQCS 在绝对意义上达到什么水平
数据扩展部分使用 GPT-5-mini 生成候选实例，可能引入合成数据偏差

评分¶

⭐⭐⭐⭐ 重要的基准工作，首次系统化定义和评测任意到任意交错多模态学习，数据规模大、评估设计周到，但 UniMA 基线偏工程化，核心贡献在数据集和评估方法而非模型创新。