Mario: Multimodal Graph Reasoning with Large Language Models¶

会议: CVPR 2026
arXiv: 2603.05181
代码: 即将公开
领域: 图学习
关键词: 多模态图, LLM推理, 视觉语言对齐, 模态自适应路由, 指令微调

一句话总结¶

提出 Mario，针对多模态图（MMG）上的 LLM 推理，通过图条件视觉语言模型（GVLM）实现拓扑感知的跨模态对齐，再用模态自适应提示路由器（MAPR）为每个节点选择最优模态配置，在节点分类和链接预测上达到 SOTA。

研究背景与动机¶

现有多模态 LLM 处理独立图文对，忽略了现实中多模态数据间的关系结构。多模态图（MMG）中每个节点有文本+图像属性、边提供结构先验。直接用 VLM（如 CLIP）编码再送图模型存在两个挑战：

C1 弱跨模态一致性：节点的图文不一定语义同步，邻居信息可以消歧但被忽略。CLIP 冻结时的跨模态余弦相似度低，加入图拓扑后提升 68%。

C2 异质模态偏好：不同节点的信息量在不同模态上不同。约 30% 节点只能被某种特定模态配置正确分类。一刀切的提示模板浪费信息。

开放问题¶

能否设计一个统一框架，在 LLM 推理中同时解决 MMG 上的跨模态不一致和异质模态偏好？

方法详解¶

整体框架¶

Stage 1（GVLM）：双塔编码器 + 拓扑感知多模态混合器 → 图条件对比学习 → 结构感知跨模态一致表示。 Stage 2（模态自适应指令微调）：构建文本/图像/多模态三种提示模板 → MAPR 路由器选择最优模板 → LLM 推理。

关键设计¶

拓扑感知多模态混合器：在每个编码层，从全图收集各节点的 CLS 表示，通过带图结构位置偏置的多头注意力聚合邻居信息，再将结构感知的 CLS 重新注入 token 序列替代原 CLS。逐层迭代实现结构+模态的深度融合。
图条件对比学习：对结构感知的文本/图像 CLS 嵌入做双向 InfoNCE： \(\mathcal{L}_{\text{S1}} = -\frac{1}{|\mathcal{B}|}\sum_v [\log\frac{e^{s(v,v)/\tau}}{\sum_u e^{s(v,u)/\tau}} + \log\frac{e^{s(v,v)/\tau}}{\sum_u e^{s(u,v)/\tau}}]\)
模态自适应提示路由器 (MAPR)：
- 为每个节点构建3种提示：\(\mathcal{S}_v^{\text{txt}}\)（仅文本token）、\(\mathcal{S}_v^{\text{vis}}\)（仅图像token）、\(\mathcal{S}_v^{\text{mm}}\)（双模态token）
- 路由器输入：\([\mathbf{h}_v^{\text{text}}; \mathbf{h}_v^{\text{image}}; \phi^{(1)}(v); \phi^{(2)}(v); \log d_v]\)
- MLP 输出3类路由概率 \(\mathbf{p}_v = \text{softmax}(\mathbf{s}_v)\)
- 用性能后验 \(\mathbf{q}_v = \text{softmax}(-[\ell_v^{(\text{txt})}, \ell_v^{(\text{vis})}, \ell_v^{(\text{mm})}])\) 作为教师信号
- 损失：\(\mathcal{L}_{\text{S2}} = \frac{1}{|B|}\sum_v [\sum_k q_v^{(k)} \ell_v^{(k)} + \lambda \text{KL}(\mathbf{q}_v \| \mathbf{p}_v)]\)

损失函数 / 训练策略¶

Stage 1 用对比损失训练编码器，Stage 2 用性能加权的 LM 损失 + KL 正则微调 LLM 和路由器。推理时路由器选最优模态模板。

实验关键数据¶

主实验（节点分类准确率 %）¶

方法	Movies	Reddit	CDs	Arts
GCN(text)	43.8	84.3	51.4	76.9
GATv2(text)	48.7	85.6	54.7	80.4
Mario	53.6+	95.3+	63.4+	92.1+

消融实验¶

配置	效果	说明
无图条件VLM（CLIP冻结）	低一致性	跨模态不对齐
节点级微调（无拓扑）	部分改善	缺邻居信息
+GVLM（阶段1）	显著提升	拓扑+模态双感知
+MAPR（阶段2）	最优	模态自适应选择

Mix-Training 设置（节点分类准确率 %）¶

方法	模态	Movies	Reddit	CDs	Arts
SAGE	Text	46.85	89.96	53.24	87.46
LLaGA	Text	47.80	91.14	51.33	74.02
LLaGA-A	Text+Image	50.61	92.94	56.29	88.83
Graph4MM	Text+Image	51.07	92.89	55.53	89.32
Mario-8B	Text+Image	53.63	95.30	63.43	92.13

关键发现¶

图拓扑引入后跨模态一致性提升 68%（vs CLIP 冻结）
~30% 节点有明确的单模态偏好
零样本迁移最高提升 1.6 倍

亮点与洞察¶

两个挑战识别精准：弱一致性和异质偏好是 MMG 推理的真实瓶颈，Venn 图分析直观有力
MAPR 路由机制优雅：用 LLM 损失作为性能信号驱动路由学习，训练时软路由、推理时硬路由零开销
Stage 1 的 GVLM 是新范式：拓扑感知的视觉语言模型，Transformer 层内交替执行图注意力和 token 注意力
零样本迁移强：在未见过的 MMG 上实现最高 1.6× 增益，说明学到的模态路由策略具有泛化性
统一框架：同一架构处理节点分类和链接预测两种任务，通用性好

局限性¶

两阶段训练增加复杂性，Stage 2 训练时每个样本需三次 LLM 前向传播
混合器的注意力复杂度 \(\mathcal{O}(|\mathcal{V}_s|^2 d)\)，对大规模图需节点采样
当前仅处理文本+图像双模态图，未扩展到音频、视频等模态
图拓扑偏置 \(\mathbf{B}_h\) 依赖最短路径预计算，对动态图不友好
MLaGA 用 Q-Former 融合后再送 LLM，Graph4MM 处理缺失模态——Mario 在完整模态场景更优，但缺失模态场景未测试

评分¶

⭐⭐⭐⭐⭐ (5/5)

GVLM + MAPR 双重创新，四数据集 × 两任务 × 三模态设置实验全面覆盖，零样本迁移验证泛化力，是多模态图 + LLM 推理方向的重要开拓性工作。