Mario: Multimodal Graph Reasoning with Large Language Models¶
会议: CVPR 2026
arXiv: 2603.05181
代码: 即将公开
领域: 图学习
关键词: 多模态图, LLM推理, 视觉语言对齐, 模态自适应路由, 指令微调
一句话总结¶
提出 Mario,针对多模态图(MMG)上的 LLM 推理,通过图条件视觉语言模型(GVLM)实现拓扑感知的跨模态对齐,再用模态自适应提示路由器(MAPR)为每个节点选择最优模态配置,在节点分类和链接预测上达到 SOTA。
研究背景与动机¶
现有多模态 LLM 处理独立图文对,忽略了现实中多模态数据间的关系结构。多模态图(MMG)中每个节点有文本+图像属性、边提供结构先验。直接用 VLM(如 CLIP)编码再送图模型存在两个挑战:
C1 弱跨模态一致性:节点的图文不一定语义同步,邻居信息可以消歧但被忽略。CLIP 冻结时的跨模态余弦相似度低,加入图拓扑后提升 68%。
C2 异质模态偏好:不同节点的信息量在不同模态上不同。约 30% 节点只能被某种特定模态配置正确分类。一刀切的提示模板浪费信息。
开放问题¶
能否设计一个统一框架,在 LLM 推理中同时解决 MMG 上的跨模态不一致和异质模态偏好?
方法详解¶
整体框架¶
Stage 1(GVLM):双塔编码器 + 拓扑感知多模态混合器 → 图条件对比学习 → 结构感知跨模态一致表示。 Stage 2(模态自适应指令微调):构建文本/图像/多模态三种提示模板 → MAPR 路由器选择最优模板 → LLM 推理。
关键设计¶
-
拓扑感知多模态混合器:在每个编码层,从全图收集各节点的 CLS 表示,通过带图结构位置偏置的多头注意力聚合邻居信息,再将结构感知的 CLS 重新注入 token 序列替代原 CLS。逐层迭代实现结构+模态的深度融合。
-
图条件对比学习:对结构感知的文本/图像 CLS 嵌入做双向 InfoNCE: \(\mathcal{L}_{\text{S1}} = -\frac{1}{|\mathcal{B}|}\sum_v [\log\frac{e^{s(v,v)/\tau}}{\sum_u e^{s(v,u)/\tau}} + \log\frac{e^{s(v,v)/\tau}}{\sum_u e^{s(u,v)/\tau}}]\)
-
模态自适应提示路由器 (MAPR):
- 为每个节点构建3种提示:\(\mathcal{S}_v^{\text{txt}}\)(仅文本token)、\(\mathcal{S}_v^{\text{vis}}\)(仅图像token)、\(\mathcal{S}_v^{\text{mm}}\)(双模态token)
- 路由器输入:\([\mathbf{h}_v^{\text{text}}; \mathbf{h}_v^{\text{image}}; \phi^{(1)}(v); \phi^{(2)}(v); \log d_v]\)
- MLP 输出3类路由概率 \(\mathbf{p}_v = \text{softmax}(\mathbf{s}_v)\)
- 用性能后验 \(\mathbf{q}_v = \text{softmax}(-[\ell_v^{(\text{txt})}, \ell_v^{(\text{vis})}, \ell_v^{(\text{mm})}])\) 作为教师信号
- 损失:\(\mathcal{L}_{\text{S2}} = \frac{1}{|B|}\sum_v [\sum_k q_v^{(k)} \ell_v^{(k)} + \lambda \text{KL}(\mathbf{q}_v \| \mathbf{p}_v)]\)
损失函数 / 训练策略¶
Stage 1 用对比损失训练编码器,Stage 2 用性能加权的 LM 损失 + KL 正则微调 LLM 和路由器。推理时路由器选最优模态模板。
实验关键数据¶
主实验(节点分类准确率 %)¶
| 方法 | Movies | CDs | Arts | |
|---|---|---|---|---|
| GCN(text) | 43.8 | 84.3 | 51.4 | 76.9 |
| GATv2(text) | 48.7 | 85.6 | 54.7 | 80.4 |
| Mario | 53.6+ | 95.3+ | 63.4+ | 92.1+ |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 无图条件VLM(CLIP冻结) | 低一致性 | 跨模态不对齐 |
| 节点级微调(无拓扑) | 部分改善 | 缺邻居信息 |
| +GVLM(阶段1) | 显著提升 | 拓扑+模态双感知 |
| +MAPR(阶段2) | 最优 | 模态自适应选择 |
Mix-Training 设置(节点分类准确率 %)¶
| 方法 | 模态 | Movies | CDs | Arts | |
|---|---|---|---|---|---|
| SAGE | Text | 46.85 | 89.96 | 53.24 | 87.46 |
| LLaGA | Text | 47.80 | 91.14 | 51.33 | 74.02 |
| LLaGA-A | Text+Image | 50.61 | 92.94 | 56.29 | 88.83 |
| Graph4MM | Text+Image | 51.07 | 92.89 | 55.53 | 89.32 |
| Mario-8B | Text+Image | 53.63 | 95.30 | 63.43 | 92.13 |
关键发现¶
- 图拓扑引入后跨模态一致性提升 68%(vs CLIP 冻结)
- ~30% 节点有明确的单模态偏好
- 零样本迁移最高提升 1.6 倍
亮点与洞察¶
- 两个挑战识别精准:弱一致性和异质偏好是 MMG 推理的真实瓶颈,Venn 图分析直观有力
- MAPR 路由机制优雅:用 LLM 损失作为性能信号驱动路由学习,训练时软路由、推理时硬路由零开销
- Stage 1 的 GVLM 是新范式:拓扑感知的视觉语言模型,Transformer 层内交替执行图注意力和 token 注意力
- 零样本迁移强:在未见过的 MMG 上实现最高 1.6× 增益,说明学到的模态路由策略具有泛化性
- 统一框架:同一架构处理节点分类和链接预测两种任务,通用性好
局限性¶
- 两阶段训练增加复杂性,Stage 2 训练时每个样本需三次 LLM 前向传播
- 混合器的注意力复杂度 \(\mathcal{O}(|\mathcal{V}_s|^2 d)\),对大规模图需节点采样
- 当前仅处理文本+图像双模态图,未扩展到音频、视频等模态
- 图拓扑偏置 \(\mathbf{B}_h\) 依赖最短路径预计算,对动态图不友好
- MLaGA 用 Q-Former 融合后再送 LLM,Graph4MM 处理缺失模态——Mario 在完整模态场景更优,但缺失模态场景未测试
评分¶
⭐⭐⭐⭐⭐ (5/5)
GVLM + MAPR 双重创新,四数据集 × 两任务 × 三模态设置实验全面覆盖,零样本迁移验证泛化力,是多模态图 + LLM 推理方向的重要开拓性工作。
相关论文¶
- [ICML 2025] Graph-constrained Reasoning: Faithful Reasoning on Knowledge Graphs with Large Language Models
- [NeurIPS 2025] Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs
- [NeurIPS 2025] Table as a Modality for Large Language Models
- [ACL 2025] FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering
- [CVPR 2026] M3KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation