跳转至

GraphGPT-o: Synergistic Multimodal Comprehension and Generation on Graphs

会议: CVPR 2025
arXiv: 2502.11925
代码: 待开源
领域: image_generation / multimodal
关键词: multimodal attributed graph, MLLM, graph linearization, hierarchical aligner, Q-Former, DreamLLM, Stable Diffusion

一句话总结

提出 GraphGPT-o,将多模态属性图(MMAG,节点含图像+文本,边表示关系)的结构信息注入多模态大语言模型(MLLM),通过 PPR 采样、层次化 Q-Former 对齐器和灵活推理策略,实现基于图上下文的文本-图像联合生成。

研究背景与动机

领域现状: MLLM(如 DreamLLM)已能理解和生成文本-图像内容,但现实中文本和图像往往以图结构形式互联(如电商产品共购买图、艺术品流派关联图),形成多模态属性图 (MMAG)。

现有痛点: 1. 图规模爆炸: 直接输入完整局部子图会导致指数级增长的序列长度 2. 非欧结构: 图的复杂拓扑难以直接输入序列化的 MLLM 3. 层次化模态依赖: 节点级(文本+图像互补)和子图级(节点语义+结构)需要不同层次的融合 4. 推理依赖: 文本和图像生成的先后顺序会影响输出质量

核心矛盾: MLLM 处理线性序列,但 MMAG 的价值正在于其非线性的图结构关系。

本文目标: 让 MLLM 利用 MMAG 中的结构和语义信息,为目标节点生成匹配的图像和文本。

切入角度: PPR 采样压缩子图 + 两级 Q-Former 编码图结构 + 图 token 注入 MLLM。

核心 idea: 用 Personalized PageRank 采样关键邻居,层次化 Q-Former 编码节点模态和图结构,将图 token 注入 MLLM 实现图条件的多模态生成。

方法详解

整体框架

  1. PPR 邻居采样: 对目标节点用 Personalized PageRank 选择 top-K 最相关邻居
  2. 层次化多模态对齐器:
    • Node Feature Q-Former: 融合每个邻居的文本和图像特征
    • Graph Structure Q-Former: 聚合邻居节点间的结构信息
  3. MLLM 推理: 将图 token \(\mathbf{g}_{v_i}\) 与文本/图像 token 一起输入 DreamLLM
  4. Stable Diffusion 解码: 生成的图像 token 通过 SD 解码为图像

关键设计

1. Personalized PageRank 邻居采样

解决图规模爆炸问题。PPR 矩阵 \(\mathbf{P} = \beta \hat{\mathbf{A}} \mathbf{P} + (1-\beta)\mathbf{I}\) 计算每个节点对目标的相关性分数,选择 top-K 个邻居:

\[N(v_i) = \arg\max_{|N(v_i)|=K} \sum_{v_j \in N(v_i)} P_{i,j}\]

相比固定 hop 的邻居采样,PPR 能跨多跳选择最相关节点,避免引入无关噪声。

2. 层次化 Q-Former 对齐器

Node Feature Q-Former \(\phi(\cdot)\): - 将邻居节点的文本 token \(\mathbf{w}_{v_j}\) 和 CLIP 图像 token \(\mathbf{I}_{v_j}\) 拼接 - 通过 \(L_1\) 层 self-attention Transformer 进行文本-图像模态信息交换 - 通过 cross-attention + 可学习 soft prompt \(\mathbf{Q}_V\) 压缩为固定长度表示 \(\mathbf{H}_{v_j}\)

Graph Structure Q-Former \(\psi(\cdot)\): - 将所有邻居的节点表示 \(\mathbf{H}_{v_j}\) 拼接作为输入 - 通过 \(L_2\) 层 self-attention 进行节点间深度信息融合 - 通过 cross-attention + 可学习 soft prompt \(\mathbf{Q}_G\) 聚合为图 token \(\mathbf{g}_{v_i}\)

3. 推理策略探索

  • Sequential (Text-first): 先生成文本 \(d_{v_i}\),再以文本+图 token 为条件生成图像 \(p_{v_i}\)
  • Sequential (Image-first): 先生成图像,再以图像+图 token 为条件生成文本
  • Parallel: 同时独立生成文本和图像,避免错误传播

损失函数

\[\mathcal{L} = \mathcal{L}_{MLLM}^{GraphGPT-o} + \mathcal{L}_{SD}^{GraphGPT-o}\]
  • MLLM 损失:自回归 next-token 预测(文本+图像+图 token 的交错序列)
  • SD 损失:标准扩散去噪损失,条件包含文本、图像和图 token

实验关键数据

主实验表

三个数据集:ART500K(艺术品图)、Amazon-Baby、Amazon-Beauty(电商产品图)

评估指标:CLIP-I2(生成图像 vs GT 图像)、Perplexity(文本流畅性)、CLIP-IT(图文对齐)、KL-DV(与邻居分布的一致性)

Graph Linearization 实验关键发现: - 使用双模态(文本+图像)通常优于单模态 - 模态顺序对性能影响不一致 - Image-first 推理提升图像质量但可能降低文本质量 - Text-first 推理的 KL-DV 最低(与邻居分布最一致)

Hierarchical Aligner vs. Linearization(ART500K):

方法 CLIP-I2 ↑ Perp. ↓ CLIP-IT ↑ KL-DV ↓
线性化最优 79.26 117.7 20.15 0.19
层次化 Aligner 82.15 98.3 23.41 0.15

层次化 Q-Former 全面优于简单线性化。

消融表

  • Node Q-Former: 移除后 CLIP-I2 显著下降(节点级模态融合关键)
  • Graph Q-Former: 移除后 KL-DV 增大(图结构信息对分布一致性重要)
  • PPR vs. Random Sampling: PPR 在所有指标上优于随机采样

关键发现

  1. 图结构信息对生成质量有显著贡献,不能仅依赖节点属性
  2. 层次化对齐(先节点级融合再图级聚合)优于一步到位的平坦融合
  3. PPR 采样比 BFS/DFS 更能捕捉跨多跳的相关邻居
  4. 推理策略的最优选择依赖于数据集特性(艺术品 vs. 电商)
  5. 邻居数量存在最优值,过多会引入噪声

亮点与洞察

  1. 问题定义新颖: 首次形式化 MMAG 上的多模态内容生成任务,同时生成图像和文本
  2. 层次化设计合理: Node Q-Former 和 Graph Q-Former 的两级设计优雅地处理了不同粒度的信息融合
  3. 系统性实验: 对线性化的模态选择、模态顺序、推理策略做了全面的组合实验
  4. 应用场景丰富: 电商推荐(产品生成)、虚拟艺术创作、社交网络内容推荐
  5. PPR 采样: 将图学习中成熟的 PPR 方法引入 MLLM 的子图选择,兼顾效率和效果

局限与展望

  1. 基于 DreamLLM + Stable Diffusion 1.x,生成图像质量受限于基础模型
  2. 仅在较小规模的三个数据集上验证,未在大规模图(百万节点级)上测试
  3. PPR 采样需要预计算全图的 PPR 矩阵,对动态图或流式场景不友好
  4. 推理策略的选择需要针对不同数据集调优,缺乏自适应机制
  5. 未考虑边属性(如关系类型),边仅用于连通性

相关工作与启发

  1. DreamLLM (Dong et al., 2024): GraphGPT-o 的基础 MLLM,支持交错文本-图像理解和生成
  2. BLIP-2 / InstructBLIP: Q-Former 的来源架构
  3. GraphGPT (Tang et al., 2023): 将图信息注入 LLM 的先驱,但仅处理文本图
  4. PPR / APPNP (Klicpera et al., 2019): Personalized PageRank 在图学习中的应用

启发: 图结构是现实世界中普遍存在的关系形式,将图 token 注入各类基础模型(LLM、MLLM、扩散模型)可能是一个重要方向。Q-Former 的"两级压缩"思路可推广到其他层次化结构数据。

评分

⭐⭐⭐⭐ (4/5)

  • 创新性: ⭐⭐⭐⭐ — 问题定义新颖,但各组件(Q-Former、PPR、DreamLLM)均为已有技术的组合
  • 实验充分度: ⭐⭐⭐⭐ — 线性化变体的系统研究非常详尽,但数据集规模偏小
  • 论文写作: ⭐⭐⭐⭐ — 问题动机清晰,方法描述完整
  • 实用价值: ⭐⭐⭐ — 电商推荐/艺术创作场景有前景,但图上生成的实际需求仍需验证

相关论文