GraphGPT-o: Synergistic Multimodal Comprehension and Generation on Graphs¶
会议: CVPR 2025
arXiv: 2502.11925
代码: 待开源
领域: image_generation / multimodal
关键词: multimodal attributed graph, MLLM, graph linearization, hierarchical aligner, Q-Former, DreamLLM, Stable Diffusion
一句话总结¶
提出 GraphGPT-o,将多模态属性图(MMAG,节点含图像+文本,边表示关系)的结构信息注入多模态大语言模型(MLLM),通过 PPR 采样、层次化 Q-Former 对齐器和灵活推理策略,实现基于图上下文的文本-图像联合生成。
研究背景与动机¶
领域现状: MLLM(如 DreamLLM)已能理解和生成文本-图像内容,但现实中文本和图像往往以图结构形式互联(如电商产品共购买图、艺术品流派关联图),形成多模态属性图 (MMAG)。
现有痛点: 1. 图规模爆炸: 直接输入完整局部子图会导致指数级增长的序列长度 2. 非欧结构: 图的复杂拓扑难以直接输入序列化的 MLLM 3. 层次化模态依赖: 节点级(文本+图像互补)和子图级(节点语义+结构)需要不同层次的融合 4. 推理依赖: 文本和图像生成的先后顺序会影响输出质量
核心矛盾: MLLM 处理线性序列,但 MMAG 的价值正在于其非线性的图结构关系。
本文目标: 让 MLLM 利用 MMAG 中的结构和语义信息,为目标节点生成匹配的图像和文本。
切入角度: PPR 采样压缩子图 + 两级 Q-Former 编码图结构 + 图 token 注入 MLLM。
核心 idea: 用 Personalized PageRank 采样关键邻居,层次化 Q-Former 编码节点模态和图结构,将图 token 注入 MLLM 实现图条件的多模态生成。
方法详解¶
整体框架¶
- PPR 邻居采样: 对目标节点用 Personalized PageRank 选择 top-K 最相关邻居
- 层次化多模态对齐器:
- Node Feature Q-Former: 融合每个邻居的文本和图像特征
- Graph Structure Q-Former: 聚合邻居节点间的结构信息
- MLLM 推理: 将图 token \(\mathbf{g}_{v_i}\) 与文本/图像 token 一起输入 DreamLLM
- Stable Diffusion 解码: 生成的图像 token 通过 SD 解码为图像
关键设计¶
1. Personalized PageRank 邻居采样¶
解决图规模爆炸问题。PPR 矩阵 \(\mathbf{P} = \beta \hat{\mathbf{A}} \mathbf{P} + (1-\beta)\mathbf{I}\) 计算每个节点对目标的相关性分数,选择 top-K 个邻居:
相比固定 hop 的邻居采样,PPR 能跨多跳选择最相关节点,避免引入无关噪声。
2. 层次化 Q-Former 对齐器¶
Node Feature Q-Former \(\phi(\cdot)\): - 将邻居节点的文本 token \(\mathbf{w}_{v_j}\) 和 CLIP 图像 token \(\mathbf{I}_{v_j}\) 拼接 - 通过 \(L_1\) 层 self-attention Transformer 进行文本-图像模态信息交换 - 通过 cross-attention + 可学习 soft prompt \(\mathbf{Q}_V\) 压缩为固定长度表示 \(\mathbf{H}_{v_j}\)
Graph Structure Q-Former \(\psi(\cdot)\): - 将所有邻居的节点表示 \(\mathbf{H}_{v_j}\) 拼接作为输入 - 通过 \(L_2\) 层 self-attention 进行节点间深度信息融合 - 通过 cross-attention + 可学习 soft prompt \(\mathbf{Q}_G\) 聚合为图 token \(\mathbf{g}_{v_i}\)
3. 推理策略探索¶
- Sequential (Text-first): 先生成文本 \(d_{v_i}\),再以文本+图 token 为条件生成图像 \(p_{v_i}\)
- Sequential (Image-first): 先生成图像,再以图像+图 token 为条件生成文本
- Parallel: 同时独立生成文本和图像,避免错误传播
损失函数¶
- MLLM 损失:自回归 next-token 预测(文本+图像+图 token 的交错序列)
- SD 损失:标准扩散去噪损失,条件包含文本、图像和图 token
实验关键数据¶
主实验表¶
三个数据集:ART500K(艺术品图)、Amazon-Baby、Amazon-Beauty(电商产品图)
评估指标:CLIP-I2(生成图像 vs GT 图像)、Perplexity(文本流畅性)、CLIP-IT(图文对齐)、KL-DV(与邻居分布的一致性)
Graph Linearization 实验关键发现: - 使用双模态(文本+图像)通常优于单模态 - 模态顺序对性能影响不一致 - Image-first 推理提升图像质量但可能降低文本质量 - Text-first 推理的 KL-DV 最低(与邻居分布最一致)
Hierarchical Aligner vs. Linearization(ART500K):
| 方法 | CLIP-I2 ↑ | Perp. ↓ | CLIP-IT ↑ | KL-DV ↓ |
|---|---|---|---|---|
| 线性化最优 | 79.26 | 117.7 | 20.15 | 0.19 |
| 层次化 Aligner | 82.15 | 98.3 | 23.41 | 0.15 |
层次化 Q-Former 全面优于简单线性化。
消融表¶
- Node Q-Former: 移除后 CLIP-I2 显著下降(节点级模态融合关键)
- Graph Q-Former: 移除后 KL-DV 增大(图结构信息对分布一致性重要)
- PPR vs. Random Sampling: PPR 在所有指标上优于随机采样
关键发现¶
- 图结构信息对生成质量有显著贡献,不能仅依赖节点属性
- 层次化对齐(先节点级融合再图级聚合)优于一步到位的平坦融合
- PPR 采样比 BFS/DFS 更能捕捉跨多跳的相关邻居
- 推理策略的最优选择依赖于数据集特性(艺术品 vs. 电商)
- 邻居数量存在最优值,过多会引入噪声
亮点与洞察¶
- 问题定义新颖: 首次形式化 MMAG 上的多模态内容生成任务,同时生成图像和文本
- 层次化设计合理: Node Q-Former 和 Graph Q-Former 的两级设计优雅地处理了不同粒度的信息融合
- 系统性实验: 对线性化的模态选择、模态顺序、推理策略做了全面的组合实验
- 应用场景丰富: 电商推荐(产品生成)、虚拟艺术创作、社交网络内容推荐
- PPR 采样: 将图学习中成熟的 PPR 方法引入 MLLM 的子图选择,兼顾效率和效果
局限与展望¶
- 基于 DreamLLM + Stable Diffusion 1.x,生成图像质量受限于基础模型
- 仅在较小规模的三个数据集上验证,未在大规模图(百万节点级)上测试
- PPR 采样需要预计算全图的 PPR 矩阵,对动态图或流式场景不友好
- 推理策略的选择需要针对不同数据集调优,缺乏自适应机制
- 未考虑边属性(如关系类型),边仅用于连通性
相关工作与启发¶
- DreamLLM (Dong et al., 2024): GraphGPT-o 的基础 MLLM,支持交错文本-图像理解和生成
- BLIP-2 / InstructBLIP: Q-Former 的来源架构
- GraphGPT (Tang et al., 2023): 将图信息注入 LLM 的先驱,但仅处理文本图
- PPR / APPNP (Klicpera et al., 2019): Personalized PageRank 在图学习中的应用
启发: 图结构是现实世界中普遍存在的关系形式,将图 token 注入各类基础模型(LLM、MLLM、扩散模型)可能是一个重要方向。Q-Former 的"两级压缩"思路可推广到其他层次化结构数据。
评分¶
⭐⭐⭐⭐ (4/5)
- 创新性: ⭐⭐⭐⭐ — 问题定义新颖,但各组件(Q-Former、PPR、DreamLLM)均为已有技术的组合
- 实验充分度: ⭐⭐⭐⭐ — 线性化变体的系统研究非常详尽,但数据集规模偏小
- 论文写作: ⭐⭐⭐⭐ — 问题动机清晰,方法描述完整
- 实用价值: ⭐⭐⭐ — 电商推荐/艺术创作场景有前景,但图上生成的实际需求仍需验证
相关论文¶
- [CVPR 2025] Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
- [CVPR 2025] JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
- [NeurIPS 2025] Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning
- [ICCV 2025] Video Motion Graphs
- [CVPR 2025] WeGen: A Unified Model for Interactive Multimodal Generation as We Chat