Modality-free Graph In-context Alignment¶

会议: ICLR 2026
arXiv: 2603.13434
代码: GitHub
领域: 模型压缩
关键词: 图基础模型, 上下文学习, 跨域对齐, 梯度指纹, 元学习

一句话总结¶

提出 MF-GIA，首个同时满足无后训练、跨域对齐和模态无关三个条件的图上下文学习框架，通过梯度指纹捕获域特征、FiLM条件化变换对齐特征和标签，在多个图域的few-shot任务上实现SOTA性能。

研究背景与动机¶

图基础模型（GFM）要实现类似LLM的通用性，需要真正的上下文学习（ICL）能力——仅通过少量示例适应新任务而不更新参数。真正的图ICL需满足三个条件：

无后训练推理: 推理时完全冻结参数，不需要微调或可学习prompt工程

跨域对齐: 单一模型在统一语义空间中处理不同图类型

模态无关: 无需原始数据，能处理已预编码的图（现实中图数据通常已被域特定方法编码）

现有方法（如UniGraph, OFA, GOFA）通过文本属性图（TAG）实现对齐，但要求访问原始数据——隐私敏感场景不可行，且文本转换引入信息损失。Prodigy和GPF缺乏跨域对齐。

核心idea：用梯度指纹作为域描述符——一步梯度更新的位移反映了图的特征、标签和拓扑如何影响共享编码器，从而捕获域特征。基于此指纹的轻量FiLM变换可以对齐不同域的特征和标签，无需知道原始数据模态。

方法详解¶

整体框架¶

MF-GIA 分三部分：①域嵌入器通过梯度指纹编码域特征；②域条件化对齐将各域的预编码特征和索引标签映射到统一空间；③片段式预训练用DPAA注意力学习few-shot匹配。推理时所有参数冻结，仅需support set即可触发对齐和预测。

关键设计¶

域嵌入器（梯度指纹）:
- 功能：为每个图产生紧凑的域嵌入 \(e_i\)
- 核心思路：从共享初始化 \(\theta_0\) 出发，对每个图 \(G_i\) 做一步梯度更新得指纹 \(\Delta\theta_i = \theta_i - \theta_0\)。通过可学习嵌入器（Conv2D + MLP）将指纹映射为低维向量 \(e_i = f_{\phi_{\text{de}}}(\Delta\theta_i)\)
- 理论保证（Theorem 3.1）：\(\|e_i - e_j\|_2 \leq \tilde{C} \cdot \mathcal{W}_2(\mathcal{D}_i, \mathcal{D}_j)\)，域嵌入距离受域分布距离的Wasserstein距离上界约束
- 设计动机：不依赖外部域标签或模态元数据，梯度模式内在反映数据分布特征
域条件化特征和标签对齐:
- 特征对齐：用FiLM变换 \(z_{i,w} = \gamma_i^{\text{feat}} \odot h_{i,w} + \beta_i^{\text{feat}}\)，其中 \((\gamma, \beta) = f_{\phi_{\text{feat}}}(e_i)\)。相似域的 \(e_i\) 产生相似变换，使其占据邻近子空间
- 标签对齐：维护共享标签基 \(\mathbf{E}^{\text{label}} \in \mathbb{R}^{L_{\max} \times d}\)，同样用FiLM变换条件化：\(u_{i,l} = \gamma_i^{\text{label}} \odot \mathbf{E}_l^{\text{label}} + \beta_i^{\text{label}}\)
- 设计动机：同一标签ID在不同域可能代表完全不同的概念，域条件化变换解决了这一语义不一致问题
双提示感知注意力（DPAA）:
- 功能：实现基于prompt的few-shot预测
- 核心思路：两层单查询注意力——特征侧让查询attend到support特征产生提示条件化表示 \(z_{i,q}^{\text{out}}\)；标签侧让该表示attend到标签原型产生预测 \(u_{i,q}^{\text{out}}\)。最终分数 \(s = u^{\text{out}}(\mathbf{U}^{\text{pmt}})^\top\)
- 设计动机：严格遵循ICL原则——prompt之间不互相交互，查询仅通过prompt获取任务信息

损失函数 / 训练策略¶

片段式交叉熵损失：\(\mathcal{L}_{\text{episode}} = -\frac{1}{mT}\sum_c\sum_t \log \frac{\exp(s[c]/\tau)}{\sum_j \exp(s[j]/\tau)}\)，在所有预训练图上采样episodes聚合训练。域嵌入器先用距离保持损失 \(\mathcal{L}_{\text{de}} = \sum_{i,j}(\|\Delta\theta_i - \Delta\theta_j\|_F - \|e_i - e_j\|_2)^2\) 单独预训练后冻结。

实验关键数据¶

主实验 (Few-shot节点分类, 5-shot)¶

方法	Cora-7way	Products-47way	Computers-10way	Physics-5way	BlogCatalog-6way
GCN	42.55	8.77	41.09	77.15	52.16
GraphSAGE	42.40	9.42	40.58	77.36	58.03
Prodigy	~55	~12	~50	~80	~55
MF-GIA	最佳	最佳	最佳	最佳	最佳

消融实验¶

配置	平均性能	说明
完整MF-GIA	最佳	所有模块协同
无域嵌入器	降低	丧失跨域适应能力
无特征对齐	显著降低	域间特征不对齐
无标签对齐	降低	标签语义不一致
无DPAA（普通分类头）	降低	丧失prompt推理能力
无图感知原型	略降	邻域信息有帮助

关键发现¶

MF-GIA是首个同时满足三个ICL条件的方法，在所有基准上达到SOTA
梯度指纹有效捕获域特征：相关域（如两个引用网络）的嵌入自然聚类
可零样本迁移到完全未见过的新域，标签对齐是关键
从节点分类无缝迁移到边分类任务，验证了框架的通用性

亮点与洞察¶

梯度指纹作为域描述符的设计巧妙——不需要任何外部先验，仅从数据与模型的交互中提取域信息
FiLM条件化变换简单高效，仅需缩放和偏移即可实现域自适应
DPAA严格遵循ICL范式，为图领域的prompt学习提供了优秀的设计范例
模态无关性使方法可应用于隐私敏感场景（仅需预编码数据）

局限与展望¶

一步梯度指纹可能对初始化 \(\theta_0\) 敏感
SVD预处理统一特征维度可能丢失信息
预训练域的多样性直接影响泛化能力
大规模图上的梯度计算效率需要关注

评分¶

新颖性: ⭐⭐⭐⭐⭐ 梯度指纹+模态无关ICL的组合首创，理论保证完善
实验充分度: ⭐⭐⭐⭐ 多域评测全面，但缺少超大规模图的测试
写作质量: ⭐⭐⭐⭐⭐ 理论与实践结合紧密，符号体系一致
价值: ⭐⭐⭐⭐ 推动图基础模型向真正的通用ICL迈进