Graph Your Own Prompt¶

会议: NeurIPS 2025
arXiv: 2509.23373
代码: 待确认（论文提及 Project website 和 Code 链接）
领域: model_compression
关键词: 图正则化, 特征对齐, 语义一致性, 分类, 无参模块

一句话总结¶

提出图一致性正则化（GCR）框架，通过在网络任意深度插入无参数的图一致性层（GCL），将中间特征的关系图与基于预测的类感知语义图对齐，以自我提示的方式促进语义一致的特征学习，在不修改架构和不增加参数的前提下提升分类泛化性能。

特征关系图构建：对第 \(l\) 层的特征矩阵 \(X^{(l)} \in \mathbb{R}^{n \times d}\)（\(n\) 为 batch size），用 ReLU + 余弦相似度构建成对关系图：

\[F_{ij}^{(l)} = \text{ReLU}(\cos(x_i^{(l)}, x_j^{(l)}))\]

掩码预测关系图构建：从网络最后一层的 logits \(Z \in \mathbb{R}^{n \times C}\) 计算 softmax 后的预测相似性矩阵 \(S\)，再用类内二值掩码 \(M\)（同类标签为 1，异类为 0）进行过滤：

\[P_{ij} = M_{ij} \odot S_{ij}\]

掩码的作用是：(1) 过滤训练早期不可靠的跨类预测相似性；(2) 聚焦于类内语义关系，避免视觉相似但语义不同类别的干扰。

逐层对齐损失：取特征图和预测图的严格上三角部分（消除自连接和重复计数），计算 Frobenius 范数：

\[\mathcal{L}_{\text{GCR}}^{(l)} = \|\text{triu}(F^{(l)}) - \text{triu}(P)\|_F^2\]

多层聚合：在 \(K\) 个插入点收集对齐损失并加权求和：

\[\mathcal{L}_{\text{GCR}} = \sum_{l=1}^{K} w_l \cdot \|\text{triu}(F^{(l)}) - \text{triu}(P)\|_F^2\]

自适应权重：基于图不一致程度的 softmax 权重，使不一致更大的层获得更高权重：

\[w_l = \frac{\exp(-\|\text{triu}(F^{(l)}) - \text{triu}(P)\|_F^2)}{\sum_{j=1}^{K} \exp(-\|\text{triu}(F^{(j)}) - \text{triu}(P)\|_F^2)}\]

总训练目标：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + \lambda \cdot \mathcal{L}_{\text{GCR}}\)，实验中 \(\lambda = 1\)。

将网络分为 Early (E)、Mid (M)、Late (L) 三阶段，评估 7 种配置：E、M、L、E+M、M+L、E+L、Full。实验发现 Late GCL 通常效果最佳，因为后层特征语义更丰富、与决策边界更接近。

泛化界：通过 covering number 和 Dudley 熵积分证明 GCR 约束缩小了有效假设类复杂度，降低泛化误差。
谱对齐：证明特征图和预测图的 Frobenius 距离趋近时，它们的归一化 Laplacian 谱也趋近，保证聚类结构一致。
PAC-Bayes 视角：GCR 约束等价于对函数空间施加结构先验，KL 散度上界与 \(\sum_l \|F^{(l)} - P\|_F^2\) 成正比。

配置	MAE	MobileNet	ShuffleNet	GoogLeNet	ResNet-50	DenseNet-121	平均
Baseline	88.95	90.23	91.21	94.10	95.03	95.01	93.32
Late GCL	89.70	91.40	92.36	94.88	95.66	95.72	94.07
提升	+0.75	+1.17	+1.15	+0.78	+0.63	+0.71	+0.75

配置	MAE	MobileNet	ResNeXt-50	ResNet-50	DenseNet-121	平均
Baseline	64.29	65.95	77.75	77.31	77.09	72.95
Late GCL	65.54	68.32	79.54	79.42	79.69	74.74
提升	+1.25	+2.37	+1.79	+2.11	+2.60	+1.79

方法	iFormer-S	iFormer-B	ViT-B/16	ViG-B
Baseline	83.4	84.6	74.3	82.3
Late GCL	84.5	86.1	75.8	84.0
提升	+1.1	+1.5	+1.5	+1.7

零参数开销：GCL 完全无参数、不修改网络架构、不改变训练流程，仅增加轻量级矩阵运算。
通用性极强：在轻量 CNN（MobileNet/ShuffleNet）、深层 CNN（ResNet/DenseNet）和 Transformer（ViT/Swin/iFormer）上均有效。
自我提示的优雅设计：用模型自身的预测结构作为特征学习的参考信号，形成一种无需外部监督的"自提示"机制。
可解释性提升：GCL 增强的特征图更聚焦于类判别性区域（如猫的眼耳、狗的嘴鼻），从 98.1% 提升到 99.8% 准确率。
完整理论支撑：从 covering number、谱图理论和 PAC-Bayes 三个角度建立了泛化保证。

vs 对比学习（SimCLR/SupCon）：对比学习需正负样本采样和数据增强，通常在单一层面操作；GCR 无需采样，支持多层对齐。
vs 图神经网络：GNN 需维护全局图或额外消息传递模块；GCR 在 batch 内动态构图，无架构开销。
vs Center Loss/Triplet Loss：这些方法强制类间距离或类内紧凑性但在单一表示空间操作；GCR 跨特征和预测两个空间进行结构对齐。
vs 知识蒸馏：蒸馏需要教师模型；GCR 使用模型自身的预测，属于自蒸馏的一种形式但更轻量。
vs 注意力机制：GCL 的特征聚焦效果类似注意力，但完全无参数且通过图对齐实现。