跳转至

🕸️ 图学习

📷 CVPR2025 · 5 篇论文解读

Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models

将多头注意力重新解释为图卷积滤波器子空间,通过学习一组极小的子空间组合系数(\(H \times H\) 矩阵)来线性组合预训练的注意力图,突破 softmax 造成的凸包约束从而扩展特征空间,以几乎零参数量的代价即插即用地提升各种 PEFT 方法的性能。

DVHGNN: Multi-Scale Dilated Vision HGNN for Efficient Vision Recognition

提出 DVHGNN,一种利用多尺度膨胀超图捕获图像 patch 间高阶相关性的视觉骨干网络,通过聚类+膨胀超图构造 (DHGC) 获取多尺度超边、动态超图卷积实现自适应特征交换,在 ImageNet-1K 上以 30.2M 参数达到 83.1% top-1 准确率,超越 ViG-S 1.0% 和 ViHGNN-S 0.6%。

Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

提出HgVT,将层次化二部超图结构嵌入ViT中,通过主图像patch顶点和虚拟顶点的分离处理、动态余弦邻接构建和超边通信池三层注意力机制,无需聚类即可捕获patch间高阶语义关系,在ImageNet-1K上HgVT-Ti以7.7M参数达到76.2%准确率(超ViHGNN-Ti 1.9%),并在图像检索中达到73.23% mAP@10。

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing

提出 VISA 框架,从视觉(记忆引导序列建模 MGSM 降低特征方差)和语义(迭代关系生成器 IRG 引入层次上下文减少对偏置先验的依赖)双重角度对视频场景图生成进行去偏置,在 Action Genome 等数据集上大幅提升尾部类别性能。

Universal Scene Graph Generation

本文提出 Universal Scene Graph(USG)表示及其解析器 USG-Par,通过跨模态对象关联器和文本中心场景对比学习,从任意模态组合(图像、文本、视频、3D)输入中生成统一的场景图,同时刻画模态不变和模态特有的场景语义。