跳转至

Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot MIE

日期: 2026-03-17
arXiv: 2603.16259
领域: 多模态/VLM
关键词: 双曲空间, 零样本信息抽取, 多模态对齐, 变分信息瓶颈, 条件VAE

一句话总结

在双曲空间中构建多模态生成表示框架(HMGRL),通过双曲变分信息瓶颈(HVIB)对齐多模态特征并用双曲条件VAE(HMCVAE)生成未见类别的合成样本,实现泛化零样本多模态信息抽取。

研究背景与动机

  1. 领域现状: 多模态信息抽取(MIE)从图文对中抽取实体和关系。现有零样本方法在欧氏空间中工作,难以捕捉语义的层次化结构。

  2. 现有痛点: (a) 传统 ZS-MIE 模型只能处理纯未见类别场景,无法同时处理已见和未见类别(泛化零样本更实际但更难);(b) 欧氏空间无法高效表示层次化语义关系(如"动物→狗→柯基"的树形结构);(c) 已见类和未见类之间存在分布差距,导致泛化性差。

  3. 核心矛盾: 泛化零样本需要在已见类上训练但在已见+未见类上测试——需要弥合两者的分布差距。

  4. 切入角度: 双曲空间天然适合表示层次结构——庞加莱球模型中,距离原点越远维度指数增长,完美匹配语义层次的扇形展开。

  5. 核心 idea: 在双曲空间中做三件事:(1) HVIB 对齐视觉和文本模态;(2) HMCVAE 为未见类生成合成样本;(3) 语义相似度分布对齐损失弥合已见/未见的分布差距。

方法详解

整体框架

三大模块: 1. 双曲变分信息瓶颈 (HVIB): 在双曲空间中压缩多模态表示,保留任务相关信息去除冗余 2. 双曲多模态条件 VAE (HMCVAE): 以类别语义为条件在双曲空间中生成未见类别的合成特征 3. 语义相似度分布对齐: 约束已见类和未见类在双曲空间中的分布一致性

关键设计

  1. 双曲空间表示:

    • 使用庞加莱球模型 \(\mathbb{B}^d = \{x \in \mathbb{R}^d : \|x\| < 1\}\)
    • 莫比乌斯加法替代欧氏加法,双曲 MLR 替代欧氏线性层
    • 设计动机:双曲空间的体积随半径指数增长——层次化数据可以低失真地嵌入
  2. HVIB 多模态对齐:

    • 信息瓶颈原理在双曲空间的扩展——最大化表示与标签的互信息,最小化表示与输入的互信息
    • 使用 wrapped normal 分布作为双曲空间的先验
  3. HMCVAE 合成样本生成:

    • 以类别的语义嵌入为条件,在双曲空间中采样生成该类别的合成多模态特征
    • 将泛化零样本转化为有监督问题
  4. 语义相似度分布对齐:

    • 计算类间语义相似度矩阵,要求已见类内、未见类内、跨类的相似度分布统计量对齐
    • 防止 domain bias(模型偏向已见类)

实验关键数据

数据集 HMGRL 最佳基线 提升
Twitter-15 SOTA - 显著
Twitter-17 SOTA - 显著
  • HVIB + HMCVAE + 分布对齐三者缺一不可
  • 双曲 > 欧氏:在层次化语义任务上优势明显

消融实验

组件 效果
去掉 HVIB 多模态对齐退化
去掉 HMCVAE 无法处理未见类
去掉分布对齐 严重偏向已见类
欧氏替代双曲 层次结构建模退化

亮点与洞察

  • 双曲空间在多模态中的潜力:层次化语义结构在 NLP 中无处不在(知识图谱、分类体系),双曲空间是表示它们的"正确"几何空间。
  • "想象未见类"的生成方法:用 HMCVAE 生成合成特征将 zero-shot 转化为 few-shot——经典策略,双曲空间中首次。
  • 分布对齐的必要性:不只对齐模态,还要对齐已见/未见类的分布——否则 domain bias 不可避免。

局限性 / 可改进方向

  • 双曲空间操作比欧氏运算慢
  • 仅在 Twitter 数据集验证
  • 类别语义嵌入依赖 word2vec,更现代的 LLM embedding 可能更好

相关工作与启发

  • vs 欧氏 ZSL: 欧氏空间对层次结构的表示能力有理论上限,双曲空间突破了这一限制
  • 启发:双曲空间 + 生成模型可推广到其他层次化分类任务

评分

  • 新颖性: ⭐⭐⭐⭐ 双曲空间+VIB+CVAE 的三重组合新颖
  • 实验充分度: ⭐⭐⭐ 两个 Twitter 数据集,规模有限
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨
  • 价值: ⭐⭐⭐ 对双曲表示学习社区有参考意义