Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot MIE¶

日期: 2026-03-17
arXiv: 2603.16259
领域: 多模态/VLM
关键词: 双曲空间, 零样本信息抽取, 多模态对齐, 变分信息瓶颈, 条件VAE

一句话总结¶

在双曲空间中构建多模态生成表示框架（HMGRL），通过双曲变分信息瓶颈（HVIB）对齐多模态特征并用双曲条件VAE（HMCVAE）生成未见类别的合成样本，实现泛化零样本多模态信息抽取。

研究背景与动机¶

领域现状: 多模态信息抽取（MIE）从图文对中抽取实体和关系。现有零样本方法在欧氏空间中工作，难以捕捉语义的层次化结构。
现有痛点: (a) 传统 ZS-MIE 模型只能处理纯未见类别场景，无法同时处理已见和未见类别（泛化零样本更实际但更难）；(b) 欧氏空间无法高效表示层次化语义关系（如"动物→狗→柯基"的树形结构）；(c) 已见类和未见类之间存在分布差距，导致泛化性差。
核心矛盾: 泛化零样本需要在已见类上训练但在已见+未见类上测试——需要弥合两者的分布差距。
切入角度: 双曲空间天然适合表示层次结构——庞加莱球模型中，距离原点越远维度指数增长，完美匹配语义层次的扇形展开。
核心 idea: 在双曲空间中做三件事：(1) HVIB 对齐视觉和文本模态；(2) HMCVAE 为未见类生成合成样本；(3) 语义相似度分布对齐损失弥合已见/未见的分布差距。

方法详解¶

整体框架¶

三大模块： 1. 双曲变分信息瓶颈 (HVIB): 在双曲空间中压缩多模态表示，保留任务相关信息去除冗余 2. 双曲多模态条件 VAE (HMCVAE): 以类别语义为条件在双曲空间中生成未见类别的合成特征 3. 语义相似度分布对齐: 约束已见类和未见类在双曲空间中的分布一致性

关键设计¶

双曲空间表示:
- 使用庞加莱球模型 \(\mathbb{B}^d = \{x \in \mathbb{R}^d : \|x\| < 1\}\)
- 莫比乌斯加法替代欧氏加法，双曲 MLR 替代欧氏线性层
- 设计动机：双曲空间的体积随半径指数增长——层次化数据可以低失真地嵌入
HVIB 多模态对齐:
- 信息瓶颈原理在双曲空间的扩展——最大化表示与标签的互信息，最小化表示与输入的互信息
- 使用 wrapped normal 分布作为双曲空间的先验
HMCVAE 合成样本生成:
- 以类别的语义嵌入为条件，在双曲空间中采样生成该类别的合成多模态特征
- 将泛化零样本转化为有监督问题
语义相似度分布对齐:
- 计算类间语义相似度矩阵，要求已见类内、未见类内、跨类的相似度分布统计量对齐
- 防止 domain bias（模型偏向已见类）

实验关键数据¶

数据集	HMGRL	最佳基线	提升
Twitter-15	SOTA	-	显著
Twitter-17	SOTA	-	显著

HVIB + HMCVAE + 分布对齐三者缺一不可
双曲 > 欧氏：在层次化语义任务上优势明显

消融实验¶

组件	效果
去掉 HVIB	多模态对齐退化
去掉 HMCVAE	无法处理未见类
去掉分布对齐	严重偏向已见类
欧氏替代双曲	层次结构建模退化

亮点与洞察¶

双曲空间在多模态中的潜力：层次化语义结构在 NLP 中无处不在（知识图谱、分类体系），双曲空间是表示它们的"正确"几何空间。
"想象未见类"的生成方法：用 HMCVAE 生成合成特征将 zero-shot 转化为 few-shot——经典策略，双曲空间中首次。
分布对齐的必要性：不只对齐模态，还要对齐已见/未见类的分布——否则 domain bias 不可避免。

局限性 / 可改进方向¶

双曲空间操作比欧氏运算慢
仅在 Twitter 数据集验证
类别语义嵌入依赖 word2vec，更现代的 LLM embedding 可能更好

评分¶

新颖性: ⭐⭐⭐⭐ 双曲空间+VIB+CVAE 的三重组合新颖
实验充分度: ⭐⭐⭐ 两个 Twitter 数据集，规模有限
写作质量: ⭐⭐⭐⭐ 理论推导严谨
价值: ⭐⭐⭐ 对双曲表示学习社区有参考意义