Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models¶

会议: CVPR2026
arXiv: 2603.22042
代码: github.com/jeeit17/UNCHA
领域: 多模态VLM
关键词: 双曲VLM, 不确定性建模, 部分-整体对齐, 组合性理解, 蒸含损失

一句话总结¶

提出UNCHA框架，在双曲VLM中用双曲不确定性建模部分图像对整体场景的语义代表性，通过不确定性引导的对比损失和蒸含损失增强组合性场景理解，在多个下游任务上超趇现有双曲VLM。

现有痛点：领域现状：VLM如CLIP在欧氏空间中难以捕捉层次关系（如部分-整体、父-子结构），且在多物体组合场景中存在偏差。

双曲VLM（如MERU、ATMG、HyCoCLIP）通过双曲空间的负曲率和指数体积增长更好地保留层次结构，但现有方法未建模不同部分对整体的不同语义代表性——包含该场景核心物体的裁剪比背景裁剪更能代表整体场景。

如果所有部分被平等对待，模型无法区分更具代表性的部分和较少代表性的部分。

在HyCoCLIP基础上增加不确定性建模：(1)定义双曲不确定性反映语义代表性 → (2)融入对比损失 → (3)通过蒸含损失校准不确定性。

双曲不确定性模型：
- \(u(x) = \log(1 + \exp(-\|x\|_2))\)
- 利用双曲半径（距原点的测地距离）与不确定性的单调关系
- 靠近原点=更抽象=更高不确定性；远离原点=更具体=更低不确定性
- 更能代表整体的部分 → 更低不确定性
不确定性引导的对比损失：
- 自适应温度: \(\tau_{un,i}^I = \exp(u(i_i^{part})/2) \cdot \tau_{gl}\)
- 高不确定性的部分 → 更大温度 → 更小的对比损失贡献
- 加入局部对比损失（部分图像与部分文本对齐）
蒸含损失的不确定性校准：
- 分段连续蒸含损失: \(L_{ent}^* = \max(0, \phi - \eta\omega) + \alpha\phi\)（Leaky-ReLU式松弛）
- 不确定性校准: \(L_{ent}^{cal} = \lfloor L_{ent}^* \rfloor e^{-u(p)} + u(p) + \mathcal{H}(\tilde{u}(p))\)
- 弱蒸含关系时鼓励增大不确定性；\(u(p)\)防止过度不确定
- 熵正则化\(\mathcal{H}\)防止不确定性均匀化坍塞

\(L = \mathcal{L}_{con}^{un} + \lambda_{ent}\mathcal{L}_{ent}^{un}\)

基于Lorentz模型的双曲空间，使用指数映射/对数映射在流形和切空间间转换。

模型	ImageNet	CIFAR-10	CUB	Cars	Pets	说明
CLIP (ViT-S/16)	36.7	70.2	9.8	6.9	44.6	基线
MERU	35.4	71.2	11.3	5.2	42.7	双曲基线
HyCoCLIP	提升	提升	提升	提升	提升	加入Part对齐
UNCHA	最优	最优	最优	最优	最优	加入不确定性建模