Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion¶

会议: NeurIPS 2025
arXiv: 2510.13887
代码: GitHub
领域: 多视图学习 / 聚类
关键词: 不完整多视图聚类, 层级语义对齐, 动态加权融合, MMD, 协同补全

一句话总结¶

提出HSACC框架通过双层语义空间设计（低层互信息一致性+高层自适应加权融合）和协同优化的隐式缺失视图恢复，在五个基准数据集上显著超越现有不完整多视图聚类方法。

研究背景与动机¶

不完整多视图数据（某些样本在特定视图上完全缺失）在实际中广泛存在——传感器限制、遮挡、数据采集条件差异等都会导致视图缺失。这破坏了跨视图关联，放大噪声干扰并引入偏差。

现有深度不完整多视图聚类（IMVC）方法的两个关键局限：

融合策略不足：依赖静态融合（如均匀加权）无法适应视图间的分布差异；动态融合方法缺乏层级语义分离，无法区分低层一致性对齐和高层语义融合，导致多粒度信息丢失
两阶段流水线误差传播：先补全后聚类导致补全阶段的误差传播到聚类阶段；虽有联合优化尝试，但忽视了不同视图在融合表示中的重要性差异，补全未能充分利用高质量视图信息

方法详解¶

整体框架¶

HSACC包含三个模块：

视图重建：视图特定自编码器提取并重建特征
多视图表示学习：低层互信息对齐 → 高层自适应加权融合 → 分布差异最小化
数据恢复与聚类：隐式缺失视图补全 → 联合优化

关键设计¶

双层语义空间对齐:
- 做什么：在低层语义空间通过互信息最大化确保跨视图一致性，在高层语义空间进行自适应加权融合
- 核心思路：低层——计算跨视图特征相似性矩阵 \(P_{(m,n)} = \frac{1}{N}\sum_{i=1}^N z_{i,m}^1 \cdot z_{i,n}^2\)，从联合和边缘分布计算互信息损失 \(L_{MMI}\)。高层——先拼接得到初始融合 \(\mathbf{R}\)，用MMD衡量各视图与 \(\mathbf{R}\) 的分布差异，通过softmax分配权重 \(W^v = \frac{\exp(-D(\mathbf{Z}^v, \mathbf{R}))}{\sum_v \exp(-D(\mathbf{Z}^v, \mathbf{R}))}\)
- 设计动机：低层对齐确保共享模式被捕获，高层加权融合根据各视图与融合表示的一致程度动态分配贡献
协同补全机制:
- 做什么：通过MLP将已对齐的潜在表示投影到高维语义空间，隐式恢复缺失视图
- 核心思路：\(\mathbf{Q}^1 = f_\text{MLP1}(\mathbf{Z}^1)\) 预测视图2的潜在表示。推断一致性损失 \(L_{INF} = \frac{1}{N}\sum_i \|\mathbf{z}_i^2 - \mathbf{q}_i^1\|_2^2 + \frac{1}{N}\sum_i \|\mathbf{z}_i^1 - \mathbf{q}_i^2\|_2^2\) 确保推断结果与真实潜在表示一致
- 设计动机：直接在潜在空间补全而非输入空间，避免生成低质量的原始特征；联合优化使补全和聚类相互增强
分布对齐损失:
- 做什么：用RKHS中的MMD最小化高层共享表示 \(\mathbf{H}\) 与各视图 \(\mathbf{Z}^v\) 的分布差异
- 核心思路：\(L_{MMD} = \sum_{v=1}^V \text{MMD}^2(\mathcal{P}_{\mathbf{Z}^v}, \mathcal{Q}_\mathbf{H})\)，用核矩阵近似计算
- 设计动机：促进全局表示和各视图的信息交互，增强跨视图表示的一致性和互补性

损失函数 / 训练策略¶

总损失：\(L = \lambda_1 L_{REC} + \lambda_2 L_{INF} + \lambda_3 L_{MMI} + \lambda_4 L_{MMD}\)

\(L_{REC}\)：重建损失（MSE）
\(L_{INF}\)：推断一致性损失（从第 \(E_1\) 个epoch开始引入）
\(L_{MMI}\)：跨视图互信息损失
\(L_{MMD}\)：分布对齐损失

训练策略：前 \(E_1\) epoch训练表示学习，之后引入补全和聚类联合优化。最终用k-means对拼接的完整视图表示进行聚类。

实验关键数据¶

主实验（表格）¶

五个数据集、不同缺失率下的ACC对比（部分结果）：

缺失率	数据集	HSACC	次优方法	提升
0.5	Caltech101-20	最优	DCP/DSIMVC	ACC +5.3%, ARI +8.57%
0.3→0.7	Noisy MNIST	下降6.92%	ICMVC下降35.19%	鲁棒性强5倍
0.3	Hdigit	最优	—	—
0.5	LandUse_21	最优	—	—
0.5	100leaves	最优	—	—

消融实验¶

去除层级对齐（\(L_{MMI}\)）：所有数据集性能显著下降
去除动态加权（固定均匀权重）：ACC下降2-5%
去除协同补全（\(L_{INF}\)）：高缺失率下退化明显
去除 \(L_{MMD}\)：跨视图融合效果变差

关键发现¶

HSACC在所有5个数据集的所有缺失率下均为最优或接近最优
在高缺失率（0.7）下鲁棒性远优于对比方法——Noisy MNIST上ACC仅下降6.92%，而ICMVC下降35.19%
层级对齐和动态加权的组合贡献最大
超参数分析表明模型对 \(\lambda_1 \sim \lambda_4\) 的变化不敏感

亮点与洞察¶

层级语义分离：明确区分低层一致性对齐和高层语义融合，多粒度信息保留更完整
自适应视图权重：基于分布亲和度动态分配，避免低质量视图主导融合
消除误差传播：联合优化补全和聚类，补全过程利用判别性特征引导
在5个数据集上全面超越9个SOTA方法，统计显著

局限与展望¶

仅实验了两视图场景，多视图（>2）的泛化性需进一步验证
MLP用于跨视图推断的非线性映射可能不足以处理复杂关系
线性核的MMD计算可能对复杂分布差异不够敏感
自编码器架构（全连接1024-1024-1024）固定，未探索不同架构的影响
缺少与大规模数据集（如ImageNet子集）的实验
图结构信息未被利用

评分¶

⭐⭐⭐⭐ — 方法设计系统且有效，在多个数据集上的优势显著且一致，消融实验充分