CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning¶

会议: CVPR 2026
arXiv: 2602.19605
代码: 无
领域: 多模态学习
关键词: 跨层语义对齐, 共享-私有解耦, 多模态融合, 情感分析, 事件定位

一句话总结¶

提出 CLCR 框架，将每个模态特征组织为三层语义层级（浅/中/深），通过层内受控交换域（IntraCED）限制跨模态交互仅在共享子空间进行，通过层间协同聚合域（InterCAD）实现跨层自适应融合，解决多模态学习中的跨层语义不同步问题。

研究背景与动机¶

多模态学习旨在从多个模态（语言、视觉、声学）中捕获共享与私有信息。现有方法的两大主流方向存在共同局限：

特征解耦方法（MISA、DMD 等）：学习模态不变/模态特定子空间，但假设跨模态交互在单一语义层级进行
动态校准方法（MLA、ARL 等）：在样本/模态层面调整贡献权重，但同样忽略层级结构

核心问题：跨层语义不同步（Cross-Level Semantic Asynchrony） - 浅层捕获词汇/帧级线索，中层编码短语/韵律结构，深层反映话语意图/事件上下文 - 不同层级的 token 混合融合会导致语义混淆、错误传播和私有信息泄露 - 从信息瓶颈角度看，非结构化混合倾向于增加 \(I(Z;N)\) 而非 \(I(Z;Y)\)

方法详解¶

整体框架¶

CLCR 包含三个核心组件： 1. 语义层级编码器（Semantic-Hierarchy Encoder）：为每个模态构建三层语义层级 2. 层内协同交换域（IntraCED）：在每层独立进行受控的跨模态交换 3. 层间协同聚合域（InterCAD）：跨层同步与聚合最终任务表示

关键设计¶

1. 语义层级编码器¶

对每个模态 \(m \in \{L, V, A\}\)，构建统一宽度 \(d\) 的三层特征：

\[H_\ell^{(m)} = \text{LN}(Z_\ell^{(m)} W_\ell^{(m)} + P_\ell^{(m)})\]

语言模态：预训练 BERT 的早/中/晚层 → 词汇句法 / 短语情感 / 话语意图
视觉/声学模态：三阶段 TCN（递增感受野）→ 局部外观 / 部件结构 / 长程场景上下文

2. IntraCED：层内受控交换¶

共享-私有正交分解：通过 Stiefel 参数化学习正交基 \(U_\ell^{sh}\) 和 \(U_{\ell,m}^{pr}\)：

\[h_{\ell,t,sh}^{(m)} = h_{\ell,t}^{(m)} P_\ell^{sh}, \quad h_{\ell,t,pr}^{(m)} = h_{\ell,t}^{(m)} P_{\ell,m}^{pr}\]

仅共享分量参与跨模态交换，私有分量完全隔离。

受控的 Token 预算：并非所有共享 token 都值得交换。测量每个 token 的共享证据强度 \(e_{\ell,t}^{(m)} = \|h_{\ell,t,sh}^{(m)}\|_2\)，通过可学习尺度和层级阈值映射为激活权重，并投影到截断单纯形以强制稀疏性：

\[\boldsymbol{\alpha}_\ell^{(m)} = \text{Proj}_{\Delta(B_\ell)}(\tilde{\boldsymbol{\alpha}}_\ell^{(m)})\]

其中 \(B_\ell\) 为可学习预算，控制参与交换的 token 数量。

三模态共享空间交换：每个模态查询其余模态的共享 token 池：

\[\tilde{h}_{\ell,t,sh}^{(m)} = \alpha_{\ell,t}^{(m)} \text{Attn}(Q_{\ell,t}^{(m)}, K_\ell^{(-m)}, V_\ell^{(-m)})\]

预算 \(\alpha\) 控制每个 token 吸收多少外部证据。

3. InterCAD：层间协同聚合¶

跨层语义同步：对每层每模态的共享/私有流进行均值池化 + LN 得到摘要 \(s_\ell^{(m)}\)、\(p_\ell^{(m)}\)，通过 MLP + softmax 计算层级权重 \(\omega = [\omega_1, \omega_2, \omega_3]\)：

\[\bar{s}^{(m)} = \sum_{\ell=1}^3 \omega_\ell s_\ell^{(m)}, \quad \bar{p}^{(m)} = \sum_{\ell=1}^3 \omega_\ell p_\ell^{(m)}\]

模态选择与私有聚合： - 共享路径：全局上下文 \(\bar{g}\) 作为 query，各模态 \(\bar{s}^{(m)}\) 作为 key，缩放点积注意力选择最具信息量的模态 - 私有路径：置信度门控 \(\eta_m = \sigma(w_p^\top \text{LN}(W_p \bar{p}^{(m)}))\) 加权聚合

最终任务表示：\(\hat{y} = f_\theta(z_{sh} \oplus u_{pr})\)

损失函数 / 训练策略¶

\[\mathcal{L}_{all} = \mathcal{L}_{task} + \lambda_{inter} \mathcal{L}_{Inter} + \lambda_{intra} \mathcal{L}_{Intra}\]

层内正则化 \(\mathcal{L}_{Intra}\)：基于白化互相关的可辨识性正则，惩罚不同模态私有流间相关性 + 同模态私有-共享间相关性

层间正则化 \(\mathcal{L}_{Inter}\)：三项约束—— - \(\mathcal{L}_{pr}\)：减少跨层私有冗余 - \(\mathcal{L}_{sp}\)：抑制跨层共享-私有泄露 - \(\mathcal{L}_{mix}\)：惩罚语义不兼容层级对的同时激活

训练配置：SGD（momentum 0.9），lr 1e-3，weight decay 1e-4，batch 64，100 epochs，A100 GPU。

实验关键数据¶

主实验¶

表1：音频-视觉基准（Acc% / F1%）

方法	CREMA-D Acc	KS Acc	AVE Acc	UCF101 Acc
ARL	76.46	74.09	72.61	83.06
D&R	73.52	69.10	69.62	82.11
CLCR	77.92	75.41	73.82	83.64

表2：多模态情感分析（CMU-MOSI / CMU-MOSEI）

方法	MOSI MAE↓	MOSI Acc-2	MOSEI MAE↓	MOSEI Acc-2
DLF	0.731	85.06	0.536	85.42
EMOE	0.710	85.4	0.536	85.3
CLCR	0.678	88.05	0.511	87.96

消融实验¶

表3：关键组件消融（MOSI MAE↓ / KS Acc）

变体	MOSI MAE	KS Acc
w/o Hierarchy	0.720	71.9
w/o IntraCED	0.703	73.0
w/o InterCAD	0.699	73.4
Full Mix（层级打乱）	0.743	70.3
w/o 两种正则化	0.725	71.2
CLCR（完整）	0.678	75.41

关键发现¶

语义层级是核心：去除层级结构导致最大性能下降，Full Mix（完全打乱）表现最差
IntraCED 比 InterCAD 更关键：移除 IntraCED 的降幅通常更大，说明层内共享/私有分离和受控交换是关键
Token 预算的最优稀疏度：参与率 \(r \approx 0.68\)（\(\gamma \approx 1.0\)）时性能最佳，完全稠密交换反而最差
噪声鲁棒性：在高斯噪声注入实验中，CLCR 相较基线方法的性能下降幅度最小
模态重要性自适应：在 MOSI 上语言模态主导，在 KS 上视觉模态权重最高，CLCR 自动适应

亮点与洞察¶

跨层语义不同步的问题定义：从信息瓶颈视角阐述了为什么不同层级混合融合会降低表示质量
受控的 Token 预算机制：通过截断单纯形投影实现可微的稀疏 token 选择，避免稠密噪声融合
共享-私有的双重保护：正交投影（结构约束）+ 白化互相关正则化（统计约束）双管齐下
六个基准全面验证：覆盖情感识别、事件定位、情感分析、动作识别四大任务类型

局限性 / 可改进方向¶

三层层级是硬编码设计，不同任务可能需要不同层数
计算开销分析不足——白化操作和 Stiefel 参数化的实际训练时间未报告
仅在分类/回归任务上验证，未扩展到生成式多模态任务
对缺失模态场景的处理（仅做了消融分析）未形成系统方案

评分¶

新颖性: ★★★★☆ — 跨层语义不同步的问题定义和受控交换设计新颖
技术深度: ★★★★★ — 正交分解+截断单纯形+白化正则化，理论基础扎实
实验充分性: ★★★★★ — 六个基准、详细消融、t-SNE 可视化、噪声鲁棒性、超参敏感性
写作清晰度: ★★★★☆ — 框架图清晰，但公式较多，阅读门槛较高