跳转至

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

会议: CVPR 2026
arXiv: 2602.19140
代码: 待确认
领域: 多模态融合 / 情感计算
关键词: rectified flow, modality gap, multimodal fusion, affective computing, distribution mapping

一句话总结

提出 CaReFlow,首次将 rectified flow 用于多模态分布映射以缩小模态间隙:通过 one-to-many mapping 让源模态数据点观测目标模态全局分布,adaptive relaxed alignment 对不同关联度的模态对施加不同对齐强度,cyclic rectified flow 保证映射后信息不丢失,即使用简单拼接融合也能在多个多模态情感计算 benchmark 上达到 SOTA。

研究背景与动机

  1. 领域现状: 多模态情感计算 (MAC) 需要融合视觉、声学、语言三种模态来分析人类情感状态。核心挑战在于不同模态特征分布差异巨大(模态间隙),导致简单的多模态拼接融合甚至不如纯语言模型。
  2. 现有痛点: 现有弥合模态间隙的方法(对比学习、GAN、扩散模型等)大多是 one-to-one 对齐——将源模态每个数据点只推向一个固定的目标点。这存在两个问题:(a) 每个样本内配对数据太少,对齐不充分;(b) 源模态数据点看不到目标模态的整体分布,学到的对齐不够鲁棒。
  3. 核心矛盾: one-to-one 映射限制了源模态对目标模态全局分布的感知,而如果直接用 one-to-many 映射(如原始 rectified flow),又会产生歧义的流方向问题(每个源点需要同时匹配多个目标点),且需要递归训练多轮才能学到直的轨迹。
  4. 本文要解决什么: (a) 如何让源模态看到目标模态的全局分布?(b) 如何在 one-to-many 映射下避免歧义?(c) 如何避免映射过程中源模态信息丢失?
  5. 切入角度: Rectified flow 天然能将一个分布映射到另一个分布,且学到的轨迹是直的(可用少量 Euler 步模拟)。作者洞察到 rectified flow 的训练过程本身就是 one-to-many 的——随机采样分布对来训练,这正好可以暴露全局分布信息。
  6. 核心 idea 一句话: 用 rectified flow 做模态分布映射,通过自适应松弛对齐解决歧义问题,通过循环流保留源模态信息。

方法详解

整体框架

输入:三模态特征序列 \(\mathbf{U}_m \in \mathbb{R}^{T_m \times d_m}\)\(m \in \{a, v, l\}\),分别代表声学、视觉、语言),经 unimodal 网络提取表示 \(\mathbf{X}_m \in \mathbb{R}^d\)。由于语言是 MAC 中的主导模态,CaReFlow 将视觉和声学模态的分布映射到语言模态分布:\(\mathbf{X}_{m,l} = \text{CaReFlow}_{m,l}(\mathbf{X}_m)\),然后用简单的拼接 + MLP 做融合和预测。推理时用 2 个 Euler 步完成分布转换。

关键设计

  1. One-to-Many Mapping(一对多映射):
  2. 做什么:让源模态每个数据点在训练时能观测到目标模态的多个数据点,而非只看到同一样本内的那一个
  3. 核心思路:Rectified flow 训练时随机从两个分布采样数据对来训练速度场 \(\mathbf{V}_{m_1,m_2}\)。在实现中,每个 mini-batch 内先构造同一样本内的模态对,再随机采样不同样本间的模态对(数量比为 \(\beta\) 倍),这样每个源模态数据点就能感知目标模态的整体分布
  4. 设计动机:缓解每个样本内配对数据不足的问题,使分布映射更鲁棒。实验证明去掉此模块性能下降约 3 个百分点(Acc2),是所有模块中影响最大的

  5. Adaptive Relaxed Alignment(自适应松弛对齐):

  6. 做什么:对不同关联度的模态对施加不同的对齐严格程度
  7. 核心思路:修改 rectified flow 的目标函数,引入 margin \(\eta_{m_1,m_2}\): $\(\mathcal{L}^f_{m_1,m_2} = \mathbb{E}\left[\max\left(\|\mathbf{V}_{m_1,m_2}(\mathbf{X}^t_{m_1,m_2}, t) - (\mathbf{X}_{m_2} - \mathbf{X}_{m_1})\|_2 - \eta_{m_1,m_2}, 0\right)\right]\)$ 其中 \(\eta_{m_1,m_2} = 0\)(同一样本)或 \(\eta_{m_1,m_2} = \epsilon + \|y_i - y_j\|_2\)(不同样本,由标签距离自适应决定)
  8. 设计动机:同一样本的模态对应当严格对齐(\(\eta=0\) 退化为标准 rectified flow),不同样本的对施加松弛以允许差异。标签越相似的松弛越少,越不同的松弛越大。这同时解决了 one-to-many 中的歧义问题,并避免了递归训练 rectified flow 的需要

  9. Cyclic Rectified Flow(循环信息流):

  10. 做什么:构造反向 rectified flow,确保前向映射输出的特征 \(\mathbf{X}_{m_1,m_2}\) 能映射回原始特征 \(\mathbf{X}_{m_1}\)
  11. 核心思路:训练一个反向速度场 \(\hat{\mathbf{V}}_{m_1,m_2}\),使其能将前向输出还原: $\(\mathcal{L}^b_{m_1,m_2} = \mathbb{E}\left[\|\hat{\mathbf{V}}_{m_1,m_2}(\hat{\mathbf{X}}^t_{m_1,m_2}, t) - (\mathbf{X}_{m_1} - \mathbf{X}_{m_1,m_2})\|_2\right]\)$ 关键细节:反向 loss 对 \(\mathbf{X}_{m_1}\) 做 detach 但不对 \(\mathbf{X}_{m_1,m_2}\) 做 detach,让反向 loss 能反向传播影响前向 rectified flow
  12. 设计动机:防止分布映射过程中源模态的判别性信息丢失,让融合后的多模态表示能保留充分的模态特异性信息

  13. 速度场网络 \(\mathbf{V}_{m_1,m_2}\) 的实现:

  14. 使用正弦/余弦位置编码注入时间信息 \(\mathbf{TE}^t\),然后将输入特征和时间编码拼接后送入 MLP
  15. 对输入特征做 detach 操作,使前向 loss \(\mathcal{L}^f\) 只训练速度场而不更新 unimodal 网络,实现分布对齐任务和主任务的解耦

损失函数 / 训练策略

$\(\mathcal{L}_{total} = \mathcal{L} + \sum_{m \in \{a,v\}} (\alpha_f \times \mathcal{L}^f_{m,l} + \alpha_b \times \mathcal{L}^b_{m,l})\)$ 其中 \(\mathcal{L}\) 是主任务预测损失,\(\alpha_f\)\(\alpha_b\) 分别是前向和反向 loss 的权重。\(\alpha_f\) 需要较大值(确保分布映射充分),\(\alpha_b\) 需要适中值(过大会阻止分布转换)。

实验关键数据

主实验: MSA (CMU-MOSI & CMU-MOSEI)

方法 会议 MOSI Acc7 MOSI Acc2 MOSI MAE↓ MOSEI Acc2 MOSEI MAE↓
ITHP ICLR 2024 47.7 88.5 0.663 87.1 0.550
DLF AAAI 2025 49.4 88.7 0.669 87.5 0.515
AtCAF IF 2025 46.5 88.6 0.650 87.0 0.508
CaReFlow - 50.6 89.8 0.616 87.9 0.504

CH-SIMS-v2 数据集上 Acc5 达到 57.9(前 SOTA KuDA 为 53.1,提升 +4.8),Acc2 达到 82.9(前 SOTA AV-MC 为 80.6,提升 +2.3)。

消融实验

配置 CH-SIMS-v2 Acc5 CH-SIMS-v2 Acc2 MOSI Acc7 MOSI Acc2
W/O Distribution Alignment 55.1 78.4 45.9 86.7
W/O Cyclic Information Flow 56.3 81.7 47.2 87.9
W/O Adaptive Relaxed Alignment 56.8 82.4 47.9 88.5
W/O One-to-Many Mapping 57.4 79.8 47.2 87.0
Full CaReFlow 57.9 82.9 50.6 89.8

与其他分布映射方法对比

方法 类型 MOSI Acc7 MOSI Acc2 参数量 CH-SIMS-v2 Acc5
ARGF GAN 50.5 87.4 184.43M 51.8
MulT Transformer 40.7 88.1 185.51M 54.6
CLGSI 对比学习 45.8 89.0 186.31M 52.5
Diffusion Bridge 扩散模型 47.3 86.9 185.46M 52.5
CaReFlow Rectified Flow 50.6 89.8 185.38M 57.9

关键发现

  • One-to-Many 贡献最大: 去掉后 MOSI Acc2 降 2.8%,CH-SIMS-v2 Acc2 降 3.1%,是最关键的模块
  • 超参数鲁棒: 跨模态对比率 \(\beta\) 在 3-7 范围内性能稳定;Euler 步数 2-5 步变化极小(说明轨迹已经很直)
  • CaReFlow 参数量适中(185.38M),少于 CLGSI(186.31M)和 MulT(185.51M),性能提升来自对齐效果而非参数增加
  • t-SNE 可视化直观显示 CaReFlow 比 ARGF/CLGSI/Diffusion Bridge/DLF 更有效地缩小了模态间隙
  • 更换高级融合方法(tensor fusion)可进一步提升,如 CH-SIMS-v2 Acc2 从 82.9 提升到 83.6

亮点与洞察

  • Rectified flow 用于模态对齐的新视角: 将模态间隙问题重新定义为分布映射任务,利用 rectified flow 的几何直觉(直线轨迹映射两个分布)来弥合间隙。这比 GAN 和扩散模型更简单、更快
  • 自适应 margin 设计巧妙: 用标签距离 \(\|y_i - y_j\|\) 自适应控制松弛程度,既保留了 one-to-many 的全局视野优势,又引导模型区分"应该对齐的"和"可以松弛的"模态对。一举解决了歧义问题和递归训练问题
  • Detach 操作实现任务解耦: 前向 loss 对输入做 detach(不更新 unimodal 网络),反向 loss 对 \(\mathbf{X}_{m_1}\) 做 detach 但不对 \(\mathbf{X}_{m_1,m_2}\) 做 detach——这种精细的梯度控制使分布对齐和主任务可以充分各自优化
  • 融合方法无关: CaReFlow 作为预处理模块独立于融合机制,可以插入任何多模态系统

局限性 / 可改进方向

  • 目前仅验证了多模态情感计算任务,未在视觉-语言理解等更广泛的多模态任务上测试
  • 以语言为固定的目标模态(因为 MAC 中语言是主导模态),对于语言非主导的任务如何选择目标模态尚不清楚
  • 速度场用简单 MLP 实现,在更复杂的分布映射场景下可能表达能力不足
  • 超参数(\(\beta\), \(\epsilon\), \(\alpha_f\), \(\alpha_b\))需要调试,虽然作者展示了鲁棒性但特定数据集的最优值不同

相关工作与启发

  • vs Diffusion Bridge: 同为生成模型做分布映射,但扩散模型推理慢且只做 one-to-one,CaReFlow 用 rectified flow 可 2 步完成且支持 one-to-many
  • vs CLGSI (对比学习): CLGSI 也实现了 one-to-many(同类别正对),但不区分同样本对和同类别对的重要性差异,CaReFlow 通过 adaptive margin 实现更精细的控制
  • vs ARGF (GAN): GAN 训练不稳定且难以保证信息保留,CaReFlow 通过 cyclic flow 显式约束信息保留

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 rectified flow 用于模态对齐,三个创新点环环相扣
  • 实验充分度: ⭐⭐⭐⭐ 5个数据集3个任务 + 充分的消融和可视化
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰,方法描述数学形式化完善
  • 价值: ⭐⭐⭐⭐ 模态间隙是多模态融合的核心问题,rectified flow 方案简洁有效