Unified Vision-Language Modeling via Concept Space Alignment¶
会议: ICLR 2026
arXiv: 2603.01096
代码: 无
领域: 多模态VLM
关键词: 视觉-语言嵌入空间, 潜在扩散模型, 多语言, 视频字幕, Large Concept Model
一句话总结¶
提出v-Sonar将视觉编码器后置对齐到文本嵌入空间Sonar,使得在Sonar空间上训练的Large Concept Model (LCM)能零样本处理视觉输入,并通过指令微调扩展为v-LCM,在61/62种语言上超越现有VLM。
研究背景与动机¶
现有的语言和模态无关嵌入空间(如SONAR,支持1500种文本语言和177种语音语言)在文本和语音任务中取得了出色表现,但仍局限于文本和语音模态,无法处理视觉任务。Large Concept Model (LCM)在Sonar空间中用扩散目标做next-embedding预测,展示了在连续嵌入空间而非离散token上进行语言建模的可行性。
本文的核心动机是:能否将视觉模态也对齐到Sonar空间,使LCM无需任何视觉数据训练就能理解视觉输入?进一步地,能否通过视觉-语言指令微调来增强LCM?
方法详解¶
整体框架¶
整体分三部分:(1)v-Sonar:将Perception Encoder对齐到Sonar文本空间;(2)LCM零样本视觉理解验证;(3)v-LCM:在v-Sonar+Sonar统一空间上做视觉-语言指令微调。
关键设计¶
-
v-Sonar视觉编码器对齐: 在Perception Encoder (PE)之上堆叠轻量投影器:先注入位置编码(使帧有时序信息),再经过一层temporal attention实现帧间交互,最后用attention聚合所有帧为单一视频级表征。训练目标是MSE损失最小化视觉嵌入和Sonar文本嵌入的距离:\(\mathcal{L}_{\text{align}} = \frac{1}{N}\sum_{i=1}^{N}\|f_\theta(V_i) - g(T_i)\|_2^2\),其中Sonar编码器 \(g\) 冻结,仅更新投影器和视觉编码器。
-
粗到细课程训练: 三阶段对齐——Stage 1用12M大规模图文对建立基础映射;Stage 2引入2M合成视频字幕数据适应时序动态;Stage 3用200K高质量人工标注视频字幕精细对齐。
-
v-LCM潜在扩散视觉-语言模型: 将视觉(v-Sonar编码)和文本(Sonar编码)统一为潜在嵌入序列,用与LCM文本预训练相同的潜在扩散目标训练。采用two-tower架构:contextualizer编码前序嵌入,denoiser迭代重建下一个嵌入。扩散过程为 \(x_t = \alpha_t x^0 + \sigma_t \epsilon\),训练损失为 \(\mathcal{L}(\theta) = \mathbb{E}\|x^0 - \mu_\theta(\alpha_t x^0 + \sigma_t \epsilon, t, c)\|_2\)。
损失函数 / 训练策略¶
- v-Sonar对齐:MSE损失 + 粗到细三阶段课程
- 使用异步学习率:投影器和编码器使用不同学习率防止梯度不稳定
- 采用归一化初始化和attention pooling进一步提升
- v-LCM:与LCM原始文本预训练相同的潜在扩散目标,在M3IT多模态多语言指令数据上微调
实验关键数据¶
主实验¶
| 数据集 | 指标 | v-Sonar | PECoreG | SigLIP2-G-OPT |
|---|---|---|---|---|
| PE-Video | R@1 | 73.03 | 63.91 | 47.55 |
| Vatex | R@1 | 40.75 | 18.90 | 27.52 |
| Dream-1k | R@1 | 63.30 | 72.10 | 61.50 |
| 数据集 | 指标 | v-Sonar+OmniSONAR Decoder | PLM-3B | Qwen2.5-VL-3B |
|---|---|---|---|---|
| PE-Video | Bleu | 39.0 | 21.1 | 30.0 |
| Dream-1k | Bleu | 23.9 | 19.6 | 16.1 |
| Vatex-zh | R-L | 26.9 | - | - |
| M3IT多语言评测 | v-LCM | InternVL | Qwen-VL |
|---|---|---|---|
| 62种语言中超越对手数 | 61/62 | - | - |
消融实验¶
| 配置 | MSE↓ | Cos.Sim↑ | Bleu↑ | 说明 |
|---|---|---|---|---|
| Linear Proj. | 1.45e-3 | 0.694 | 38.0 | 冻结PE基线 |
| Full PE | 1.54e-3 | 0.672 | 37.1 | 全部微调反而更差 |
| + Async. LR | 1.43e-3 | 0.700 | 39.7 | 异步学习率有效 |
| + Norm. Init. | 1.39e-3 | 0.708 | 39.8 | 归一化初始化 |
| + Attn. Pooling | 1.39e-3 | 0.708 | 39.8 | 注意力聚合 |
| Full Pipeline (3-stage) | 1.36e-3 | 0.716 | 40.1 | 完整三阶段最优 |
| w/o Stage2 (SV) | 1.39e-3 | 0.710 | 39.6 | 去掉合成视频阶段 |
| w/o Stage1&2 | 1.39e-3 | 0.708 | 39.8 | 仅用人工标注 |
关键发现¶
- v-Sonar在PE-Video和Vatex上检索R@1分别比原始PE提升9.12和21.85
- 纯文本训练的LCM可以零样本处理v-Sonar视觉嵌入,在视频字幕任务上与VLM差距有限
- OmniSONAR较Sonar1对齐更容易(嵌入范数1.69 vs 0.264,协方差trace 1.83 vs 0.049),Sonar1空间存在坍缩问题
- v-LCM在M3IT评测中匹配SOTA VLM的图像/视频理解能力,同时在61种非英语语言上显著领先
亮点与洞察¶
- 提出了一种新范式:在模态无关的连续嵌入空间中统一视觉和语言,使用扩散目标而非离散token
- 后置对齐策略(post-hoc alignment)的成功证明高质量文本嵌入空间可以"免费"接纳新的模态
- LCM零样本视觉理解能力令人印象深刻,验证了共享嵌入空间的跨模态迁移潜力
- 多语言能力是天然优势:Sonar原生支持1500种语言,v-LCM自动继承
局限与展望¶
- Dream-1k检索v-Sonar不如原始PE(63.3 vs 72.1),说明对齐可能损失某些特征
- Vatex短字幕场景表现不及InternVL,受训练数据偏向详细字幕影响
- 当前v-LCM规模较小,与大规模VLM(7B+)的直接对比有待验证
- Sonar1版本空间坍缩问题需要更好的解决方案(目前依赖OmniSONAR改进版)
相关工作与启发¶
- 与Chameleon等token-based多模态模型形成对比,提出连续嵌入空间的替代方案
- 粗到细课程训练策略可借鉴到其他跨模态对齐任务
- 对低资源语言的多模态模型开发有重要参考价值
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将视觉对齐到模态无关嵌入空间+潜在扩散生成的新范式极具创新
- 实验充分度: ⭐⭐⭐⭐ 检索、字幕、多语言评测全面,消融完整;但大规模对比有限
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述流畅
- 价值: ⭐⭐⭐⭐⭐ 为多模态多语言AI提供了极具潜力的新方向,61/62语言领先很有说服力
相关论文¶
- [ICLR 2026] UniHM: Unified Dexterous Hand Manipulation with Vision Language Model
- [CVPR 2026] DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing
- [ICLR 2026] Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models
- [ICCV 2025] MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding
- [ICML 2025] Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin