Beyond Language Modeling: An Exploration of Multimodal Pretraining¶

日期: 2026-03-03
arXiv: 2603.03276
代码: https://beyond-llms.github.io/
领域: 多模态/VLM
关键词: 多模态预训练, Transfusion, 视觉表示, MoE, 缩放定律

一句话总结¶

Meta FAIR 通过从头训练的受控实验系统研究了多模态预训练的设计空间，发现 RAE（表示自编码器）是最优统一视觉表示、视觉和语言数据协同而非竞争、世界建模能力从通用训练涌现、MoE 架构自然调和视觉和语言之间的缩放不对称性。

研究背景与动机¶

领域现状：基础模型时代主要由语言预训练定义，但文本是人类的有损抽象——缺失物理、几何、因果性等信息。高质量文本数据即将耗尽。
现有痛点：(1) 统一多模态预训练的设计空间不透明——视觉表示、数据混合、架构选择如何影响最终能力？(2) 大多数方法从预训练语言模型出发做多模态适配，预训练知识混淆了对多模态训练本身的理解。
核心矛盾：要理解多模态预训练的基本规律，必须从头训练消除语言预训练的干扰，但这需要大量计算资源和系统性的实验设计。
切入角度：用 Transfusion 框架（语言用 next-token，视觉用 diffusion）从头训练，控制变量逐一研究视觉表示、数据、架构和缩放。
核心 idea 一句话：通过受控从头训练实验揭示多模态预训练的四个关键洞察：RAE > VAE、数据协同、世界建模涌现、MoE 调和缩放不对称。

方法详解¶

整体框架¶

单一 decoder-only Transformer 从头训练，语言用 next-token prediction，视觉用 flow matching。输入包含文本、视频、图文对和动作条件视频。默认模型 2.3B 总参数（1.5B 激活/token）。

关键设计¶

视觉表示研究：
- 对比 VAE（SD-VAE、FLUX.1）、语义编码器（SigLIP 2、DINOv2、WebSSL）和原始像素
- 核心发现：RAE（基于 SigLIP 2 的表示自编码器）在生成和理解上都最优——颠覆了"VAE 必须用于生成"的假设
- SigLIP 2 在 DPGBench、GenEval（生成）和 VQA（理解）上全面超越 FLUX.1 VAE
- 原始像素理解性能接近但生成较差，是有潜力的未来方向
数据协同研究：
- Text + Video 不损害甚至略微提升语言困惑度（Text + Video 在 DCLM 上优于纯文本基线）
- I/T 数据对视觉生成和理解至关重要，但其中的 caption 分布偏离会略微降低语言性能
- 解决方案：按目标解耦数据——MetaCLIP 用于 I→T（理解），Shutterstock 用于 T→I（生成）
- 关键发现：将 20B VQA 数据 + 80B 异构数据（视频/文本/I/T）的混合训练效果 > 100B 纯 VQA 数据
世界建模涌现：
- 在 NWM（导航世界模型）设置中，直接把动作编码为文本 token
- 世界建模能力主要从通用多模态预训练涌现，而非领域特定数据——仅 1% 领域数据即达饱和
- 零样本自然语言控制导航作为副产物涌现
MoE 架构研究：
- 模态特定 FFN（一个文本 FFN + 一个视觉 FFN）一致优于共享 FFN
- MoE 泛化了模态特定 FFN，动态学习模态分离
- 缩放不对称性：视觉比语言更需要数据（vision is data-hungry），而语言更需要模型容量
- MoE 天然调和这种不对称：提供语言所需的高模型容量，同时容纳视觉的数据密集性

缩放定律¶

IsoFLOP 分析揭示： - 视觉 loss 对数据量更敏感（数据-hungry） - 语言 loss 对模型大小更敏感（capacity-hungry） - MoE 通过让总容量与激活计算解耦，同时满足两种需求

实验关键数据¶

视觉表示对比¶

编码器	DPGBench↑	GenEval↑	VQA Avg↑	Text PPL↓
SD-VAE	低	低	低	接近基线
FLUX.1	中	中	中	接近基线
SigLIP 2 (RAE)	最高	最高	最高	接近基线
Raw Pixel	低	低	接近	最佳

数据协同（VQA）¶

数据混合	VQA Avg
100B VQA only	基线
20B VQA + 80B 视频	> 基线
20B VQA + 80B 文本	> 基线
20B VQA + 80B I/T	> 基线

关键发现¶

RAE 统一生成和理解：一个编码器就够，不需要 Janus 式的双表示设计
视觉数据不与文本竞争：Text + Video 甚至略微提升语言困惑度
世界建模是通用多模态能力的涌现属性，不需要大量领域数据
MoE 的专家自然形成模态分离：视觉和语言 token 被路由到不同的专家子集

亮点与洞察¶

"RAE 统一生成理解"颠覆了 VAE 必要性假设：这是对 Janus/BAGEL 等双编码器设计的直接挑战，支持更简洁的统一架构
缩放不对称性是重要的经验发现：视觉 data-hungry + 语言 capacity-hungry，MoE 是自然的解决方案
柏拉图洞穴隐喻的引入很有启发性——语言模型只学了"影子的描述"，需要直接建模"投射影子的物体"
异构数据混合训练优于纯任务数据的发现对所有多模态模型的数据策略有指导意义

局限性 / 可改进方向¶

最大模型只有 2.3B 参数，缩放定律的外推到更大规模尚待验证
视频只按 1FPS 处理，时序建模能力有限
VQA 需要 1 epoch 微调才能评估，非纯零样本
未与最新的大规模多模态模型（如 GPT-4o、Gemini）直接对比

评分¶

新颖性: ⭐⭐⭐⭐⭐ 系统性的从头训练实验提供了多个重要经验发现
实验充分度: ⭐⭐⭐⭐⭐ IsoFLOP 分析、数据消融、表示对比、MoE 设计空间全面覆盖
写作质量: ⭐⭐⭐⭐⭐ 清晰的洞察提炼，优秀的可视化
价值: ⭐⭐⭐⭐⭐ 为多模态预训练提供了急需的"实验物理学"式经验指导