Harmonizing Visual Representations for Unified Multimodal Understanding and Generation¶
会议: ICCV 2025
arXiv: 2503.21979
代码: https://github.com/wusize/Harmon
领域: 多模态VLM / 统一理解与生成
关键词: unified multimodal, MAR encoder, visual tokenization, understanding+generation, autoregressive
一句话总结¶
发现Masked Autoregressive (MAR)模型的编码器同时具备优秀的语义理解能力和生成能力,基于此提出Harmon框架——用共享的MAR编码器统一视觉理解和生成任务,通过三阶段渐进训练在生成benchmark上达SOTA同时在理解benchmark上匹配专用语义编码器方法。
背景与动机¶
统一视觉理解和生成是多模态研究的重要目标,但两个任务对视觉表示的需求存在内在矛盾:理解需要高级语义特征,生成需要低级像素/纹理信息。现有统一方法(如使用VQ或VAE统一视觉表示)通常优先保留图像的内在特征(有利生成),牺牲了语义信息(损害理解)。Janus等方法为此引入双编码器——一个用于理解、一个用于生成——但增加了复杂性。
核心问题¶
能否找到一种视觉表示,同时满足理解(高级语义)和生成(低级保真度)的需求,不需要双编码器?
方法详解¶
整体框架¶
Harmon是一个统一的自回归框架,使用单一的MAR(Masked Autoregressive)编码器同时处理理解和生成。三阶段训练:(1) MAR编码器预训练(mask-and-reconstruct)→ (2) 理解能力对齐(连接LLM进行VQA等任务微调)→ (3) 生成能力微调(保持理解同时优化生成质量)。
关键设计¶
-
MAR编码器的双重能力发现:通过对MAR编码器representation的系统分析,发现其具有:(a) 优秀的linear probing准确率(表示语义丰富)——因为mask-and-reconstruct的预训练任务要求模型理解全局语义来重建被mask的区域;(b) 精准的视觉概念特征响应——特征激活与图像中的物体/概念位置精确对应。这些发现表明MAR编码器天然具备理解+生成的双重潜力。
-
共享编码器统一两任务:不像Janus需要理解编码器+生成编码器,Harmon仅用一个MAR编码器——理解时提取特征给LLM,生成时提供token给autoregressive decoder。共享编码器意味着理解和生成可以互相促进——更好的语义理解有助于生成更准确的内容。
-
三阶段渐进训练:Stage 1训练MAR编码器建立基础表示;Stage 2冻结编码器连接LLM优化理解(VQA/caption等);Stage 3联合优化理解和生成,确保两个能力不互相干扰。
损失函数 / 训练策略¶
MAR预训练loss + LLM instruction tuning loss + autoregressive生成loss,三阶段渐进。
实验关键数据¶
- 生成:在GenEval、MJHQ30K和WISE benchmark上达到SOTA
- 理解:在标准VQA/理解benchmark上匹配使用专用语义编码器(如CLIP-ViT)的方法(如Janus)
- 单一MAR编码器同时实现两个任务的competitive性能——验证了representation harmonization的可行性
- 对比消融表明三阶段训练中每阶段都有不可替代的贡献
消融实验要点¶
- MAR vs VQ tokenizer vs VAE:MAR在语义理解指标(linear probe)上显著优于VQ和VAE
- 共享编码器 vs 双编码器:共享方案在参数更少的同时性能相当
- 三阶段训练缺任何一阶段都会影响最终性能
亮点¶
- MAR编码器的双重能力发现是核心insight:MIM预训练的编码器不仅能重建图像(适合生成),还学到了丰富的语义(适合理解)
- 单编码器统一两任务:比Janus的双编码器方案更优雅且参数更少
- 与Scaling Laws for NMM的发现互相印证:NMM证明了early-fusion(无专用视觉编码器)可行,Harmon证明了单编码器可以同时服务理解和生成
- 来自NTU Chen Change Loy组,质量有保障
局限性 / 可改进方向¶
- MAR编码器的分辨率可能限制生成质量
- 理解性能虽然匹配Janus,但尚未超越使用大型CLIP编码器的方法
- 三阶段训练相对复杂
- 未探索视频理解和生成的统一
与相关工作的对比¶
- vs. Janus/Janus-Pro:Janus用双编码器解耦理解和生成;Harmon证明单个MAR编码器就够——更简洁
- vs. Show-o/MUSE-VL:这些也是统一模型但用VQ tokenizer,语义表示不够好;Harmon发现MAR编码器在语义和生成上都更优
- vs. EVEv2:EVEv2解决encoder-free VLM的理解问题;Harmon进一步统一了理解+生成
启发与关联¶
- MAR编码器的发现可能影响视觉tokenizer的设计方向——MIM预训练可能比VQ更适合统一表示
- 与REPA-E的VAE改善发现类似——扩散训练可以改善VAE,这里MIM预训练也能让编码器兼顾语义和重建
评分¶
- 新颖性: ⭐⭐⭐⭐ MAR编码器双重能力的发现有价值,单编码器统一方案优雅
- 实验充分度: ⭐⭐⭐⭐ 理解+生成双维度评估,与Janus等SOTA对比
- 写作质量: ⭐⭐⭐⭐ 分析+方法+实验逻辑清晰
- 价值: ⭐⭐⭐⭐ 为统一多模态模型提供了新的视觉表示选择