Harmonizing Visual Representations for Unified Multimodal Understanding and Generation¶

会议: ICCV 2025
arXiv: 2503.21979
代码: https://github.com/wusize/Harmon
领域: 多模态VLM / 统一理解与生成
关键词: unified multimodal, MAR encoder, visual tokenization, understanding+generation, autoregressive

一句话总结¶

发现Masked Autoregressive (MAR)模型的编码器同时具备优秀的语义理解能力和生成能力，基于此提出Harmon框架——用共享的MAR编码器统一视觉理解和生成任务，通过三阶段渐进训练在生成benchmark上达SOTA同时在理解benchmark上匹配专用语义编码器方法。

背景与动机¶

统一视觉理解和生成是多模态研究的重要目标，但两个任务对视觉表示的需求存在内在矛盾：理解需要高级语义特征，生成需要低级像素/纹理信息。现有统一方法（如使用VQ或VAE统一视觉表示）通常优先保留图像的内在特征（有利生成），牺牲了语义信息（损害理解）。Janus等方法为此引入双编码器——一个用于理解、一个用于生成——但增加了复杂性。

核心问题¶

能否找到一种视觉表示，同时满足理解（高级语义）和生成（低级保真度）的需求，不需要双编码器？

方法详解¶

整体框架¶

Harmon是一个统一的自回归框架，使用单一的MAR（Masked Autoregressive）编码器同时处理理解和生成。三阶段训练：(1) MAR编码器预训练（mask-and-reconstruct）→ (2) 理解能力对齐（连接LLM进行VQA等任务微调）→ (3) 生成能力微调（保持理解同时优化生成质量）。

关键设计¶

MAR编码器的双重能力发现：通过对MAR编码器representation的系统分析，发现其具有：(a) 优秀的linear probing准确率（表示语义丰富）——因为mask-and-reconstruct的预训练任务要求模型理解全局语义来重建被mask的区域；(b) 精准的视觉概念特征响应——特征激活与图像中的物体/概念位置精确对应。这些发现表明MAR编码器天然具备理解+生成的双重潜力。
共享编码器统一两任务：不像Janus需要理解编码器+生成编码器，Harmon仅用一个MAR编码器——理解时提取特征给LLM，生成时提供token给autoregressive decoder。共享编码器意味着理解和生成可以互相促进——更好的语义理解有助于生成更准确的内容。
三阶段渐进训练：Stage 1训练MAR编码器建立基础表示；Stage 2冻结编码器连接LLM优化理解（VQA/caption等）；Stage 3联合优化理解和生成，确保两个能力不互相干扰。

损失函数 / 训练策略¶

MAR预训练loss + LLM instruction tuning loss + autoregressive生成loss，三阶段渐进。

实验关键数据¶

生成：在GenEval、MJHQ30K和WISE benchmark上达到SOTA
理解：在标准VQA/理解benchmark上匹配使用专用语义编码器（如CLIP-ViT）的方法（如Janus）
单一MAR编码器同时实现两个任务的competitive性能——验证了representation harmonization的可行性
对比消融表明三阶段训练中每阶段都有不可替代的贡献

消融实验要点¶

MAR vs VQ tokenizer vs VAE：MAR在语义理解指标（linear probe）上显著优于VQ和VAE
共享编码器 vs 双编码器：共享方案在参数更少的同时性能相当
三阶段训练缺任何一阶段都会影响最终性能

亮点¶

MAR编码器的双重能力发现是核心insight：MIM预训练的编码器不仅能重建图像（适合生成），还学到了丰富的语义（适合理解）
单编码器统一两任务：比Janus的双编码器方案更优雅且参数更少
与Scaling Laws for NMM的发现互相印证：NMM证明了early-fusion（无专用视觉编码器）可行，Harmon证明了单编码器可以同时服务理解和生成
来自NTU Chen Change Loy组，质量有保障

局限性 / 可改进方向¶

MAR编码器的分辨率可能限制生成质量
理解性能虽然匹配Janus，但尚未超越使用大型CLIP编码器的方法
三阶段训练相对复杂
未探索视频理解和生成的统一

与相关工作的对比¶

vs. Janus/Janus-Pro：Janus用双编码器解耦理解和生成；Harmon证明单个MAR编码器就够——更简洁
vs. Show-o/MUSE-VL：这些也是统一模型但用VQ tokenizer，语义表示不够好；Harmon发现MAR编码器在语义和生成上都更优
vs. EVEv2：EVEv2解决encoder-free VLM的理解问题；Harmon进一步统一了理解+生成

启发与关联¶

MAR编码器的发现可能影响视觉tokenizer的设计方向——MIM预训练可能比VQ更适合统一表示
与REPA-E的VAE改善发现类似——扩散训练可以改善VAE，这里MIM预训练也能让编码器兼顾语义和重建

评分¶

新颖性: ⭐⭐⭐⭐ MAR编码器双重能力的发现有价值，单编码器统一方案优雅
实验充分度: ⭐⭐⭐⭐ 理解+生成双维度评估，与Janus等SOTA对比
写作质量: ⭐⭐⭐⭐ 分析+方法+实验逻辑清晰
价值: ⭐⭐⭐⭐ 为统一多模态模型提供了新的视觉表示选择