Explore How to Inject Beneficial Noise in MLLMs¶
会议: AAAI 2026
arXiv: 2511.12917
代码: https://github.com/zhuruishu0848/MuNG
领域: 多模态VLM
关键词: 正激励噪声, 参数高效微调, 多模态大模型, 变分推断, 跨模态对齐
一句话总结¶
提出 Multimodal Noise Generator (MuNG),通过变分推断框架从图文对中动态生成"有益噪声"注入冻结的MLLM视觉特征中,以抑制无关语义、增强跨模态表征对齐,仅需约1%额外参数即可超越全参数微调和LoRA等PEFT方法。
背景与动机¶
当前MLLM(如LLaVA、Qwen-VL)在空间关系理解、幻觉抑制、文本过度依赖等方面仍存在明显不足。全参数微调(Full-FT)虽然有效,但计算开销巨大且容易过拟合,尤其在微调数据有限时会损害模型已学到的通用知识。现有的参数高效微调方法(LoRA、Adapter、VPT等)大多沿用单模态优化范式——要么微调LLM Decoder(LoRA、Adapter),要么在视觉侧加入可学习prompt(VPT),都忽略了视觉-语言的跨模态协同优化需求,难以有效适应下游任务的分布偏移和对齐需求。
作者注意到一个此前被忽视的方向:与其微调模型参数,不如修改输入给LLM Decoder的内容。受"正激励噪声"(Positive-Incentive Noise, π-noise)理论的启发,他们提出一种全新的思路——向冻结MLLM的视觉特征中注入经过精心设计的有益噪声,来降低任务复杂度、提升模型表现。
核心问题¶
如何设计一种轻量级、多模态感知的噪声生成机制,使得注入的噪声能降低VQA任务的条件熵(即简化任务),从而在不改变模型主体参数的情况下显著提升MLLM性能?
这个问题的本质是:能否通过一个外挂的小型噪声生成器,利用跨模态信息动态生成针对具体输入的"有益扰动",让模型在高维特征空间中更好地聚焦于与问题相关的视觉语义,抑制无关信息干扰?
方法详解¶
整体框架¶
MuNG插入在MLLM的特征对齐层(Feature Alignment Layer)和LLM Decoder之间。整体pipeline为: 1. 视觉和文本分别经过各自编码器获得特征 \(X_V\) 和 \(X_L\) 2. MuNG以 \(X_V\)、\(X_L\)(训练时还包括目标答案 \(A\))为输入,通过交叉注意力机制建模跨模态关系,输出噪声分布的均值 \(\mu\) 和方差 \(\sigma\) 3. 通过重参数化技巧从标准正态分布采样 \(\epsilon\),生成噪声 \(\mathcal{E} = \sigma \cdot \epsilon + \mu\) 4. 将噪声以加法方式注入视觉特征 \(X_V\),得到增强后的视觉表示 5. 增强后的视觉特征与语言特征一起送入冻结的LLM Decoder生成最终输出
关键设计¶
-
π-noise理论基础:作者从信息论角度定义VQA任务复杂度为条件熵 \(H(\mathcal{T}) = \mathbb{E}[-\log p(A|X_V, X_L)]\)。如果注入噪声 \(\mathcal{E}\) 后满足 \(I(\mathcal{T}, \mathcal{E}) = H(\mathcal{T}) - H(\mathcal{T}|\mathcal{E}) > 0\),即噪声能降低任务的条件熵,则该噪声为"有益噪声"。由于 \(H(\mathcal{T})\) 对给定模型是常数,最大化互信息等价于最小化 \(H(\mathcal{T}|\mathcal{E})\)。这为噪声注入提供了严格的理论正当性。
-
变分近似求解:由于直接计算 \(p(A|X_V, X_L, \mathcal{E})\) 不可行,作者引入变分推断。利用KL散度的非负性导出变分上界,再通过蒙特卡洛采样将期望近似为有限样本的平均,得到可优化的损失函数: $\(L \approx \frac{1}{n \cdot m} \sum_{i=1}^{n} \sum_{j=1}^{m} [-\log q(A_i | X_V^i, X_L^i, G_\theta(\epsilon_j^i, A_i, X_V^i, X_L^i))]\)$ 其中 \(m\) 是每个样本的采样次数。
-
基于交叉注意力的多模态噪声生成器(MuNG):具体实现中,噪声生成器以视觉特征为Query、文本特征和答案特征为Key/Value,通过交叉注意力机制动态分析跨模态关系,输出均值 \(\mu\) 和 \(\log(\sigma)\)。推理时不使用答案 \(A\),仅用 \(X_V\) 和 \(X_L\) 生成噪声。消融实验证明,交叉注意力架构显著优于MLP架构。
-
噪声注入策略:噪声以加法方式注入视觉特征(而非点乘),保持原始推理路径最大程度不被破坏。注入位置选择在特征对齐层之后、LLM Decoder之前,因为此时的特征已经过预训练模型的初步对齐,包含更丰富的集成语义信息,且注入位置靠近输出层减少了反向传播涉及的参数量。
损失函数 / 训练策略¶
- 损失函数:本质上是标准的自回归语言建模损失,但输入的视觉特征被注入了MuNG生成的噪声。训练时将问题和目标答案拼接作为输入,但仅在答案部分计算loss(与LLM SFT一致)。
- 训练策略:冻结整个预训练Encoder和LLM Decoder的所有参数,仅训练MuNG的少量参数。对于LLM Decoder未经多模态数据预训练的情况(如LLaVA-1.5的pretrain阶段),可额外引入小量低秩LoRA适配器联合训练。
- 每个样本采样 \(m\) 次 \(\epsilon\) 来估计训练损失。
实验关键数据¶
Qwen2.5-VL-3B (MMPR-v1.1数据集微调)¶
| 方法 | 可训练参数 | MME-P | MME-C | VQAv2 | GQA | VisWiz | MM-Vet | POPE | MMB | SQA | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Base* | - | 1563 | 584 | 76.68 | 79.68 | 65.00 | 54.30 | 86.32 | 73.50 | 47.33 | 68.97 |
| Full-FT* | 100% | 1555 | 587 | 76.51 | 80.68 | 66.20 | 43.26 | 85.50 | 71.93 | 52.00 | 68.01 |
| LoRA* | 7.82% | 1624 | 613 | 79.88 | 79.25 | 65.30 | 55.33 | 86.50 | 73.29 | 53.33 | 70.41 |
| DoRA* | 7.99% | 1567 | 639 | 78.77 | 79.25 | 65.40 | 54.06 | 86.37 | 73.41 | 48.67 | 69.42 |
| MuNG* | 0.67% | 1613 | 625 | 79.92 | 79.54 | 66.50 | 54.46 | 86.95 | 73.64 | 53.33 | 70.62 |
Qwen2.5-VL-7B (MMPR-v1.1数据集微调)¶
| 方法 | 可训练参数 | MME-P | MME-C | Sum(%) | MMVet | POPE | Avg |
|---|---|---|---|---|---|---|---|
| Base* | - | 1694 | 611 | 82.32 | 72.00 | 87.01 | 80.44 |
| Full-FT* | 100% | 1693 | 631 | 82.98 | 69.00 | 87.28 | 79.75 |
| LoRA* | 6.38% | 1646 | 627 | 81.16 | 72.20 | 86.74 | 80.03 |
| MuNG* | 1.83% | 1717 | 610 | 83.11 | 71.00 | 87.41 | 80.51 |
LLaVA-1.5-7B (LLaVA-Instruct-150K微调)¶
| 方法 | 可训练参数 | SQA | POPE | MM-Vet | Avg |
|---|---|---|---|---|---|
| Full-FT | 100% | 67.2 | 85.9 | 31.1 | 59.1 |
| LoRA | 4.61% | 68.3 | 86.4 | 30.2 | 59.0 |
| DoRA | 4.63% | 68.4 | 87.2 | 33.3 | 60.2 |
| MuNG | 2.78% | 70.0 | 86.9 | 32.4 | 59.3 |
效率对比 (Qwen2.5-VL-3B)¶
| 方法 | 可训练参数 | 训练时间(相对) | TTFT(s) | TPOT(ms) | Avg |
|---|---|---|---|---|---|
| Full-FT | 100% | 5.17× | 0.9 | 20.5 | 68.01 |
| LoRA | 7.99% | 2.42× | 2.5 | 21.4 | 70.41 |
| MuNG | 0.67% | 1.00× | 3.2 | 20.5 | 70.62 |
消融实验要点¶
- 噪声生成器架构:Cross-Attention + 加法注入 + 带噪声采样 = 最优组合(Avg 71.89)。MLP架构大幅落后(Avg ~42),点乘注入方式效果远不如加法。
- 噪声 vs 纯交叉注意力:仅用CA做特征提取(无噪声采样)的Avg为70.49,加入有益噪声采样后提升到71.89,证明收益不仅来自CA结构,噪声本身提供了关键的信息引导。
- 噪声 vs 随机高斯噪声:直接加高斯噪声的Avg为71.48,比有益噪声的71.89低,说明关键不在于随机性本身,而在于噪声携带的语义引导信息。
- LoRA rank消融(LLaVA):LoRA rank=32 + MuNG(Avg 63.1)> LoRA rank=128(Avg 61.6)> LoRA rank=32(Avg 61.9),说明MuNG与低秩LoRA互补性强。
亮点¶
- 理论驱动的方法设计:从正激励噪声理论出发,通过变分推断严格推导出训练目标,不是拍脑袋设计的工程trick,而是有信息论基础的方法。
- 极致的参数效率:仅用0.67%~1.83%的额外参数就超越了Full-FT和7%+参数量的LoRA/DoRA,并且训练时间最短(1×基准)。
- 噪声可视化说服力强:可视化清楚展示了MuNG生成的噪声能精准抑制与问题无关的语义区域(如图中问问斑马数量时,噪声会抑制长颈鹿的特征),验证了"降低任务熵"的设计原则。
- 即插即用的框架设计:MuNG作为feature alignment layer和LLM decoder之间的插件,不修改模型主体架构,与LoRA等方法正交可叠加。
- 跨模型泛化:在Qwen2.5-VL-3B/7B和LLaVA-1.5-7B三个不同模型上都展示了有效性。
局限性 / 可改进方向¶
- LLM Decoder未经多模态预训练时效果受限:当LLM Decoder完全没见过多模态数据时(如LLaVA第一阶段pretrain模型),仅靠MuNG效果大幅下降,必须配合LoRA才能恢复。这说明MuNG的有效性依赖于LLM Decoder已具备基本的多模态理解能力。
- 推理时TTFT略有增加:MuNG在推理时需要额外运行噪声生成器,TTFT从Full-FT的0.9s增加到3.2s(Qwen2.5-VL-3B),对于延迟敏感的场景可能是个问题。
- 仅验证了VQA类任务:所有实验都是视觉问答/理解类benchmark,未验证在生成类任务(如image captioning、visual grounding)上是否同样有效。
- 训练时需要目标答案:噪声生成器在训练时使用了答案信息 \(A\),虽然推理时不需要,但这意味着训练只能在有监督数据上进行,不能直接用于无标注的自监督场景。
- 噪声仅注入视觉侧:目前仅探索了在视觉特征上注入噪声,未尝试在文本特征或cross-modal特征上注入。
- LLaVA上的提升不够显著:在LLaVA-1.5-7B上,MuNG的平均分(59.3)与DoRA(60.2)相比并无优势,甚至略低于DoRA。
与相关工作的对比¶
- vs LoRA/DoRA:LoRA/DoRA通过低秩矩阵微调LLM Decoder内部参数,属于模型参数空间的修改;MuNG则修改输入给LLM Decoder的数据,不改模型参数。MuNG参数量远少于LoRA(0.67% vs 7.82%),在Qwen上性能持平或略优,但在LLaVA上表现不如DoRA。
- vs VPT(Visual Prompt Tuning):VPT在视觉嵌入层后添加可学习prompt token,仍是单模态优化;MuNG利用跨模态信息生成噪声,是真正的多模态协同优化。
- vs 对抗攻击中的噪声注入:对抗攻击(FGSM/PGD)生成的噪声目的是让模型犯错,而MuNG生成的是正激励噪声,目的是简化任务、引导模型更好地回答。两者在噪声的设计目标和优化方向上完全相反。
启发与关联¶
- 与MLLM异常检测idea的关联:
ideas/segmentation/20260318_vfm_cluster_mllm_judge_anomaly.md探讨了MLLM在工业异常检测中的应用。MuNG的噪声注入思路或许可以用于异常检测场景——通过注入引导MLLM关注异常区域的有益噪声来提升检测精度。 - 噪声作为正则化的新视角:传统理解中噪声是有害的,而本文证明精心设计的噪声可以作为"任务简化器"。这一思路可以推广到其他模态(音频、点云)或其他任务(检测、分割)。
- 与数据增强的联系:作者在文中与对抗噪声做了区分,但未充分讨论与特征层面数据增强方法(如Dropout、Manifold Mixup)的关系。MuNG可以被看作一种"语义感知的特征增强"。
- 与幻觉抑制的潜在关系:MuNG通过抑制无关语义来降低任务熵,这与MLLM幻觉抑制的目标高度一致——幻觉很大程度上来自模型关注了不相关的视觉区域。可以探索将MuNG专门用于幻觉抑制任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将正激励噪声理论引入MLLM微调是新颖的视角,但噪声注入和变分推断本身不算全新技术
- 实验充分度: ⭐⭐⭐⭐ 在两个主流MLLM上进行了广泛实验,消融和可视化分析详尽,但LLaVA上的改进有限,且缺少生成类任务验证
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,实验组织合理,但Related Work中与特征增强方法的对比不够充分
- 价值: ⭐⭐⭐⭐ 提供了一种新的MLLM微调范式(修改输入而非模型参数),对PEFT领域有启发意义,但实际应用中需要权衡TTFT增加带来的延迟