跳转至

Explore How to Inject Beneficial Noise in MLLMs

会议: AAAI 2026
arXiv: 2511.12917
代码: https://github.com/zhuruishu0848/MuNG
领域: 多模态VLM
关键词: 正激励噪声, 参数高效微调, 多模态大模型, 变分推断, 跨模态对齐

一句话总结

提出 Multimodal Noise Generator (MuNG),通过变分推断框架从图文对中动态生成"有益噪声"注入冻结的MLLM视觉特征中,以抑制无关语义、增强跨模态表征对齐,仅需约1%额外参数即可超越全参数微调和LoRA等PEFT方法。

背景与动机

当前MLLM(如LLaVA、Qwen-VL)在空间关系理解、幻觉抑制、文本过度依赖等方面仍存在明显不足。全参数微调(Full-FT)虽然有效,但计算开销巨大且容易过拟合,尤其在微调数据有限时会损害模型已学到的通用知识。现有的参数高效微调方法(LoRA、Adapter、VPT等)大多沿用单模态优化范式——要么微调LLM Decoder(LoRA、Adapter),要么在视觉侧加入可学习prompt(VPT),都忽略了视觉-语言的跨模态协同优化需求,难以有效适应下游任务的分布偏移和对齐需求。

作者注意到一个此前被忽视的方向:与其微调模型参数,不如修改输入给LLM Decoder的内容。受"正激励噪声"(Positive-Incentive Noise, π-noise)理论的启发,他们提出一种全新的思路——向冻结MLLM的视觉特征中注入经过精心设计的有益噪声,来降低任务复杂度、提升模型表现。

核心问题

如何设计一种轻量级、多模态感知的噪声生成机制,使得注入的噪声能降低VQA任务的条件熵(即简化任务),从而在不改变模型主体参数的情况下显著提升MLLM性能?

这个问题的本质是:能否通过一个外挂的小型噪声生成器,利用跨模态信息动态生成针对具体输入的"有益扰动",让模型在高维特征空间中更好地聚焦于与问题相关的视觉语义,抑制无关信息干扰?

方法详解

整体框架

MuNG插入在MLLM的特征对齐层(Feature Alignment Layer)和LLM Decoder之间。整体pipeline为: 1. 视觉和文本分别经过各自编码器获得特征 \(X_V\)\(X_L\) 2. MuNG以 \(X_V\)\(X_L\)(训练时还包括目标答案 \(A\))为输入,通过交叉注意力机制建模跨模态关系,输出噪声分布的均值 \(\mu\) 和方差 \(\sigma\) 3. 通过重参数化技巧从标准正态分布采样 \(\epsilon\),生成噪声 \(\mathcal{E} = \sigma \cdot \epsilon + \mu\) 4. 将噪声以加法方式注入视觉特征 \(X_V\),得到增强后的视觉表示 5. 增强后的视觉特征与语言特征一起送入冻结的LLM Decoder生成最终输出

关键设计

  1. π-noise理论基础:作者从信息论角度定义VQA任务复杂度为条件熵 \(H(\mathcal{T}) = \mathbb{E}[-\log p(A|X_V, X_L)]\)。如果注入噪声 \(\mathcal{E}\) 后满足 \(I(\mathcal{T}, \mathcal{E}) = H(\mathcal{T}) - H(\mathcal{T}|\mathcal{E}) > 0\),即噪声能降低任务的条件熵,则该噪声为"有益噪声"。由于 \(H(\mathcal{T})\) 对给定模型是常数,最大化互信息等价于最小化 \(H(\mathcal{T}|\mathcal{E})\)。这为噪声注入提供了严格的理论正当性。

  2. 变分近似求解:由于直接计算 \(p(A|X_V, X_L, \mathcal{E})\) 不可行,作者引入变分推断。利用KL散度的非负性导出变分上界,再通过蒙特卡洛采样将期望近似为有限样本的平均,得到可优化的损失函数: $\(L \approx \frac{1}{n \cdot m} \sum_{i=1}^{n} \sum_{j=1}^{m} [-\log q(A_i | X_V^i, X_L^i, G_\theta(\epsilon_j^i, A_i, X_V^i, X_L^i))]\)$ 其中 \(m\) 是每个样本的采样次数。

  3. 基于交叉注意力的多模态噪声生成器(MuNG):具体实现中,噪声生成器以视觉特征为Query、文本特征和答案特征为Key/Value,通过交叉注意力机制动态分析跨模态关系,输出均值 \(\mu\)\(\log(\sigma)\)。推理时不使用答案 \(A\),仅用 \(X_V\)\(X_L\) 生成噪声。消融实验证明,交叉注意力架构显著优于MLP架构。

  4. 噪声注入策略:噪声以加法方式注入视觉特征(而非点乘),保持原始推理路径最大程度不被破坏。注入位置选择在特征对齐层之后、LLM Decoder之前,因为此时的特征已经过预训练模型的初步对齐,包含更丰富的集成语义信息,且注入位置靠近输出层减少了反向传播涉及的参数量。

损失函数 / 训练策略

  • 损失函数:本质上是标准的自回归语言建模损失,但输入的视觉特征被注入了MuNG生成的噪声。训练时将问题和目标答案拼接作为输入,但仅在答案部分计算loss(与LLM SFT一致)。
  • 训练策略:冻结整个预训练Encoder和LLM Decoder的所有参数,仅训练MuNG的少量参数。对于LLM Decoder未经多模态数据预训练的情况(如LLaVA-1.5的pretrain阶段),可额外引入小量低秩LoRA适配器联合训练。
  • 每个样本采样 \(m\)\(\epsilon\) 来估计训练损失。

实验关键数据

Qwen2.5-VL-3B (MMPR-v1.1数据集微调)

方法 可训练参数 MME-P MME-C VQAv2 GQA VisWiz MM-Vet POPE MMB SQA Avg
Base* - 1563 584 76.68 79.68 65.00 54.30 86.32 73.50 47.33 68.97
Full-FT* 100% 1555 587 76.51 80.68 66.20 43.26 85.50 71.93 52.00 68.01
LoRA* 7.82% 1624 613 79.88 79.25 65.30 55.33 86.50 73.29 53.33 70.41
DoRA* 7.99% 1567 639 78.77 79.25 65.40 54.06 86.37 73.41 48.67 69.42
MuNG* 0.67% 1613 625 79.92 79.54 66.50 54.46 86.95 73.64 53.33 70.62

Qwen2.5-VL-7B (MMPR-v1.1数据集微调)

方法 可训练参数 MME-P MME-C Sum(%) MMVet POPE Avg
Base* - 1694 611 82.32 72.00 87.01 80.44
Full-FT* 100% 1693 631 82.98 69.00 87.28 79.75
LoRA* 6.38% 1646 627 81.16 72.20 86.74 80.03
MuNG* 1.83% 1717 610 83.11 71.00 87.41 80.51

LLaVA-1.5-7B (LLaVA-Instruct-150K微调)

方法 可训练参数 SQA POPE MM-Vet Avg
Full-FT 100% 67.2 85.9 31.1 59.1
LoRA 4.61% 68.3 86.4 30.2 59.0
DoRA 4.63% 68.4 87.2 33.3 60.2
MuNG 2.78% 70.0 86.9 32.4 59.3

效率对比 (Qwen2.5-VL-3B)

方法 可训练参数 训练时间(相对) TTFT(s) TPOT(ms) Avg
Full-FT 100% 5.17× 0.9 20.5 68.01
LoRA 7.99% 2.42× 2.5 21.4 70.41
MuNG 0.67% 1.00× 3.2 20.5 70.62

消融实验要点

  • 噪声生成器架构:Cross-Attention + 加法注入 + 带噪声采样 = 最优组合(Avg 71.89)。MLP架构大幅落后(Avg ~42),点乘注入方式效果远不如加法。
  • 噪声 vs 纯交叉注意力:仅用CA做特征提取(无噪声采样)的Avg为70.49,加入有益噪声采样后提升到71.89,证明收益不仅来自CA结构,噪声本身提供了关键的信息引导。
  • 噪声 vs 随机高斯噪声:直接加高斯噪声的Avg为71.48,比有益噪声的71.89低,说明关键不在于随机性本身,而在于噪声携带的语义引导信息。
  • LoRA rank消融(LLaVA):LoRA rank=32 + MuNG(Avg 63.1)> LoRA rank=128(Avg 61.6)> LoRA rank=32(Avg 61.9),说明MuNG与低秩LoRA互补性强。

亮点

  • 理论驱动的方法设计:从正激励噪声理论出发,通过变分推断严格推导出训练目标,不是拍脑袋设计的工程trick,而是有信息论基础的方法。
  • 极致的参数效率:仅用0.67%~1.83%的额外参数就超越了Full-FT和7%+参数量的LoRA/DoRA,并且训练时间最短(1×基准)。
  • 噪声可视化说服力强:可视化清楚展示了MuNG生成的噪声能精准抑制与问题无关的语义区域(如图中问问斑马数量时,噪声会抑制长颈鹿的特征),验证了"降低任务熵"的设计原则。
  • 即插即用的框架设计:MuNG作为feature alignment layer和LLM decoder之间的插件,不修改模型主体架构,与LoRA等方法正交可叠加。
  • 跨模型泛化:在Qwen2.5-VL-3B/7B和LLaVA-1.5-7B三个不同模型上都展示了有效性。

局限性 / 可改进方向

  • LLM Decoder未经多模态预训练时效果受限:当LLM Decoder完全没见过多模态数据时(如LLaVA第一阶段pretrain模型),仅靠MuNG效果大幅下降,必须配合LoRA才能恢复。这说明MuNG的有效性依赖于LLM Decoder已具备基本的多模态理解能力。
  • 推理时TTFT略有增加:MuNG在推理时需要额外运行噪声生成器,TTFT从Full-FT的0.9s增加到3.2s(Qwen2.5-VL-3B),对于延迟敏感的场景可能是个问题。
  • 仅验证了VQA类任务:所有实验都是视觉问答/理解类benchmark,未验证在生成类任务(如image captioning、visual grounding)上是否同样有效。
  • 训练时需要目标答案:噪声生成器在训练时使用了答案信息 \(A\),虽然推理时不需要,但这意味着训练只能在有监督数据上进行,不能直接用于无标注的自监督场景。
  • 噪声仅注入视觉侧:目前仅探索了在视觉特征上注入噪声,未尝试在文本特征或cross-modal特征上注入。
  • LLaVA上的提升不够显著:在LLaVA-1.5-7B上,MuNG的平均分(59.3)与DoRA(60.2)相比并无优势,甚至略低于DoRA。

与相关工作的对比

  1. vs LoRA/DoRA:LoRA/DoRA通过低秩矩阵微调LLM Decoder内部参数,属于模型参数空间的修改;MuNG则修改输入给LLM Decoder的数据,不改模型参数。MuNG参数量远少于LoRA(0.67% vs 7.82%),在Qwen上性能持平或略优,但在LLaVA上表现不如DoRA。
  2. vs VPT(Visual Prompt Tuning):VPT在视觉嵌入层后添加可学习prompt token,仍是单模态优化;MuNG利用跨模态信息生成噪声,是真正的多模态协同优化。
  3. vs 对抗攻击中的噪声注入:对抗攻击(FGSM/PGD)生成的噪声目的是让模型犯错,而MuNG生成的是正激励噪声,目的是简化任务、引导模型更好地回答。两者在噪声的设计目标和优化方向上完全相反。

启发与关联

  • 与MLLM异常检测idea的关联ideas/segmentation/20260318_vfm_cluster_mllm_judge_anomaly.md 探讨了MLLM在工业异常检测中的应用。MuNG的噪声注入思路或许可以用于异常检测场景——通过注入引导MLLM关注异常区域的有益噪声来提升检测精度。
  • 噪声作为正则化的新视角:传统理解中噪声是有害的,而本文证明精心设计的噪声可以作为"任务简化器"。这一思路可以推广到其他模态(音频、点云)或其他任务(检测、分割)。
  • 与数据增强的联系:作者在文中与对抗噪声做了区分,但未充分讨论与特征层面数据增强方法(如Dropout、Manifold Mixup)的关系。MuNG可以被看作一种"语义感知的特征增强"。
  • 与幻觉抑制的潜在关系:MuNG通过抑制无关语义来降低任务熵,这与MLLM幻觉抑制的目标高度一致——幻觉很大程度上来自模型关注了不相关的视觉区域。可以探索将MuNG专门用于幻觉抑制任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 将正激励噪声理论引入MLLM微调是新颖的视角,但噪声注入和变分推断本身不算全新技术
  • 实验充分度: ⭐⭐⭐⭐ 在两个主流MLLM上进行了广泛实验,消融和可视化分析详尽,但LLaVA上的改进有限,且缺少生成类任务验证
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,实验组织合理,但Related Work中与特征增强方法的对比不够充分
  • 价值: ⭐⭐⭐⭐ 提供了一种新的MLLM微调范式(修改输入而非模型参数),对PEFT领域有启发意义,但实际应用中需要权衡TTFT增加带来的延迟