Explore How to Inject Beneficial Noise in MLLMs¶

会议: AAAI 2026
arXiv: 2511.12917
代码: https://github.com/zhuruishu0848/MuNG
领域: 多模态VLM
关键词: 正激励噪声, 参数高效微调, 多模态大模型, 变分推断, 跨模态对齐

一句话总结¶

提出 Multimodal Noise Generator (MuNG)，通过变分推断框架从图文对中动态生成"有益噪声"注入冻结的MLLM视觉特征中，以抑制无关语义、增强跨模态表征对齐，仅需约1%额外参数即可超越全参数微调和LoRA等PEFT方法。

背景与动机¶

当前MLLM（如LLaVA、Qwen-VL）在空间关系理解、幻觉抑制、文本过度依赖等方面仍存在明显不足。全参数微调（Full-FT）虽然有效，但计算开销巨大且容易过拟合，尤其在微调数据有限时会损害模型已学到的通用知识。现有的参数高效微调方法（LoRA、Adapter、VPT等）大多沿用单模态优化范式——要么微调LLM Decoder（LoRA、Adapter），要么在视觉侧加入可学习prompt（VPT），都忽略了视觉-语言的跨模态协同优化需求，难以有效适应下游任务的分布偏移和对齐需求。

作者注意到一个此前被忽视的方向：与其微调模型参数，不如修改输入给LLM Decoder的内容。受"正激励噪声"（Positive-Incentive Noise, π-noise）理论的启发，他们提出一种全新的思路——向冻结MLLM的视觉特征中注入经过精心设计的有益噪声，来降低任务复杂度、提升模型表现。

核心问题¶

如何设计一种轻量级、多模态感知的噪声生成机制，使得注入的噪声能降低VQA任务的条件熵（即简化任务），从而在不改变模型主体参数的情况下显著提升MLLM性能？

这个问题的本质是：能否通过一个外挂的小型噪声生成器，利用跨模态信息动态生成针对具体输入的"有益扰动"，让模型在高维特征空间中更好地聚焦于与问题相关的视觉语义，抑制无关信息干扰？

方法详解¶

整体框架¶

MuNG插入在MLLM的特征对齐层（Feature Alignment Layer）和LLM Decoder之间。整体pipeline为： 1. 视觉和文本分别经过各自编码器获得特征 $X_V$ 和 $X_L$ 2. MuNG以 $X_V$、$X_L$（训练时还包括目标答案 $A$）为输入，通过交叉注意力机制建模跨模态关系，输出噪声分布的均值 $\mu$ 和方差 $\sigma$ 3. 通过重参数化技巧从标准正态分布采样 $\epsilon$，生成噪声 $\mathcal{E} = \sigma \cdot \epsilon + \mu$ 4. 将噪声以加法方式注入视觉特征 $X_V$，得到增强后的视觉表示 5. 增强后的视觉特征与语言特征一起送入冻结的LLM Decoder生成最终输出

关键设计¶

π-noise理论基础：作者从信息论角度定义VQA任务复杂度为条件熵 $H(\mathcal{T}) = \mathbb{E}[-\log p(A|X_V, X_L)]$。如果注入噪声 $\mathcal{E}$ 后满足 $I(\mathcal{T}, \mathcal{E}) = H(\mathcal{T}) - H(\mathcal{T}|\mathcal{E}) > 0$，即噪声能降低任务的条件熵，则该噪声为"有益噪声"。由于 $H(\mathcal{T})$ 对给定模型是常数，最大化互信息等价于最小化 $H(\mathcal{T}|\mathcal{E})$。这为噪声注入提供了严格的理论正当性。
变分近似求解：由于直接计算 $p(A|X_V, X_L, \mathcal{E})$ 不可行，作者引入变分推断。利用KL散度的非负性导出变分上界，再通过蒙特卡洛采样将期望近似为有限样本的平均，得到可优化的损失函数： $$L \approx \frac{1}{n \cdot m} \sum_{i=1}^{n} \sum_{j=1}^{m} [-\log q(A_i | X_V^i, X_L^i, G_\theta(\epsilon_j^i, A_i, X_V^i, X_L^i))]$$ 其中 $m$ 是每个样本的采样次数。
基于交叉注意力的多模态噪声生成器（MuNG）：具体实现中，噪声生成器以视觉特征为Query、文本特征和答案特征为Key/Value，通过交叉注意力机制动态分析跨模态关系，输出均值 $\mu$ 和 $\log(\sigma)$。推理时不使用答案 $A$，仅用 $X_V$ 和 $X_L$ 生成噪声。消融实验证明，交叉注意力架构显著优于MLP架构。
噪声注入策略：噪声以加法方式注入视觉特征（而非点乘），保持原始推理路径最大程度不被破坏。注入位置选择在特征对齐层之后、LLM Decoder之前，因为此时的特征已经过预训练模型的初步对齐，包含更丰富的集成语义信息，且注入位置靠近输出层减少了反向传播涉及的参数量。

损失函数 / 训练策略¶

损失函数：本质上是标准的自回归语言建模损失，但输入的视觉特征被注入了MuNG生成的噪声。训练时将问题和目标答案拼接作为输入，但仅在答案部分计算loss（与LLM SFT一致）。
训练策略：冻结整个预训练Encoder和LLM Decoder的所有参数，仅训练MuNG的少量参数。对于LLM Decoder未经多模态数据预训练的情况（如LLaVA-1.5的pretrain阶段），可额外引入小量低秩LoRA适配器联合训练。
每个样本采样 $m$ 次 $\epsilon$ 来估计训练损失。

实验关键数据¶

Qwen2.5-VL-3B (MMPR-v1.1数据集微调)¶

方法	可训练参数	MME-P	MME-C	VQAv2	GQA	VisWiz	MM-Vet	POPE	MMB	SQA	Avg
Base*	-	1563	584	76.68	79.68	65.00	54.30	86.32	73.50	47.33	68.97
Full-FT*	100%	1555	587	76.51	80.68	66.20	43.26	85.50	71.93	52.00	68.01
LoRA*	7.82%	1624	613	79.88	79.25	65.30	55.33	86.50	73.29	53.33	70.41
DoRA*	7.99%	1567	639	78.77	79.25	65.40	54.06	86.37	73.41	48.67	69.42
MuNG*	0.67%	1613	625	79.92	79.54	66.50	54.46	86.95	73.64	53.33	70.62

Qwen2.5-VL-7B (MMPR-v1.1数据集微调)¶

方法	可训练参数	MME-P	MME-C	Sum(%)	MMVet	POPE	Avg
Base*	-	1694	611	82.32	72.00	87.01	80.44
Full-FT*	100%	1693	631	82.98	69.00	87.28	79.75
LoRA*	6.38%	1646	627	81.16	72.20	86.74	80.03
MuNG*	1.83%	1717	610	83.11	71.00	87.41	80.51

LLaVA-1.5-7B (LLaVA-Instruct-150K微调)¶

方法	可训练参数	SQA	POPE	MM-Vet	Avg
Full-FT	100%	67.2	85.9	31.1	59.1
LoRA	4.61%	68.3	86.4	30.2	59.0
DoRA	4.63%	68.4	87.2	33.3	60.2
MuNG	2.78%	70.0	86.9	32.4	59.3

效率对比 (Qwen2.5-VL-3B)¶

方法	可训练参数	训练时间(相对)	TTFT(s)	TPOT(ms)	Avg
Full-FT	100%	5.17×	0.9	20.5	68.01
LoRA	7.99%	2.42×	2.5	21.4	70.41
MuNG	0.67%	1.00×	3.2	20.5	70.62

消融实验要点¶

噪声生成器架构：Cross-Attention + 加法注入 + 带噪声采样 = 最优组合（Avg 71.89）。MLP架构大幅落后（Avg ~42），点乘注入方式效果远不如加法。
噪声 vs 纯交叉注意力：仅用CA做特征提取（无噪声采样）的Avg为70.49，加入有益噪声采样后提升到71.89，证明收益不仅来自CA结构，噪声本身提供了关键的信息引导。
噪声 vs 随机高斯噪声：直接加高斯噪声的Avg为71.48，比有益噪声的71.89低，说明关键不在于随机性本身，而在于噪声携带的语义引导信息。
LoRA rank消融（LLaVA）：LoRA rank=32 + MuNG（Avg 63.1）> LoRA rank=128（Avg 61.6）> LoRA rank=32（Avg 61.9），说明MuNG与低秩LoRA互补性强。

亮点¶

理论驱动的方法设计：从正激励噪声理论出发，通过变分推断严格推导出训练目标，不是拍脑袋设计的工程trick，而是有信息论基础的方法。
极致的参数效率：仅用0.67%~1.83%的额外参数就超越了Full-FT和7%+参数量的LoRA/DoRA，并且训练时间最短（1×基准）。
噪声可视化说服力强：可视化清楚展示了MuNG生成的噪声能精准抑制与问题无关的语义区域（如图中问问斑马数量时，噪声会抑制长颈鹿的特征），验证了"降低任务熵"的设计原则。
即插即用的框架设计：MuNG作为feature alignment layer和LLM decoder之间的插件，不修改模型主体架构，与LoRA等方法正交可叠加。
跨模型泛化：在Qwen2.5-VL-3B/7B和LLaVA-1.5-7B三个不同模型上都展示了有效性。

局限性 / 可改进方向¶

LLM Decoder未经多模态预训练时效果受限：当LLM Decoder完全没见过多模态数据时（如LLaVA第一阶段pretrain模型），仅靠MuNG效果大幅下降，必须配合LoRA才能恢复。这说明MuNG的有效性依赖于LLM Decoder已具备基本的多模态理解能力。
推理时TTFT略有增加：MuNG在推理时需要额外运行噪声生成器，TTFT从Full-FT的0.9s增加到3.2s（Qwen2.5-VL-3B），对于延迟敏感的场景可能是个问题。
仅验证了VQA类任务：所有实验都是视觉问答/理解类benchmark，未验证在生成类任务（如image captioning、visual grounding）上是否同样有效。
训练时需要目标答案：噪声生成器在训练时使用了答案信息 $A$，虽然推理时不需要，但这意味着训练只能在有监督数据上进行，不能直接用于无标注的自监督场景。
噪声仅注入视觉侧：目前仅探索了在视觉特征上注入噪声，未尝试在文本特征或cross-modal特征上注入。
LLaVA上的提升不够显著：在LLaVA-1.5-7B上，MuNG的平均分（59.3）与DoRA（60.2）相比并无优势，甚至略低于DoRA。

与相关工作的对比¶

vs LoRA/DoRA：LoRA/DoRA通过低秩矩阵微调LLM Decoder内部参数，属于模型参数空间的修改；MuNG则修改输入给LLM Decoder的数据，不改模型参数。MuNG参数量远少于LoRA（0.67% vs 7.82%），在Qwen上性能持平或略优，但在LLaVA上表现不如DoRA。
vs VPT（Visual Prompt Tuning）：VPT在视觉嵌入层后添加可学习prompt token，仍是单模态优化；MuNG利用跨模态信息生成噪声，是真正的多模态协同优化。
vs 对抗攻击中的噪声注入：对抗攻击（FGSM/PGD）生成的噪声目的是让模型犯错，而MuNG生成的是正激励噪声，目的是简化任务、引导模型更好地回答。两者在噪声的设计目标和优化方向上完全相反。

启发与关联¶

与MLLM异常检测idea的关联：ideas/segmentation/20260318_vfm_cluster_mllm_judge_anomaly.md 探讨了MLLM在工业异常检测中的应用。MuNG的噪声注入思路或许可以用于异常检测场景——通过注入引导MLLM关注异常区域的有益噪声来提升检测精度。
噪声作为正则化的新视角：传统理解中噪声是有害的，而本文证明精心设计的噪声可以作为"任务简化器"。这一思路可以推广到其他模态（音频、点云）或其他任务（检测、分割）。
与数据增强的联系：作者在文中与对抗噪声做了区分，但未充分讨论与特征层面数据增强方法（如Dropout、Manifold Mixup）的关系。MuNG可以被看作一种"语义感知的特征增强"。
与幻觉抑制的潜在关系：MuNG通过抑制无关语义来降低任务熵，这与MLLM幻觉抑制的目标高度一致——幻觉很大程度上来自模型关注了不相关的视觉区域。可以探索将MuNG专门用于幻觉抑制任务。

评分¶

新颖性: ⭐⭐⭐⭐ 将正激励噪声理论引入MLLM微调是新颖的视角，但噪声注入和变分推断本身不算全新技术
实验充分度: ⭐⭐⭐⭐ 在两个主流MLLM上进行了广泛实验，消融和可视化分析详尽，但LLaVA上的改进有限，且缺少生成类任务验证
写作质量: ⭐⭐⭐⭐ 理论推导清晰，实验组织合理，但Related Work中与特征增强方法的对比不够充分
价值: ⭐⭐⭐⭐ 提供了一种新的MLLM微调范式（修改输入而非模型参数），对PEFT领域有启发意义，但实际应用中需要权衡TTFT增加带来的延迟