跳转至

🧩 多模态VLM

🧪 ICML2025 · 50 篇论文解读

Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

通过将数学推理 LLM 的参数与 VLM 的文本部分直接加权平均(模型融合),在无需训练的情况下将推理能力迁移到 VLM,并发现感知能力集中在前层、推理能力集中在中后层的层级分布规律。

CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization

提出 CoCoA-Mix 框架,通过混淆感知损失 (CoA-loss) 和置信度感知权重 (CoA-weights) 构建提示混合模型,在不引入额外网络参数的情况下同时提升 VLM prompt tuning 的专精性 (specialization) 和泛化性 (generalization)。

CoMemo: LVLMs Need Image Context with Image Memory

提出CoMemo双路径架构——Context路径将图像token拼入文本做自回归、Memory路径用交叉注意力做图像持久记忆,结合RoPE-DHR位置编码保持2D空间感知和缓解远程衰减,通过三阶段训练策略平衡双路径,在同等设置下全面超越LVLM-S和LVLM-X。

Core Knowledge Deficits in Multi-Modal Language Models

提出 CoreCognition 基准(12种核心认知能力、1503题),大规模评测230个MLLM后发现:模型在基础认知能力上系统性落后于人类,且随规模增大并未改善,而是更依赖捷径学习而非真正理解。

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

首次揭示 VLM 中 token 稀疏与神经元稀疏之间的内在关联——核心神经元与核心 token 相互决定、相互强化,并据此提出 CoreMatching 协同稀疏推理框架,在 pre-filling 和 decoding 两阶段同时实现加速,达到 5× FLOPs 降低和 10× 整体加速。

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

提出 DPS(Defense through Partial-Perception Supervision),利用裁剪图像的响应作为"弱监督"来引导全图模型在推理时自我修正,实现无需训练的黑盒 LVLM 视觉攻击防御,平均攻击成功率降低 76.3%。

Do Vision-Language Models Really Understand Visual Language?

本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。

Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning

本文提出 D-MoLE 方法,通过动态层级 LoRA 专家分配器和基于梯度的跨模态持续课程策略,在参数预算约束下自动演化 MLLM 架构以持续适配新任务,相比最优基线平均提升 15%。

Efficient Quantification of Multimodal Interaction at Sample Level

提出 LSMI(Lightweight Sample-wise Multimodal Interaction)估计器,首次实现了对真实世界连续分布数据的逐样本级别多模态交互(冗余、唯一性、协同)精确且高效的量化,并展示了其在数据分区、知识蒸馏和模型集成中的实用价值。

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。

ERL-VLM: Enhancing Rating-Based RL to Leverage Feedback from Large VLMs

提出 ERL-VLM,用大型视觉语言模型(VLM)对单条轨迹做绝对评分(rating)而非成对比较(preference),结合分层采样和 MAE 损失解决数据不平衡与噪声标签问题,显著提升 VLM 反馈驱动的奖励函数学习效果。

Enhancing Target-unspecific Tasks through a Features Matrix

提出 Features Matrix (FM) 方法,利用多个手工 prompt 模板从冻结 CLIP 中提取通用知识构成特征矩阵,通过对齐 unexpected features 与微调视觉特征来增强模型在目标无关任务(如 base-to-novel 泛化、跨数据集泛化、域泛化)上的表现。

ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models

本文首次系统分析了 MLM 中 [MASK] 对性能的影响,发现语义损坏(corrupted semantics)非真实token(unreal tokens)的负面作用更大,据此提出 ExLM:通过将每个 [MASK] 扩展为多个隐状态并用转移矩阵建模依赖关系,有效缓解语义多模态性问题,在文本和分子建模任务上均取得显著提升。

From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models

本文从可解释性角度评估多模态大模型(MLLM)的心智理论(ToM)能力,构建了基于 2D 网格世界的多模态 ToM 数据集 GridToM,并提出一种无需训练的注意力头激活干预方法来显著提升模型的 ToM 表现。

Graph4MM: Weaving Multimodal Learning with Structural Information

提出 Graph4MM 框架,通过 Hop-Diffused Attention 将多跳图结构信息注入自注意力机制,并设计 MM-QFormer 实现跨模态融合,在生成和判别任务上平均提升 6.93%。

Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin

提出 CAP 框架,通过概念对齐(检测并修复 concept mismatch)和混淆感知校准边距(缓解 concept confusion),解决 VLM 生成伪标签时的类别不平衡问题,在六个数据集三种范式下相对 SOTA 提升 6.29%。

Importance Corrected Neural JKO Sampling

提出 Importance Corrected Neural JKO Sampling (Neural JKO IC),将连续归一化流(CNF)的局部 JKO 步与基于重要性权重的拒绝重采样步交替使用,克服 Wasserstein 梯度流在多模态分布上的局部最优问题,同时保持独立同分布采样和密度可评估性。

Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models

提出基于核函数的无监督嵌入对齐方法(KUEA),通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示,仅用图像数据微调即可增强 CLIP 的细粒度感知能力,同时保持与文本编码器的兼容性,提升下游 MLLM 性能。

LADA: Scalable Label-Specific CLIP Adapter for Continual Learning

提出 LADA(Label-specific ADApter),通过在冻结 CLIP 图像编码器后追加轻量级的类别特定记忆向量,将所有已学任务的判别信息浓缩到统一特征空间,彻底消除推理阶段的参数选择步骤,在 X-TAIL 持续学习设定下取得 SOTA。

LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models

本文指出经典的 ImageNet-C 分布外鲁棒性基准对于在 LAION 等网络规模数据集上训练的模型已不再是真正的 OOD,为此设计了6种全新的高度合成化图像畸变构建 LAION-C 基准,配合19名被试的心理物理学实验,揭示了 OOD 泛化的范式转变——最优模型已追平甚至超越人类。

Learning Invariant Causal Mechanism from Vision-Language Models

通过因果分析证明 CLIP 嵌入是真实不变/可变因子的线性变换,提出 CLIP-ICM 框架利用干预数据估计线性投影矩阵,将预测限定在不变子空间中以实现跨环境一致预测。

Learning Optimal Multimodal Information Bottleneck Representations

提出 OMIB 框架,通过理论推导正则化参数 β 的上界并动态调整各模态权重 r,保证多模态信息瓶颈表示的最优性(包含全部任务相关信息、排除冗余信息)。

LEMoN: Label Error Detection using Multimodal Neighbors

本文提出 LEMoN 方法,利用对比预训练多模态模型(如 CLIP)的嵌入空间中图像-文本对的多模态邻域结构,在分类和图像描述两个场景下自动检测标签错误,在训练无关的基线中 F1 提升 3-4%,过滤后的数据可改善下游分类和描述性能。

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

提出 MemVR 解码范式,将视觉 token 作为补充证据通过 FFN 的 key-value memory 机制重新注入到中间触发层,以"再看一次"的方式缓解 MLLM 幻觉问题,不引入额外推理开销。

M3-JEPA: Multimodal Alignment via Multi-gate MoE based on JEPA

将 JEPA(联合嵌入预测架构)推广到任意模态组合的多模态对齐中,用 Multi-gate MoE 作为跨模态预测器在潜在空间对齐(而非 token 空间),门控函数解耦模态特定和共享信息,通过交替梯度下降避免多方向任务间的梯度冲突,仅 140M 可训练参数在多个检索和分类任务上超越 BLIP-2(1.2B)等 SOTA。

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

本文提出 MMInference,通过“模态感知的置换稀疏注意力 + 头级离线模式搜索 + 在线动态索引 + 定制 GPU Kernel”,在不改模型不微调的前提下,将长上下文 VLM 的 prefill 阶段在 1M token 场景最高加速到 8.3x,同时尽量保持任务精度。

MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

针对多模态大语言模型中跨模态注意力不一致与逐层衰减的"注意力缺失障碍"问题,提出模块化双工注意力机制MODA,通过将注意力解耦为模态内自精炼与模态间交互两路,并借助Duplex Aligner和自适应掩码注意力实现"先对齐再校正"的策略,在21个感知、认知与情感基准上验证了有效性。

OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance

针对大规模视觉语言模型 instruction-tuning 训练中因数据和模型异构性导致的计算不平衡问题,提出 OmniBal 框架从数据、模型、内存三个层面系统性平衡跨设备计算负载,在 InternVL-Chat 上实现约 1.8× 训练加速。

Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner

提出可扩展的贝叶斯 ToM 规划器,通过将多步多模态心智推理分解为逐步贝叶斯更新来规避推理边界,并用弱到强控制机制将小模型(4B–8B)后训练获得的 ToM 似然估计能力迁移到大模型(70B–405B)的推理中,在 MMToM-QA 基准上达 81.3% 准确率,超越此前最优 BIPALM 4.6 个百分点。

Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner

提出一种可扩展的贝叶斯心智理论(ToM)规划器,通过将多步推理分解为逐步贝叶斯更新,并利用弱到强控制机制将小模型的 ToM 专项能力迁移至大模型(最高 405B),在多模态 ToM 基准上超越 SOTA 4.6%。

Parrot: Multilingual Visual Instruction Tuning

提出 Parrot,通过文本引导的跨注意力机制和 MoE 模块将英语偏置的视觉特征转换为语言特定表示,以极少量多语言数据(每种语言约 10K 样本)显著提升 MLLM 的多语言能力。

Ranked from Within: Ranking Large Multimodal Models Without Labels

系统研究能否在无标签场景下预测 LMM 的相对性能,评估 47 个 SOTA LMM 在 9 个 VQA 基准上的表现,发现基于 softmax 分布的不确定性指标能提供稳健的无监督模型排名(与真实排名 Spearman 相关 \(\rho=0.92\))。

Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

提出 RCTS 框架,通过自一致性评估机制构建推理上下文丰富的知识库,并用带启发式奖励的蒙特卡罗树搜索(MCTS-HR)重排检索示例,使 LVLM 在多个 VQA 数据集上显著超越 ICL 和 Vanilla-RAG 方法(平均 +3-4%)。

Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems

系统评估4个闭源+4个开源MLLM在经典合成Bongard Problems、Bongard HOI、Bongard-OpenWorld三个数据集上的抽象视觉推理能力,提出7种解题策略和新数据集Bongard-RWR(用真实图像表达合成BP概念),揭示MLLM在合成BP上的极差表现并非因域差异而是固有的抽象推理局限。

Robust Multimodal Large Language Models Against Modality Conflict

揭示 MLLM 幻觉的一个被忽视来源——模态冲突(视觉输入与文本输入之间的固有矛盾),从对象/属性/关系三个层面形式化定义模态冲突,构建 20K 样例的 MMMC 数据集,并提出 prompt engineering、SFT 和 RL 三种缓解方法,其中 RL 效果最佳。

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

揭示多模态 Transformer 中自注意力机制因"自增强循环"导致动态适应性失效(偏向单一模态),并提出 RollingQ 算法通过旋转 query 向量打破这一循环,恢复跨模态协作动态。

SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs

利用 GPT-4 全自动生成包含 200 万+ QA 对的大规模合成 KB-VQA 数据集 SK-VQA,训练 MLLM 适配上下文增强生成,在跨域泛化性能上显著优于已有数据集。

SlimLLM: Accurate Structured Pruning for Large Language Models

提出SlimLLM——LLM结构化剪枝方法:用特征空间重要性(考虑权重方向和幅度)评估通道,用Pearson相似度整体评估注意力头,配合简单线性回归恢复策略和层级剪枝比例分配,在LLaMA上20%剪枝保留98.7%性能。

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

SparseVLM 提出了首个文本引导的免训练视觉 token 稀疏化框架,通过选择与视觉相关的文本 token 作为"评分者"来评估视觉 token 的重要性,结合自适应剪枝比率和 token 回收机制,在 LLaVA 上仅保留 192 个 token(减少 66.7%)时维持 99.1% 的原始性能。

Targeted Unlearning with Single Layer Unlearning Gradient

提出 SLUG (Single Layer Unlearning Gradient) 方法,通过层重要性和梯度对齐指标识别最优单层,仅需一次梯度计算和单层参数更新即可实现高效精准的定向遗忘,可应用于 CLIP、Stable Diffusion 和 VLM。

The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

发现多模态奖励模型 (MM-RM) 在训练时会过度依赖文本单模态捷径 (shortcuts),导致分布外泛化能力差,提出 Shortcut-aware MM-RM 学习算法通过动态样本重加权来减少对单模态伪相关性的依赖,OOD 准确率从 68.1% 提升至 78.5%。

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

提出 CapMAS 多智能体系统,通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉,同时引入从事实性和覆盖度两个维度评估详细描述的框架,显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。

Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

提出 Counterfactual Soft Reinforcement Learning (CoSo),利用反事实推理评估每个 token 对最终动作的因果影响,通过因果加权熵正则优化集中探索关键 token,解决 VLM 智能体在线 RL 微调中文本动作空间爆炸问题,在 Android 控制、卡牌游戏、具身 AI 上分别提升 12.3%、9.3%、16.7%。

Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration

提出 Self-Rationale Calibration (SRC) 框架,通过轻量级 rationale 微调引导 LVLM 输出推理过程,再利用句子级 beam search 生成多样候选响应,结合专门设计的 R-Scorer 配对评分策略筛选优劣 rationale-answer 对,以 DPO 偏好对齐方式迭代校准模型的推理-答案一致性,在感知、推理和泛化多个基准上取得显著提升。

Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models

通过分析提示调优导致VLM校准失败的根因(文本特征偏移),提出动态异常值正则化(DOR)方法,利用WordNet中高语义相似度名词作为文本异常值来约束微调过程中的特征漂移,显著降低校准误差。

Universal Retrieval for Multimodal Trajectory Modeling

首次系统定义多模态轨迹检索任务,构建统一代理轨迹数据集 UATD(7,747 个演示、82,793 个状态)和 GAE-Bench 基准(714,628 正样本对),提出基于 VLM2Vec 的 GAE-Retriever 框架,在 5 个 GUI 环境上相比最强基线 VLM2Vec-V2.2 平均提升 10.22 个百分点。

Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection

提出基于 LVLM 的 deepfake 检测框架,通过知识引导伪造检测器(KFD)计算图像特征与真/假描述文本的相关性实现分类和定位,再通过伪造提示学习器(FPL)将细粒度伪造特征注入 LLM 生成可解释的检测结果,在 FF++/CDF2/DFDC/DF40 等多个基准上超越 SOTA 泛化性能。

Vision-Language Model Selection and Reuse for Downstream Adaptation

提出 Model Label Learning (MLL) 范式,通过构建语义图对 49 个预训练 VLM 进行离线"标注"(描述各模型在不同视觉概念上的能力),面对新任务时通过语义匹配选择和集成最合适的模型,实现数据高效、计算高效且可扩展的 VLM 选择与复用。

Vision-Language Models Create Cross-Modal Task Representations

本文发现自回归视觉语言模型(VLMs)会将概念上等价的输入(不论是文本还是图像示例、指令还是少样本)压缩为共享的"任务向量",并通过跨模态 patching 实验验证了这种表征对齐的存在和实用性。

Vision Graph Prompting via Semantic Low-Rank Decomposition

提出 Vision Graph Prompting (VGP),首个面向 Vision GNN (ViG) 的视觉提示学习框架,利用图中语义连通分量的低秩特性,设计了图/边/节点三层粒度的语义低秩提示(SeLo-Graph/Edge/Node Prompt),在参数高效的前提下达到接近全量微调的下游任务迁移性能。