🧩 多模态VLM¶
🧪 ICML2025 · 50 篇论文解读
- Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
-
通过将数学推理 LLM 的参数与 VLM 的文本部分直接加权平均(模型融合),在无需训练的情况下将推理能力迁移到 VLM,并发现感知能力集中在前层、推理能力集中在中后层的层级分布规律。
- CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization
-
提出 CoCoA-Mix 框架,通过混淆感知损失 (CoA-loss) 和置信度感知权重 (CoA-weights) 构建提示混合模型,在不引入额外网络参数的情况下同时提升 VLM prompt tuning 的专精性 (specialization) 和泛化性 (generalization)。
- CoMemo: LVLMs Need Image Context with Image Memory
-
提出CoMemo双路径架构——Context路径将图像token拼入文本做自回归、Memory路径用交叉注意力做图像持久记忆,结合RoPE-DHR位置编码保持2D空间感知和缓解远程衰减,通过三阶段训练策略平衡双路径,在同等设置下全面超越LVLM-S和LVLM-X。
- Core Knowledge Deficits in Multi-Modal Language Models
-
提出 CoreCognition 基准(12种核心认知能力、1503题),大规模评测230个MLLM后发现:模型在基础认知能力上系统性落后于人类,且随规模增大并未改善,而是更依赖捷径学习而非真正理解。
- CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
-
首次揭示 VLM 中 token 稀疏与神经元稀疏之间的内在关联——核心神经元与核心 token 相互决定、相互强化,并据此提出 CoreMatching 协同稀疏推理框架,在 pre-filling 和 decoding 两阶段同时实现加速,达到 5× FLOPs 降低和 10× 整体加速。
- Defending LVLMs Against Vision Attacks through Partial-Perception Supervision
-
提出 DPS(Defense through Partial-Perception Supervision),利用裁剪图像的响应作为"弱监督"来引导全图模型在推理时自我修正,实现无需训练的黑盒 LVLM 视觉攻击防御,平均攻击成功率降低 76.3%。
- Do Vision-Language Models Really Understand Visual Language?
-
本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。
- Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning
-
本文提出 D-MoLE 方法,通过动态层级 LoRA 专家分配器和基于梯度的跨模态持续课程策略,在参数预算约束下自动演化 MLLM 架构以持续适配新任务,相比最优基线平均提升 15%。
- Efficient Quantification of Multimodal Interaction at Sample Level
-
提出 LSMI(Lightweight Sample-wise Multimodal Interaction)估计器,首次实现了对真实世界连续分布数据的逐样本级别多模态交互(冗余、唯一性、协同)精确且高效的量化,并展示了其在数据分区、知识蒸馏和模型集成中的实用价值。
- ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics
-
ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。
- ERL-VLM: Enhancing Rating-Based RL to Leverage Feedback from Large VLMs
-
提出 ERL-VLM,用大型视觉语言模型(VLM)对单条轨迹做绝对评分(rating)而非成对比较(preference),结合分层采样和 MAE 损失解决数据不平衡与噪声标签问题,显著提升 VLM 反馈驱动的奖励函数学习效果。
- Enhancing Target-unspecific Tasks through a Features Matrix
-
提出 Features Matrix (FM) 方法,利用多个手工 prompt 模板从冻结 CLIP 中提取通用知识构成特征矩阵,通过对齐 unexpected features 与微调视觉特征来增强模型在目标无关任务(如 base-to-novel 泛化、跨数据集泛化、域泛化)上的表现。
- ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models
-
本文首次系统分析了 MLM 中 [MASK] 对性能的影响,发现语义损坏(corrupted semantics)比非真实token(unreal tokens)的负面作用更大,据此提出 ExLM:通过将每个 [MASK] 扩展为多个隐状态并用转移矩阵建模依赖关系,有效缓解语义多模态性问题,在文本和分子建模任务上均取得显著提升。
- From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models
-
本文从可解释性角度评估多模态大模型(MLLM)的心智理论(ToM)能力,构建了基于 2D 网格世界的多模态 ToM 数据集 GridToM,并提出一种无需训练的注意力头激活干预方法来显著提升模型的 ToM 表现。
- Graph4MM: Weaving Multimodal Learning with Structural Information
-
提出 Graph4MM 框架,通过 Hop-Diffused Attention 将多跳图结构信息注入自注意力机制,并设计 MM-QFormer 实现跨模态融合,在生成和判别任务上平均提升 6.93%。
- Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin
-
提出 CAP 框架,通过概念对齐(检测并修复 concept mismatch)和混淆感知校准边距(缓解 concept confusion),解决 VLM 生成伪标签时的类别不平衡问题,在六个数据集三种范式下相对 SOTA 提升 6.29%。
- Importance Corrected Neural JKO Sampling
-
提出 Importance Corrected Neural JKO Sampling (Neural JKO IC),将连续归一化流(CNF)的局部 JKO 步与基于重要性权重的拒绝重采样步交替使用,克服 Wasserstein 梯度流在多模态分布上的局部最优问题,同时保持独立同分布采样和密度可评估性。
- Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models
-
提出基于核函数的无监督嵌入对齐方法(KUEA),通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示,仅用图像数据微调即可增强 CLIP 的细粒度感知能力,同时保持与文本编码器的兼容性,提升下游 MLLM 性能。
- LADA: Scalable Label-Specific CLIP Adapter for Continual Learning
-
提出 LADA(Label-specific ADApter),通过在冻结 CLIP 图像编码器后追加轻量级的类别特定记忆向量,将所有已学任务的判别信息浓缩到统一特征空间,彻底消除推理阶段的参数选择步骤,在 X-TAIL 持续学习设定下取得 SOTA。
- LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models
-
本文指出经典的 ImageNet-C 分布外鲁棒性基准对于在 LAION 等网络规模数据集上训练的模型已不再是真正的 OOD,为此设计了6种全新的高度合成化图像畸变构建 LAION-C 基准,配合19名被试的心理物理学实验,揭示了 OOD 泛化的范式转变——最优模型已追平甚至超越人类。
- Learning Invariant Causal Mechanism from Vision-Language Models
-
通过因果分析证明 CLIP 嵌入是真实不变/可变因子的线性变换,提出 CLIP-ICM 框架利用干预数据估计线性投影矩阵,将预测限定在不变子空间中以实现跨环境一致预测。
- Learning Optimal Multimodal Information Bottleneck Representations
-
提出 OMIB 框架,通过理论推导正则化参数 β 的上界并动态调整各模态权重 r,保证多模态信息瓶颈表示的最优性(包含全部任务相关信息、排除冗余信息)。
- LEMoN: Label Error Detection using Multimodal Neighbors
-
本文提出 LEMoN 方法,利用对比预训练多模态模型(如 CLIP)的嵌入空间中图像-文本对的多模态邻域结构,在分类和图像描述两个场景下自动检测标签错误,在训练无关的基线中 F1 提升 3-4%,过滤后的数据可改善下游分类和描述性能。
- Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models
-
提出 MemVR 解码范式,将视觉 token 作为补充证据通过 FFN 的 key-value memory 机制重新注入到中间触发层,以"再看一次"的方式缓解 MLLM 幻觉问题,不引入额外推理开销。
- M3-JEPA: Multimodal Alignment via Multi-gate MoE based on JEPA
-
将 JEPA(联合嵌入预测架构)推广到任意模态组合的多模态对齐中,用 Multi-gate MoE 作为跨模态预测器在潜在空间对齐(而非 token 空间),门控函数解耦模态特定和共享信息,通过交替梯度下降避免多方向任务间的梯度冲突,仅 140M 可训练参数在多个检索和分类任务上超越 BLIP-2(1.2B)等 SOTA。
- MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention
-
本文提出 MMInference,通过“模态感知的置换稀疏注意力 + 头级离线模式搜索 + 在线动态索引 + 定制 GPU Kernel”,在不改模型不微调的前提下,将长上下文 VLM 的 prefill 阶段在 1M token 场景最高加速到 8.3x,同时尽量保持任务精度。
- MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding
-
针对多模态大语言模型中跨模态注意力不一致与逐层衰减的"注意力缺失障碍"问题,提出模块化双工注意力机制MODA,通过将注意力解耦为模态内自精炼与模态间交互两路,并借助Duplex Aligner和自适应掩码注意力实现"先对齐再校正"的策略,在21个感知、认知与情感基准上验证了有效性。
- OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance
-
针对大规模视觉语言模型 instruction-tuning 训练中因数据和模型异构性导致的计算不平衡问题,提出 OmniBal 框架从数据、模型、内存三个层面系统性平衡跨设备计算负载,在 InternVL-Chat 上实现约 1.8× 训练加速。
- Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner
-
提出可扩展的贝叶斯 ToM 规划器,通过将多步多模态心智推理分解为逐步贝叶斯更新来规避推理边界,并用弱到强控制机制将小模型(4B–8B)后训练获得的 ToM 似然估计能力迁移到大模型(70B–405B)的推理中,在 MMToM-QA 基准上达 81.3% 准确率,超越此前最优 BIPALM 4.6 个百分点。
- Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner
-
提出一种可扩展的贝叶斯心智理论(ToM)规划器,通过将多步推理分解为逐步贝叶斯更新,并利用弱到强控制机制将小模型的 ToM 专项能力迁移至大模型(最高 405B),在多模态 ToM 基准上超越 SOTA 4.6%。
- Parrot: Multilingual Visual Instruction Tuning
-
提出 Parrot,通过文本引导的跨注意力机制和 MoE 模块将英语偏置的视觉特征转换为语言特定表示,以极少量多语言数据(每种语言约 10K 样本)显著提升 MLLM 的多语言能力。
- Ranked from Within: Ranking Large Multimodal Models Without Labels
-
系统研究能否在无标签场景下预测 LMM 的相对性能,评估 47 个 SOTA LMM 在 9 个 VQA 基准上的表现,发现基于 softmax 分布的不确定性指标能提供稳健的无监督模型排名(与真实排名 Spearman 相关 \(\rho=0.92\))。
- Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger
-
提出 RCTS 框架,通过自一致性评估机制构建推理上下文丰富的知识库,并用带启发式奖励的蒙特卡罗树搜索(MCTS-HR)重排检索示例,使 LVLM 在多个 VQA 数据集上显著超越 ICL 和 Vanilla-RAG 方法(平均 +3-4%)。
- Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems
-
系统评估4个闭源+4个开源MLLM在经典合成Bongard Problems、Bongard HOI、Bongard-OpenWorld三个数据集上的抽象视觉推理能力,提出7种解题策略和新数据集Bongard-RWR(用真实图像表达合成BP概念),揭示MLLM在合成BP上的极差表现并非因域差异而是固有的抽象推理局限。
- Robust Multimodal Large Language Models Against Modality Conflict
-
揭示 MLLM 幻觉的一个被忽视来源——模态冲突(视觉输入与文本输入之间的固有矛盾),从对象/属性/关系三个层面形式化定义模态冲突,构建 20K 样例的 MMMC 数据集,并提出 prompt engineering、SFT 和 RL 三种缓解方法,其中 RL 效果最佳。
- RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer
-
揭示多模态 Transformer 中自注意力机制因"自增强循环"导致动态适应性失效(偏向单一模态),并提出 RollingQ 算法通过旋转 query 向量打破这一循环,恢复跨模态协作动态。
- SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
-
利用 GPT-4 全自动生成包含 200 万+ QA 对的大规模合成 KB-VQA 数据集 SK-VQA,训练 MLLM 适配上下文增强生成,在跨域泛化性能上显著优于已有数据集。
- SlimLLM: Accurate Structured Pruning for Large Language Models
-
提出SlimLLM——LLM结构化剪枝方法:用特征空间重要性(考虑权重方向和幅度)评估通道,用Pearson相似度整体评估注意力头,配合简单线性回归恢复策略和层级剪枝比例分配,在LLaMA上20%剪枝保留98.7%性能。
- SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
-
SparseVLM 提出了首个文本引导的免训练视觉 token 稀疏化框架,通过选择与视觉相关的文本 token 作为"评分者"来评估视觉 token 的重要性,结合自适应剪枝比率和 token 回收机制,在 LLaVA 上仅保留 192 个 token(减少 66.7%)时维持 99.1% 的原始性能。
- Targeted Unlearning with Single Layer Unlearning Gradient
-
提出 SLUG (Single Layer Unlearning Gradient) 方法,通过层重要性和梯度对齐指标识别最优单层,仅需一次梯度计算和单层参数更新即可实现高效精准的定向遗忘,可应用于 CLIP、Stable Diffusion 和 VLM。
- The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models
-
发现多模态奖励模型 (MM-RM) 在训练时会过度依赖文本单模态捷径 (shortcuts),导致分布外泛化能力差,提出 Shortcut-aware MM-RM 学习算法通过动态样本重加权来减少对单模态伪相关性的依赖,OOD 准确率从 68.1% 提升至 78.5%。
- Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage
-
提出 CapMAS 多智能体系统,通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉,同时引入从事实性和覆盖度两个维度评估详细描述的框架,显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。
- Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
-
提出 Counterfactual Soft Reinforcement Learning (CoSo),利用反事实推理评估每个 token 对最终动作的因果影响,通过因果加权熵正则优化集中探索关键 token,解决 VLM 智能体在线 RL 微调中文本动作空间爆炸问题,在 Android 控制、卡牌游戏、具身 AI 上分别提升 12.3%、9.3%、16.7%。
- Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration
-
提出 Self-Rationale Calibration (SRC) 框架,通过轻量级 rationale 微调引导 LVLM 输出推理过程,再利用句子级 beam search 生成多样候选响应,结合专门设计的 R-Scorer 配对评分策略筛选优劣 rationale-answer 对,以 DPO 偏好对齐方式迭代校准模型的推理-答案一致性,在感知、推理和泛化多个基准上取得显著提升。
- Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models
-
通过分析提示调优导致VLM校准失败的根因(文本特征偏移),提出动态异常值正则化(DOR)方法,利用WordNet中高语义相似度名词作为文本异常值来约束微调过程中的特征漂移,显著降低校准误差。
- Universal Retrieval for Multimodal Trajectory Modeling
-
首次系统定义多模态轨迹检索任务,构建统一代理轨迹数据集 UATD(7,747 个演示、82,793 个状态)和 GAE-Bench 基准(714,628 正样本对),提出基于 VLM2Vec 的 GAE-Retriever 框架,在 5 个 GUI 环境上相比最强基线 VLM2Vec-V2.2 平均提升 10.22 个百分点。
- Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection
-
提出基于 LVLM 的 deepfake 检测框架,通过知识引导伪造检测器(KFD)计算图像特征与真/假描述文本的相关性实现分类和定位,再通过伪造提示学习器(FPL)将细粒度伪造特征注入 LLM 生成可解释的检测结果,在 FF++/CDF2/DFDC/DF40 等多个基准上超越 SOTA 泛化性能。
- Vision-Language Model Selection and Reuse for Downstream Adaptation
-
提出 Model Label Learning (MLL) 范式,通过构建语义图对 49 个预训练 VLM 进行离线"标注"(描述各模型在不同视觉概念上的能力),面对新任务时通过语义匹配选择和集成最合适的模型,实现数据高效、计算高效且可扩展的 VLM 选择与复用。
- Vision-Language Models Create Cross-Modal Task Representations
-
本文发现自回归视觉语言模型(VLMs)会将概念上等价的输入(不论是文本还是图像示例、指令还是少样本)压缩为共享的"任务向量",并通过跨模态 patching 实验验证了这种表征对齐的存在和实用性。
- Vision Graph Prompting via Semantic Low-Rank Decomposition
-
提出 Vision Graph Prompting (VGP),首个面向 Vision GNN (ViG) 的视觉提示学习框架,利用图中语义连通分量的低秩特性,设计了图/边/节点三层粒度的语义低秩提示(SeLo-Graph/Edge/Node Prompt),在参数高效的前提下达到接近全量微调的下游任务迁移性能。