跳转至

🧩 多模态 VLM

📹 ICCV2025 · 共 22

AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?

提出AdvDreamer框架从单张图像生成物理可复现的对抗性3D变换(Adv-3DT)样本,通过零样本单目姿态操作+自然度奖励模型+逆语义概率损失,揭示当前VLM(包括GPT-4o)在3D变化下性能下降高达50-80%,并建立首个3D变化鲁棒性VQA基准MM3DTBench。

CoA-VLA: Improving Vision-Language-Action Models via Visual-Textual Chain-of-Affordance

提出Chain-of-Affordance(CoA-VLA)框架,将四类机器人affordance(物体、抓取、空间、运动)以文本和视觉双模态形式注入VLA模型的策略网络,在真实机器人7任务多任务学习中达到85.54%成功率,比OpenVLA高30.65%,并展现出对未见物体姿态和障碍物的泛化能力。

Controlling Multimodal LLMs via Reward-guided Decoding

提出MRGD(Multimodal Reward-Guided Decoding),通过训练一个基于PaliGemma的物体幻觉奖励模型和一个基于OWLv2的物体召回奖励模型,在MLLM推理时通过线性加权组合两个奖励来逐句搜索最优候选输出,在CHAIR上将LLaVA-1.5的CHAIRi从15.05降至4.53(降70%)且支持精度-召回率的动态可控权衡。

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

提出Dita,用Transformer架构进行统一的多模态扩散过程直接去噪连续动作序列,通过in-context conditioning实现去噪动作与历史视觉观察的细粒度对齐,在跨embodiment数据集上scaling后实现SOTA仿真性能和10-shot真实世界长horizon任务适应。

DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding

提出DocThinker,首个将GRPO(Group Relative Policy Optimization)强化学习应用于文档理解的框架,通过四目标规则奖励(格式、答案准确度、RoI IoU、问题改写质量)训练MLLM自主生成可解释的推理过程,仅用4K训练数据在DocVQA上将Qwen2.5-VL-7B从0.355提升到0.579(RL vs SFT: 0.579 vs 0.355),并在视觉定位任务上达到82.4%精度。

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

系统性地探索无视觉编码器VLM的最优架构和训练策略,提出Divide-and-Conquer架构将transformer完全分解为模态专用组件(attention/FFN/LayerNorm各模态独立),在仅100M公开数据下超越所有encoder-free同类并接近encoder-based VLM性能。

FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

针对高分辨率MLLM中裁切子图导致的视觉编码分裂和token冗余问题,提出可学习的Visual Registers在encoder内部自适应聚合关键信息(ReCompact)并跨子图交互(ReAtten),实现9倍视觉token压缩且性能更优。

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

揭示了VLM中视觉token剪枝方法(如FastV)因RoPE的长程衰减特性导致系统性地保留图像底部token的严重缺陷,并提出FEATHER方法通过去除RoPE+均匀采样+两阶段剪枝修复该问题,在定位任务上实现5倍以上的性能提升。

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

发现Masked Autoregressive (MAR)模型的编码器同时具备优秀的语义理解能力和生成能力,基于此提出Harmon框架——用共享的MAR编码器统一视觉理解和生成任务,通过三阶段渐进训练在生成benchmark上达SOTA同时在理解benchmark上匹配专用语义编码器方法。

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

提出IDEATOR,首个用VLM自身做红队攻击VLM的黑盒越狱框架——利用一个弱安全对齐的VLM(MiniGPT-4)作为攻击者,结合Stable Diffusion生成语义丰富的图文越狱对,通过breadth-depth探索策略迭代优化,在MiniGPT-4上达94%攻击成功率(平均5.34次查询),迁移到LLaVA/InstructBLIP/Chameleon达75-88%,并构建VLJailbreakBench(3654样本)揭示11个VLM的安全漏洞。

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

通过构建包含结构化推理标注的LLaVA-CoT-100k数据集,训练VLM自主执行"总结→视觉解读→逻辑推理→结论"四阶段推理,配合测试时SWIRES搜索策略,11B模型超越GPT-4o-mini和Gemini-1.5-pro等大模型。

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

利用CLIP-ViT中[CLS] token与视觉token之间注意力分数的稀疏特性,通过IQR异常值检测自适应选择重要视觉token,再用k-近邻聚类将被剪除token的信息合并回保留token,实现视觉token 14倍压缩且性能几乎不降。

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

提出Visual-Predictive Instruction Tuning (VPiT)——一种简单有效的视觉指令微调扩展,让预训练LLM同时预测离散文本token和连续视觉token,发现视觉生成能力是视觉理解能力提升的自然副产物,少量生成数据即可解锁,LLM的预训练知识可以迁移到视觉生成中克服常见失败模式。

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

提出首个百万规模的多模态agent调优数据集MMAT-1M,通过四阶段数据引擎(基础数据→推理轨迹生成→反思纠错→格式整合)为MLLM注入CoT推理、工具调用和反思能力,在InternVL2.5-8B上平均提升2.7%,RAG任务上提升8.8%。

MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding

提出语义离散编码(SDE)视觉tokenizer,在VQGAN基础上加入SigLIP语义特征约束,使离散视觉token与语言token语义对齐,构建统一的自回归VLM(MUSE-VL),在仅用24M数据的条件下理解性能比Emu3提升4.8%,超过LLaVA-NeXT 34B专用理解模型3.7%,同时支持图像生成。

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models

提出ONLY,一种training-free的单层干预解码方法——通过Text-to-Visual Entropy Ratio(TVER)选择偏向文本的attention head生成textually-enhanced logits,然后与原始logits做自适应对比/协作解码,仅增加1.07×推理时间就在POPE上比VCD/M3ID高3.14%,在CHAIR上降低CHAIR_S 6.2个点。

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

提出Vision Value Model(VisVM),用TD learning训练一个能预测VLM生成句子长期价值的价值网络,指导推理时逐句搜索生成更少幻觉、更丰富细节的图像描述,并进一步将VisVM生成的高质量caption用于自训练,在9个benchmark上平均提升LLaVA-Next 10.8%。

Scaling Laws for Native Multimodal Models

通过训练457个不同架构和训练配比的模型进行系统性scaling law研究,发现Native Multimodal Models(NMM)的early-fusion架构(不依赖视觉编码器/tokenizer)在小参数量时优于late-fusion,训练更高效且部署更简单,结合MoE可进一步显著提升性能。

ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

发现MLLM中约60%的层对视觉token的变换几乎不影响模型输出(Layer Contribution极低),提出ShortV方法在这些"ineffective layers"中冻结视觉token(不参与attention query和FFN),在LLaVA-NeXT-13B上实现50% FLOPs降低且性能几乎不变,且与token剪枝方法(如FastV)正交可叠加。

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

发现MLLM中仅约5%的attention head主动参与视觉理解(称为"visual heads"),提出基于OCR任务的training-free识别方法量化每个head的视觉相关性,并设计SparseMM——按visual score非对称分配KV-Cache预算的策略,在DocVQA上仅用5.3%的cache(256/4830)即可维持Qwen2-VL的性能,实现1.87×加速和50%内存减少。

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

提出SparseVILA,将VLM推理时的视觉token稀疏化解耦为两个阶段——prefill阶段做query-agnostic剪枝(去冗余)、decode阶段做query-aware检索(精选相关token),在长视频任务上实现4.0×prefill加速、2.5×decode加速、2.6×端到端加速,同时在视频理解benchmark上精度不降反升。

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

提出ToolVQA,一个23K样本的多模态工具使用VQA数据集,通过ToolEngine数据生成pipeline(图像引导DFS + LCS示例匹配)从真实图像中构造隐式多步推理问题(平均2.78步),在该数据上微调LLaVA-7B后在5个OOD benchmark上超过GPT-3.5-Turbo,并揭示了当前LFM在参数预测和答案总结方面的瓶颈。