🧩 多模态 VLM¶
📷 CVPR2026 · 共 150 篇
- A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks
-
提出一种在VLM跨模态空间中具有闭式解的去偏方法,在无需训练、无需标注数据的条件下,通过正交分解实现Pareto最优的公平性与效用权衡,同时为效用损失提供理论上界。
- A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks
-
提出VLM去偏的闭式解方法,通过在跨模态嵌入空间中对属性子空间做正交分解并利用Chebyshev标量化求解,实现Pareto最优公平性与有界效用损失,免训练、免标注,统一覆盖零样本分类、文本-图像检索和文本-图像生成三大下游任务。
- AVR: Adaptive VLM Routing for Computer Use Agents
-
提出 AVR 自适应路由框架,通过轻量多模态嵌入模型评估动作难度 + 小模型 logprob 置信度探测 + warm agent 记忆注入,实现三层路由(简单→小模型,困难→大模型,高风险→大模型+guardrail),在推理成本降低 78% 的同时仅损失 2pp 准确率。
- Adaptive Vision-Language Model Routing for Computer Use Agents
-
在CUA编排器和VLM池之间插入轻量语义路由层,通过难度分类+logprob置信度探测+记忆注入三机制,将大部分GUI操作交给小模型处理,推理成本降低78%且精度仅下降2个百分点。
- Adaptvision Efficient Vision-Language Models Via Adaptive Visual Acquisition
-
提出 AdaptVision,通过由粗到精的主动视觉机制和强化学习训练,让 VLM 自主决定每个样本所需的最少视觉 token 数量,配合解耦式多轮策略优化 (DTPO) 实现效率与精度的最优平衡。
- ApET: Approximation-Error Guided Token Compression for Efficient VLMs
-
从信息论角度提出基于线性近似重建误差的视觉 token 重要性评估方法,不依赖 attention 权重,天然兼容 FlashAttention,在 LLaVA-1.5 上压缩 88.9% 视觉 token 仍保持 95.2% 性能。
- ApET: Approximation-Error Guided Token Compression for Efficient VLMs
-
从信息论角度出发,通过线性近似重建每个visual token并用重建误差衡量其信息量(误差大=信息多=应保留),提出完全不依赖注意力权重的ApET框架,在LLaVA-1.5-7B上88.9%压缩保留95.2%精度,视频任务甚至达100.4%超基线,且完全兼容FlashAttention。
- Beyond Global Similarity Towards Fine-Grained Multi-Condition Multimodal Retriev
-
提出 MCMR 大规模多条件多模态检索基准,每个查询包含多个跨视觉和文本模态的组合约束条件,并系统评估了 MLLM 检索器与重排器在细粒度条件感知推理下的能力差异。
- Beyond Heuristic Prompting A Concept-Guided Bayesian Framework For Zero-Shot Ima
-
将 VLM 零样本图像识别重构为贝叶斯框架,通过 LLM 驱动的多阶段概念合成流水线构建概念提案分布,并用自适应 soft-trim 似然函数抑制离群概念影响,在 11 个分类基准上优于 SOTA 方法。
- Beyond Static Artifacts A Forensic Benchmark For Video Deepfake Reasoning In Vis
-
提出 FAQ(Forensic Answer-Questioning),首个关注深度伪造视频中时序不一致性的多选问答基准,通过三层级任务体系(感知→定位→推理)逐步增强 VLM 的取证能力,微调后在域内和跨数据集检测中均取得显著提升。
- Brima Bridged Modality Adaptation For Multi-Modal Continual Action Quality Asses
-
提出 BriMA,通过记忆引导的桥接补全和模态感知回放机制,解决多模态持续动作质量评估中非平稳模态不平衡问题,在三个基准上平均提升 6-8% 相关系数、降低 12-15% 误差。
- Bussard Normalizing Flows For Bijective Universal Scene-Specific Anomalous Relat
-
提出 BUSSARD,首个基于学习的场景特定异常关系检测方法,利用预训练语言模型嵌入场景图三元组 + 自编码器降维 + 标准化流进行似然估计,在 SARD 数据集上 AUROC 提升约 10%,且对同义词变化鲁棒。
- Capt Confusion-Aware Prompt Tuning For Reducing Vision-Language Misalignment
-
提出 CAPT 混淆感知 prompt tuning 框架,通过语义混淆挖掘器(SEM)和样本混淆挖掘器(SAM)显式建模 VLM 的系统性误对齐模式,配合多粒度差异专家(MGDE)融合不同层次的混淆信息,在 11 个基准上取得 HM 83.90% 的最优表现。
- Cc-Vqa Conflict- And Correlation-Aware Method For Mitigating Knowledge Conflict
-
提出 CC-VQA,一种 training-free 的知识冲突缓解方法,通过视觉中心的上下文冲突推理和相关度引导的编码/解码两阶段策略,在 E-VQA、InfoSeek、OK-VQA 三个基准上取得 3.3%-6.4% 的绝对精度提升。
- CIPHER: 用反事实对抗幻觉——扩散引导的LVLM幻觉抑制
-
提出CIPHER——通过构建扩散编辑的反事实图像数据集提取视觉幻觉的低秩子空间表示,推理时将隐层状态投影远离该子空间来免训练地抑制LVLM幻觉,首次专门针对视觉诱导的幻觉而非文本诱导的幻觉。
- Circuit Tracing In Vision-Language Models Understanding The Internal Mechanisms
-
提出首个面向 VLM 的电路追踪框架,通过在 Gemma-3-4B 中训练 transcoder、构建归因图、发现多模态电路,揭示了视觉-语义概念的层次化整合、视觉数学推理电路、六指幻觉的内部机制等关键洞察。
- CLIP-Free, Label-Free, Unsupervised Concept Bottleneck Models
-
提出 TextUnlock 方法将任意冻结视觉分类器的输出分布对齐到视觉-语言对应空间,进而构建无需CLIP、无需标签、无需训练线性探针的全无监督概念瓶颈模型 (U-F²-CBM),在40+模型上超越有监督CLIP-based CBM。
- Codepercept Code-Grounded Visual Stem Perception For Mllms
-
通过系统性缩放分析发现 感知(perception)而非推理(reasoning) 是MLLM在STEM领域的真正瓶颈,提出以可执行Python代码为锚定媒介的CodePercept范式,构建百万级ICC-1M数据集和STEM2Code-Eval基准,显著提升MLLM的STEM视觉感知能力。
- CodePercept: Code-Grounded Visual STEM Perception for MLLMs
-
通过感知-推理解耦缩放实验证明 MLLM 在 STEM 任务中的瓶颈是感知而非推理,提出以可执行代码为感知介质的 CodePercept 范式,构建 ICC-1M 数据集和 STEM2Code-Eval 基准,系统性提升 MLLM 的 STEM 视觉感知能力。
- CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment
-
提出 CognitionCapturerPro,通过不确定性加权遮蔽(UM)、多模态融合编码器和共享主干-多头对齐(STH-Align),整合 EEG 信号与图像/文本/深度/边缘四种模态,在 THINGS-EEG 上实现 Top-1 检索准确率 61.2%、Top-5 达 90.8%,较前作 CognitionCapturer 提升 25.9% 和 10.6%。
- CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment
-
提出 CognitionCapturerPro,通过不确定性加权掩蔽、多模态融合编码器、共享主干对齐模块和多分支 IP-Adapter 扩散重建,解决 EEG 视觉解码中的保真度损失和表征偏移问题,在 THINGS-EEG 上 Top-1 检索达 61.2%、Top-5 达 90.8%。
- Continual Learning With Vision-Language Models Via Semantic-Geometry Preservatio
-
提出 SeGP-CL,通过对抗锚点探测旧-新语义边界的脆弱区域,结合锚点引导的跨模态几何蒸馏(ACGD)和文本语义几何正则化(TSGR),在无样本回放条件下有效保持 VLM 的跨模态语义几何结构,显著缓解灾难性遗忘。
- Continual Learning with Vision-Language Models via Semantic-Geometry Preservation
-
提出 SeGP-CL,通过对抗性 PGD 在旧新语义边界构造锚点样本,配合锚点引导的跨模态几何蒸馏(ACGD)和文本语义几何正则化(TSGR),在无需旧数据回放条件下保护 VLM 持续学习中的跨模态语义几何结构,五个基准上达到 SOTA。
- Crosshoi-Bench A Unified Benchmark For Hoi Evaluation Across Vision-Language Mod
-
提出 CrossHOI-Bench,首个统一评估 VLM 和 HOI 专用模型的多选题 HOI 基准,通过精心策划的正负例避免不完整标注的错误惩罚,揭示了大型 VLM 零样本可比肩 SOTA HOI 方法,但在多动作识别和跨人归因上各有优劣。
- Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
-
提出 CubiD,首个在高维表征 token(768维)上做离散扩散生成的模型,通过在 \(h \times w \times d\) 三维张量上进行细粒度 mask 预测实现高质量图像生成,同时保留理解能力。
- Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events
-
提出 CoE,一个免训练的多模态摘要框架,通过构建层次事件图(HEG)引导链式事件推理,在8个数据集上超越SOTA视频CoT基线,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。
- DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
-
提出 DeAR,通过 Concept Entropy 指标将 ViT 深层注意力头分解为属性头/泛化头/混合头三类功能角色,并设计基于角色的注意力掩码机制精确控制信息流,在15个数据集上实现任务适配与零样本泛化的最佳平衡。
- Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation
-
提出 DASP,通过冗余度评分诊断偏置模态,再用非对称适应策略解耦稳定性与可塑性,解决多模态测试时适应中的负迁移和灾难性遗忘问题。
- Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models
-
揭示驾驶 VLA 模型中被忽视的"窄策略"(Narrow Policy)瓶颈——IL 阶段过度利用导致探索坍缩,进而限制 RL 阶段。提出 Curious-VLA 框架,通过可行轨迹扩展 + 多样性感知 RL 在 Navsim 上达到 SOTA(PDMS 90.3,Best-of-N 94.8)。
- Do Vision-Language Models Leak What They Learn Adaptive Token-Weighted Model Inv
-
首次系统研究 VLM 的模型逆向(Model Inversion)攻击,提出基于自适应 token 注意力权重的序列级逆向方法 SMI-AW,通过动态加权视觉关联度不同的 token 梯度,从 VLM 中重建隐私训练图像,人类评估攻击准确率达 61.21%。
- Draft and Refine with Visual Experts
-
提出 DnR(Draft and Refine),一个基于问题条件视觉利用度(Visual Utilization)指标的 Agent 框架,量化 LVLM 对视觉证据的实际依赖程度,并通过外部视觉专家(检测/分割/OCR等)的渲染反馈迭代改善视觉定位,减少幻觉。
- DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference
-
提出 DUET-VLM 双阶段视觉 token 压缩框架:第一阶段在视觉编码器内通过 V2V self-attention 选取 dominant tokens 并将剩余 tokens 通过注意力引导局部聚类合并为 contextual tokens;第二阶段在 LLM 内通过 T2V cross-attention 层级裁剪视觉 tokens。在 LLaVA-1.5-7B 上实现 67% token 压缩保持 99%+ 精度、89% 压缩保持 97%+ 精度,训练时间减少 31%。
- DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference
-
提出DUET-VLM双阶段视觉token压缩框架:先在视觉编码器侧通过局部聚类聚合将冗余token合并为信息保持的紧凑表示(V2V),再在语言骨干侧通过文本引导的层级自适应剪枝逐步删减低信息量token(T2V),在LLaVA-1.5-7B上67%压缩保留99%精度,89%压缩保留97%精度。
- Dynamic Token Reweighting for Robust Vision-Language Models
-
提出Dtr(Dynamic Token Reweighting),首个通过优化VLM的KV缓存来防御多模态越狱攻击的推理时防御方法,通过定义"反向安全偏移"(RSS)来识别导致安全退化的视觉token,动态调整其权重以恢复模型的安全对齐能力,同时保持良性任务性能。
- DTR: Dynamic Token Reweighting for Robust Vision-Language Models
-
提出DTR——首个通过KV cache优化防御多模态越狱攻击的方法:利用反转安全偏移(Reversal Safety-Relevant Shift)识别对抗性视觉token,通过动态重加权衰减其影响,仅4步优化即可在不依赖图生文转换的前提下,大幅降低攻击成功率(HADES S+T+A: 56.9%→15.9%)同时保持VLM性能和推理效率。
- DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs
-
提出 DynamicGTR 框架,通过动态路由在推理时为每个查询选择最优的图拓扑表示(GTR,视觉/文本共8种),显著提升 VLM 在零样本图算法问答中的性能,并可迁移到链接预测和节点分类等真实场景。
- Efficient Document Parsing via Parallel Token Prediction
-
提出 PTP(Parallel Token Prediction),一种模型无关的即插即用加速方法,通过在训练序列中插入可学习 register token 实现并行多 token 预测,在 OmniDocBench 上实现 1.6×-2.2× 吞吐提升且不损失精度。
- EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease
-
提出 EMAD,一个端到端多模态视觉-语言框架,为 AD 诊断生成结构化报告,通过分层 Sentence–Evidence–Anatomy (SEA) Grounding 将每个诊断声明显式关联到临床证据和 3D 脑部解剖,并用可执行规则驱动的 GRPO 强化微调确保临床一致性。
- EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models
-
提出 EMO-R3,通过结构化情感思维(SET)引导 MLLM 逐步进行情感推理,并设计反思情感奖励(RER)让模型重新评估推理的视觉-文本一致性和情感连贯性,显著提升多模态情感理解的可解释性和准确性。
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
-
构建 EmoVerse——首个同时覆盖 CES(Mikels 8 类离散情感)和 DES(1024 维连续情感空间)的大规模可解释视觉情感数据集(219K+ 图像),提出 B-A-S(Background-Attribute-Subject)三元组知识图谱标注体系和 Annotation & Verification Pipeline(Gemini/GPT-4o + EmoViT + CoT Critic Agent),并基于 Qwen2.5-VL-3B 微调实现 1024 维 DES 投射与情感归因解释。
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
-
提出 EmoVerse,一个219K规模的视觉情感数据集,通过知识图谱启发的Background-Attribute-Subject三元组实现词级和主体级情感归因,同时提供离散CES和连续1024维DES双情感标注,配合多阶段标注验证流水线和基于Qwen2.5-VL的可解释情感模型。
- EVLF: Early Vision-Language Fusion for Generative Dataset Distillation
-
提出 EVLF,一种在编码器-骨干网络接口处进行视觉-语言早期融合的即插即用方法,解决了扩散模型数据集蒸馏中晚期语义注入导致的文本过度主导和视觉保真度下降问题。
- Evolmm Self-Evolving Large Multimodal Models With Continuous Rewards
-
提出 EvoLMM,一个完全无监督的自演化框架:从单一骨干 LMM 中分出 Proposer(生成视觉问题)和 Solver(多次回答),通过连续自一致性奖励取代离散多数投票,让模型仅用原始图片即可自我提升多模态数学推理能力(ChartQA +2.7%, MathVista +2.1%)。
- EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards
-
提出 EvoLMM,一个纯无监督的自进化框架:从单一LMM分出Proposer(生成图像相关问题)和Solver(回答问题),通过连续自一致性奖励(替代离散多数投票)形成闭环训练信号,仅使用原始图像(无标注、无外部奖励模型),在8个多模态数学推理基准上获得约2-3%的一致性提升。
- Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
-
提出 HIER,通过层次语义表示(token→概念→关系三级)结合基于 MLLM 反馈的自进化推理机制,在三个多模态意图识别 benchmark 上一致超越 SOTA 方法和领先 MLLM(1-3% 增益)。
- Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory
-
提出 MM-SafetyBench++ 基准和 EchoSafe 框架,通过推理时维护自反思记忆库来累积安全洞察,使 MLLM 能够根据上下文区分看起来相似但安全意图不同的场景,无需训练即可提升上下文安全性。
- EvoPrompt: Evolving Prompt Adaptation for Vision-Language Models
-
EvoPrompt 通过轨迹感知的 prompt 进化策略(统一 embedding 投影 + 方向-幅度解耦训练 + 特征几何正则化)解决 VLM prompt learning 中的灾难性遗忘和模态偏差问题,在 few-shot/跨数据集/域泛化任务上全面 SOTA 且保持 zero-shot 能力。
- Evolving Prompt Adaptation for Vision-Language Models
-
提出EvoPrompt框架,通过模态共享提示投影器(MPP)生成跨层跨模态提示,引入进化轨迹感知学习策略(将低秩更新解耦为方向+幅度,冻结历史方向仅调幅度)防止灾难性遗忘,配合特征几何正则化(FGR)防止表示坍缩,在11个数据集的base-to-novel泛化上平均HM达80.73%超越所有现有方法。
- Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
-
提出量化感知积分梯度(QIG),将 LVLM 量化的灵敏度分析从模态级推进到 token 级,利用公理化归因原理精确量化每个 token 对量化误差的贡献,在 W4A8 和 W3A16 设置下显著提升量化模型精度,且几乎无额外计算开销。
- FINER: MLLMs Hallucinate under Fine-grained Negative Queries
-
发现 MLLM 在细粒度负查询(涉及多个对象/属性/关系的查询中仅有一个细微错误)下幻觉率急剧上升,提出 FINER 基准和 FINER-Tuning 方法(基于 DPO),在 InternVL3.5-14B 上最高提升 24.2%。
- FlashCache: Frequency-Domain-Guided Outlier-KV-Aware Multimodal KV Cache Compression
-
从频域角度重新审视多模态 KV Cache 压缩,发现 KV 矩阵能量集中于低频、偏离低频主成分的"离群 KV"编码了推理关键特征,提出 FlashCache——基于频域低通滤波识别并优先保留离群 KV + 动态逐层预算分配,实现 80% KV 内存节省和 1.69× 解码加速且不损任务性能,且与 FlashAttention 兼容。
- FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy
-
提出 FluoCLIP,一个两阶段视觉-语言框架:先通过染色锚定(stain-grounding)让 CLIP 学习荧光染色的语义,再通过染色引导排序(stain-guided ranking)实现染色感知的对焦质量评估,并引入首个多染色组织级荧光显微镜数据集 FluoMix。
- GACD: Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
-
通过一阶Taylor梯度估计每个token(视觉/文本/输出)对当前预测的贡献,设计GACD框架同时缓解文本-视觉偏差(增强视觉token影响力)和共现偏差(抑制与已有物体锚定的视觉token),在AMBER上提升8%总分、POPE F1提升8%,无需训练或辅助模型。
- GLEAM: A Multimodal Imaging Dataset and HAMM for Glaucoma Classification
-
提出首个公开三模态青光眼数据集 GLEAM(SLO 眼底图 + 环乳头 OCT + 视野偏差图,标注四个疾病阶段),以及层级注意力掩码建模 (HAMM) 框架,将跨模态自监督表示学习聚焦在编码器端,实现多模态青光眼精准分类。
- GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
-
提出 GraphVLM benchmark,系统评估VLM在多模态图学习中的三种角色——VLM-as-Encoder(增强GNN特征)、VLM-as-Aligner(桥接模态用于LLM推理)、VLM-as-Predictor(直接作为图学习backbone)。在6个数据集上的实验表明,VLM-as-Predictor持续取得最佳性能,揭示了VLM作为多模态图学习新基础的巨大潜力。
- GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
-
提出 GraphVLM benchmark,系统评估 VLM 在多模态图学习中的三种角色(Encoder/Aligner/Predictor),发现 VLM-as-Predictor 范式一致性最优,揭示 VLM 作为多模态图推理骨干的巨大潜力。
- GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
-
提出GTR-Turbo框架,通过合并RL训练过程中产生的历史checkpoint作为免费教师模型,在无需依赖昂贵外部API模型的条件下,实现了与GTR相当甚至更优的多轮视觉代理训练效果,同时将训练时间减少50%、计算成本降低60%。
- GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
-
提出GTR-Turbo——将RL训练过程中的历史checkpoint通过TIES合并为"免费教师"来引导后续RL,完全去除对GPT等昂贵外部模型的依赖,在Points24上胜率从3.5%(RL4VLM)提升至53.5%,同时训练时间减半、计算成本降低60%。
- HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding
-
提出 HAMMER 框架,通过从 MLLM 中提取接触感知的意图嵌入、层次化跨模态融合增强点云特征、以及多粒度几何提升模块为意图嵌入注入3D空间信息,实现基于交互图像的3D可供性定位,在 PIAD 基准上全面超越现有方法。
- HiFICL: High-Fidelity In-Context Learning for Multimodal Tasks
-
通过对注意力机制中ICL效果的精确数学分解,揭示"shift vector"本质是注意力公式的解析后果,进而提出HiFICL——用可学习的低秩虚拟键值对直接参数化ICL的源头,实现高保真、动态、端到端的上下文学习近似,在多个多模态基准上以极少参数量超越现有方法。
- HIFICL: High-Fidelity In-Context Learning for Multimodal Tasks
-
通过严格的注意力公式分解揭示ICL的shift effect本质上是注意力机制的解析结果,据此提出HiFICL——用可学习低秩虚拟KV对直接参数化ICL的来源而非近似其效果,在多模态基准上以极少参数量全面超越现有ICL近似方法和LoRA。
- HoneyBee: Data Recipes for Vision-Language Reasoners
-
系统性地研究了VL推理训练数据的设计空间(数据来源、干预策略、多维度缩放),基于洞察构建了250万样本的HoneyBee数据集,训练出的3B VLM在MathVerse上超越SOTA 7.8个百分点。
- HouseMind: Tokenization Allows MLLMs to Understand, Generate and Edit Architectural Floor Plans
-
提出HouseMind——通过VQ-VAE将建筑平面图离散化为房间级token,让轻量级LLM(Qwen3-0.6B)在统一框架中同时完成平面图理解、生成和编辑,在所有三项任务上全面超越现有扩散和VLM方法,且可单卡部署。
- How to Take a Memorable Picture? Empowering Users with Actionable Feedback
-
定义了记忆性反馈(MemFeed)新任务,提出 MemCoach——一种 training-free 的 MLLM 激活导向方法,通过教师-学生策略将记忆性感知知识注入模型激活空间,使 MLLM 能生成提升照片记忆性的自然语言可操作建议。
- HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models
-
提出HulluEdit,一种单次前向、无参考模型的子空间编辑框架,通过将隐藏状态分解为正交的视觉证据子空间、冲突先验子空间和残差不确定性子空间,选择性抑制幻觉模式而不干扰视觉定位,在POPE和CHAIR基准上达到SOTA幻觉缓解效果。
- HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in LVLMs
-
提出HulluEdit——将模型隐状态分解为正交的三个子空间(视觉证据/冲突先验/残差不确定性),只在"冲突先验"子空间做编辑来抑制幻觉,数学保证视觉证据子空间完全不受影响。在POPE/CHAIR上达到SOTA幻觉抑制效果,只需单次推理。
- Human Knowledge Integrated Multi-Modal Learning For Single Source Domain General
-
提出 GenEval,通过域共形界(DCB)量化因果覆盖差距,并将人类专家知识量化精炼后与医学 VLM(MedGemma-4B)融合,以 LoRA 微调实现单源域泛化,在 DR 分级和癫痫灶检测上显著超越基线。
- Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization
-
提出域保形界(DCB)理论框架量化域间因果因子差异,并据此设计GenEval——通过知识精炼+MedGemma-4B LoRA微调,将人类专家领域知识整合到VLM中实现单源域泛化,在8个DR和2个SOZ数据集上显著超越SOTA。
- Interpretable Debiasing of Vision-Language Models for Social Fairness
-
提出 DeBiasLens,通过在 VLM 编码器上训练稀疏自编码器(SAE)来定位编码社会属性的"社会神经元",然后在推理时选择性去激活这些神经元以缓解偏见,在 CLIP 上降低 Max Skew 9-16%,在 InternVL2 上降低性别偏差比例 40-50%,同时保持通用性能。
- It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models
-
揭示 SOTA VLM 仍无法可靠读取真实场景中的模拟时钟(零样本准确率不到10%),提出 TickTockVQA 真实场景数据集(12K图像)和 Swap-DPO 微调框架,将 Llama-3.2-11B 的时间读取准确率从1.43%提升至46.22%。
- Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild
-
提出 JALA 框架,通过联合对齐预测嵌入与逆动力学生成的潜在动作,构建统一的潜在动作空间,使 VLA 能同时从标注数据和未标注的野外人类视频中学习,配合 7.5M 样本的 UniHand-Mix 数据集显著提升机器人操作泛化性。
- KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
-
提出KVSmooth,一种免训练的即插即用方法,通过注意力行熵引导的自适应指数移动平均(EMA)对KV-Cache进行平滑,有效抑制多模态大语言模型(MLLM)在解码过程中因sink token引发的语义漂移与幻觉生成,在LLaVA-1.5上将CHAIR_S从41.8降至18.2(降幅56%),同时F1从77.5提升至79.2。
- KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
-
KVSmooth 提出了一种免训练的即插即用方法,通过对 KV-Cache 中的 Key 和 Value 施加注意力行熵引导的自适应指数移动平均(EMA)平滑,将 LLaVA-1.5 的 CHAIR_S 从 41.8 降至 18.2(降低 56%),同时 F1 从 77.5 提升到 79.2。
- Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection
-
提出 PROGRESS 框架,通过追踪 VLM 在自动发现的多模态概念集群上的学习进度来动态选择最有信息量的训练样本,仅用 16-20% 的标注数据就达到全数据 99-100% 的性能,且总训练时间更短。
- Linking Perception, Confidence and Accuracy in MLLMs
-
揭示 MLLM 的严重置信度失校准问题(视觉输入退化时准确率暴跌但置信度不变),提出 CDRL(基于原始-噪声图像对的置信度驱动 RL)进行感知敏感性训练,并利用校准后的置信度实现自适应测试时缩放(CA-TTS),在四个基准上平均提升 8.8%。
- LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
-
针对 VLM 多模态多轮对话场景的安全问题(恶意意图隐蔽性、上下文风险累积、跨模态联合风险),构建了包含 4,484 个标注对话的 MMDS 数据集(8 大类 60 子维度风险分类),提出自动化多模态多轮红队测试框架 MMRT 和安全审计模型 LLaVAShield,在多个基准上显著优于现有内容审核工具和 SOTA VLM。
- LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
-
提出 LLaVAShield——首个面向多模态多轮对话的内容审核模型,配套构建了 MMDS 数据集(4,484条对话、8大类60子类风险体系)和基于 MCTS 的自动化红队攻击框架 MMRT,在用户/助手双端安全审计上大幅超越 GPT-5-mini 等基线。
- LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models
-
受人眼中央凹编码和皮层放大机制启发,提出无需训练的自适应采样框架 LLMind,通过 Möbius 变换实现非均匀像素分配,并利用闭环语义反馈在测试时优化采样参数,在仅使用 1%-5% 像素的紧张预算下大幅超越均匀采样。
- Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation
-
提出 LTS-FS(Locate-Then-Sparsify for Feature Steering)框架,通过因果干预归因方法定位幻觉相关层,并根据归因分数逐层稀疏地控制特征引导强度,在有效缓解 LVLM 幻觉的同时保持模型泛化能力。
- MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models
-
揭示了通道平滑量化(如 SmoothQuant)直接应用于 MLLM 时的"平滑失配"问题——不同模态激活幅度差异巨大导致非主导模态被过度平滑,提出 MASQuant 通过模态感知平滑因子和基于 SVD 白化的跨模态低秩补偿解决该问题。
- Mastering Negation: Boosting Grounding Models via Grouped Opposition-Based Learning
-
构建首个包含正负语义成对描述的视觉定位数据集 D-Negation (14K 图片, 140K 标注), 并提出 Grouped Opposition-Based Learning (GOBL) 微调机制, 通过 PNC 和 TSO 两个对立损失函数, 仅调不到 10% 参数即让 Grounding DINO 和 APE 在否定语义评估上提升最高 5.7 mAP, 且正面语义也同步提升.
- Mastering Negation Boosting Grounding Models Via Grouped Opposition-Based Learni
-
提出 D-Negation 数据集和 Grouped Opposition-Based Learning (GOBL) 微调机制,通过对立语义配对和两个专用损失函数,仅微调不到 10% 参数即大幅提升视觉定位模型对否定语义的理解能力(最高 +5.7 mAP)。
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs
-
指出现有基于 VLM 的 OOD 检测方法使用模态内距离(文本-文本或图像-图像)选择负文本,与 CLIP 优化的跨模态距离不一致,提出 InterNeg 从文本和视觉两个视角系统地利用跨模态距离,在 ImageNet 上实现 FPR95 降低 3.47%。
- Mitigating Multimodal Hallucinations Via Gradient-Based Self-Reflection
-
提出 GACD(Gradient-based Influence-Aware Constrained Decoding),利用一阶 Taylor 梯度估计每个 token 对输出的影响力,在推理阶段同时缓解文本-视觉偏差和共现偏差导致的多模态幻觉,无需辅助模型或微调。
- Modes Accelerating Mixture-Of-Experts Multimodal Large Language Models Via Dynam
-
提出 MoDES,首个面向 MoE 多模态大模型的训练免调专家跳过框架,通过全局调制的局部门控(GMLG)和双模态阈值(DMT)机制自适应跳过冗余专家,在跳过 88% 专家时仍保留 97%+ 原始性能,并实现 2.16× prefill 加速。
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping
-
首个针对MoE多模态大模型的专家跳过框架MoDES,通过全局调制局部门控(GMLG)将层级重要性融入路由概率、双模态阈值(DMT)对文本/视觉token分别设定跳过策略、前沿搜索高效优化阈值,在Qwen3-VL-MoE-30B上88%专家跳过仍保留97.33%精度,prefill加速2.16×。
- More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
-
提出 Panorama-Language Modeling(PLM)范式和 PanoVQA 大规模全景 VQA 数据集(653K QA 对),设计即插即用的全景稀疏注意力模块让现有 VLM 无需重训练即可处理等距柱状投影全景图,在遮挡和事故等恶劣场景下实现优于多视角拼接方案的全局推理。
- Mixture of States (MoS): Routing Token-Level Dynamics for Multimodal Generation
-
提出Mixture of States (MoS)——一种新的多模态扩散模型融合范式,用可学习的token级路由器将理解塔(冻结LLM/VLM)的任意层hidden state动态路由到生成塔(DiT)的任意层,以3-5B参数在图像生成和编辑上匹配或超越20B的Qwen-Image。
- Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models
-
通过 MoT 探针实验揭示 LVLM 中文本通路和视觉通路对剪枝的不对称敏感性——文本通路高度敏感必须用文本 token 校准、视觉通路高度冗余可承受 60% 稀疏度,据此提出 ATV-Pruning 使用全部文本 token + 逐层自适应选择的少量视觉 token 构建校准池。
- MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
-
提出 MSJoE 框架,将 MLLM 和轻量关键帧采样器通过强化学习联合进化——MLLM 生成视觉查询引导帧检索,1D U-Net 采样器从 CLIP 相似度矩阵中学习选帧,两者端到端联合优化实现长视频问答中 +8% 的准确率提升。
- Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
-
构建首个评估多模态 Judge 模型多准则遵循能力的基准 Multi-Crit,包含准则级人类标注和偏好冲突样本,配合三个新指标揭示当前最强模型在多准则评判上的系统性不足——最强闭源模型在开放生成任务上仅 32.78% 的多准则一致性。
- Multi-Modal Representation Learning Via Semi-Supervised Rate Reduction For Gener
-
提出 SSR²-GCD 框架,通过半监督编码率减少(Semi-Supervised Rate Reduction)损失学习模态内均匀压缩的结构化表征,并结合检索式文本聚合策略增强跨模态知识迁移,在8个数据集上超越现有多模态GCD方法。
- Multimodal OCR: Parse Anything from Documents
-
提出Multimodal OCR (MOCR)范式,将文档中的文本和图形(图表、图示、UI组件等)统一解析为结构化文本表示(文本+SVG代码),训练3B参数的dots.mocr模型在OCR Arena排名仅次于Gemini 3 Pro,在olmOCR Bench达到83.9 SOTA,在image-to-SVG基准上超越Gemini 3 Pro。
- NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval
-
NanoVDR 利用查询-文档的不对称性,将 2B 参数的 VLM 文档检索器通过 pointwise cosine alignment 蒸馏成 69M 的纯文本查询编码器,在 ViDoRe 基准上保留 95.1% 的教师模型性能,查询延迟降低 50 倍,训练仅需 13 GPU 小时。
- Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning
-
提出 Narrative Weaver 框架,结合 MLLM 的叙事规划与扩散模型的精细生成,通过可学习查询和动态 Memory Bank 实现多模态条件下的长程视觉一致性生成,并构建首个电商广告视频分镜数据集 EAVSD(330K+ 图像)。
- No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
-
提出端到端零样本视频异常检测框架 LAVIDA,通过异常暴露采样器将语义分割数据集转化为伪异常进行训练,结合 MLLM 提取深层异常语义特征和反注意力 token 压缩处理时空稀疏性,无需任何真实 VAD 数据即实现帧级/像素级 SOTA。
- OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
-
提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力(找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个),发现所有 MLLM 远低于人类水平,进而提出 OddGrid-GRPO(课程学习 + 距离感知奖励)显著提升模型的视觉辨别力。
- Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models
-
发现VLM幻觉的新机制——"过度思考"(overthinking):模型在中间层产生过多竞争性物体假设导致混杂因子传播到最终层,提出Overthinking Score量化层间假设多样性与不确定性的乘积,在MSCOCO上达到78.9% F1的幻觉检测性能。
- Parallel In-context Learning for Large Vision Language Models
-
提出 Parallel-ICL,将多模态 in-context learning 的长 demonstration 上下文分块并行处理,通过加权 Product-of-Experts 在 logit 层集成,实现与全上下文 MM-ICL 相当甚至更优的性能,同时显著降低推理延迟。
- PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models
-
提出 PointAlign,在 3D VLM 的 LLM 中间层对点云 token 施加特征级对齐正则化(与 Q-Former 输出对齐),仅训练轻量对齐投影器和 LoRA 适配器,即可有效防止几何信息在语言建模过程中退化,在开放词汇分类上提升 7.50pp。
- Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
-
首个面向多视角自动驾驶 VLM 的即插即用 token 剪枝框架,通过 T-FPS(token 级最远点采样)保持语义与空间多样性,配合视图自适应剪枝率优化自动分配各摄像头 token 预算,在 DriveLM 上仅保留 10% token 即实现 6.40× prefill 加速且性能仅降 3%。
- Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
-
首个面向多视角自动驾驶VLM的即插即用token剪枝框架Prune2Drive,通过T-FPS(token级最远点采样)保持语义/空间多样性 + 视图自适应剪枝率优化自动分配不同视角的token预算,在DriveLM上仅保留10% token即实现6.40×prefill加速且性能仅降3%。
- Quant Experts: Token-aware Adaptive Error Reconstruction for Large VLM Quantization
-
揭示VLM中重要通道的分布和出现频率在跨模态和token间差异显著,提出基于MoE的token感知PTQ框架:共享专家补偿全局token无关误差,路由专家自适应补偿局部token依赖误差,72B模型W4A6恢复5.09%精度。
- QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
-
提出 QuantVLA,首个面向 Vision-Language-Action (VLA) 模型的免训练后量化框架,通过选择性量化布局和两个轻量级标定机制(注意力温度匹配 ATM 和输出头平衡 OHB),在 W4A8 精度下实现约 70% 的内存节省,同时任务成功率超过全精度基线。
- Reallocating Attention Across Layers to Reduce Multimodal Hallucination
-
提出一种轻量级、无需训练的插件方法,通过识别感知型和推理型注意力头并进行类别条件缩放(Class-Conditioned Rescaling),重新平衡跨层注意力分配,从而缓解多模态大推理模型(MLRM)中的幻觉问题,在5个基准上平均提升4.2%,几乎无额外推理开销。
- Reallocating Attention Across Layers to Reduce Multimodal Hallucination
-
将多模态推理模型幻觉分解为浅层的感知偏差和深层的推理漂移两种失效模式,通过识别感知/推理功能头并选择性放大其贡献,以即插即用、无需训练的方式平均提升4.2%准确率,仅增加约1%计算开销。
- Reasonmap Towards Fine-Grained Visual Reasoning From Transit Maps
-
提出 ReasonMap 基准,利用 30 个城市的高分辨率公交地图构建 1,008 个 QA 对,通过两级评估框架(正确性+质量)系统评估 16 个 MLLM 的细粒度视觉推理能力,发现开源模型中 base 优于 reasoning 而闭源模型相反。
- ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps
-
提出ReasonMap基准——用30个城市的高分辨率地铁图+1008个人工验证问答对评估MLLM的细粒度视觉理解与空间推理能力,发现反直觉现象:开源推理模型反而不如base模型而闭源相反,揭示视觉定位(grounding)是开闭源差距的关键因素。
- Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress
-
提出 R²VLM,通过循环推理框架逐步处理本地视频片段,维护动态更新的 CoT 记录任务分解和完成状态,结合多维 RL 奖励实现长时域具身任务进度估计的 SOTA,并支持策略学习、奖励建模、主动辅助等下游应用。
- ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation
-
提出ReHARK——一个训练免的CLIP one-shot适应框架,通过融合CLIP文本知识、GPT3语义描述和视觉原型构建混合先验,结合多尺度RBF核在RKHS中做全局近端正则化,在11个基准上以65.83%平均准确率刷新one-shot SOTA。
- ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
-
提出 ReMoRa,直接操作视频压缩表示(I帧 + 运动向量),通过 Refined Motion Representation (RMR) 模块将粗糙的块级运动向量精化为接近光流的细粒度运动表征,再用 Hierarchical Motion State Space (HMSS) 模块进行线性时间的长程时间建模,在 LongVideoBench、NExT-QA、MLVU 等基准上超越基线。
- Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token
-
提出 SELF1E,首次实现不依赖专用 mask 解码器且仅用单个 [SEG] token 的 MLLM 分割方法,通过 Residual Features Refilling (RFR) 和 Residual Features Amplifier (RFA) 恢复 pixel-shuffle 压缩造成的分辨率损失,在多个分割任务上达到与解码器方法竞争力相当的性能。
- Revisiting Model Stitching In the Foundation Model Era
-
系统研究异质视觉基础模型(CLIP/DINOv2/SigLIP2/DINOv3)之间的"可拼接性",发现通过Final Feature Matching预训练stitch层可实现可靠拼接,且拼接模型一致超越self-stitch基线,并提出VFM Stitch Tree(VST)在仅4.3%额外开销下恢复45%的多VFM性能增益。
- Revisiting Model Stitching In the Foundation Model Era
-
提出针对异构视觉基础模型(VFM)的两阶段拼接训练方法(Final Feature Matching + Task Loss Training),证明异构VFM可以可靠拼接且融合互补知识,并设计VFM Stitch Tree (VST)架构实现多VFM系统的可控精度-效率权衡。
- Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
-
提出FlashCache——首个不依赖注意力分数、无需训练的多模态KV Cache压缩框架,通过频域低通滤波识别Outlier KV并动态分配各层预算,在保持性能的前提下实现80%内存节省和1.69×解码加速。
- RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations
-
提出 RobustVisRAG,一个因果引导的双路径框架,通过非因果路径捕获退化信号、因果路径学习纯净语义来解耦 VisRAG 中的语义-退化纠缠,在真实世界退化条件下检索、生成和端到端性能分别提升 7.35%、6.35% 和 12.40%,同时保持干净数据上的性能。
- SaPaVe: Towards Active Perception and Manipulation in VLA Models for Robotics
-
提出SaPaVe端到端主动操作框架,通过解耦相机动作和操作动作的自底向上训练策略(先学语义主动感知再学主动视角执行),配合200K相机控制数据集和3D空间知识注入,在真实世界任务中超越π0和GR00T N1高达31-40%成功率。
- Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework
-
提出 Self-Critical Inference (SCI) 框架,通过多轮文本+视觉反事实推理的 logit 聚合来同时解决 LVLM 的语言偏差和语言敏感性问题,并提出 DRBench 动态鲁棒性基准来模型特异地评估鲁棒性。增加反事实推理轮次可持续提升鲁棒性,开辟了测试时缩放的新方向。
- Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
-
提出一种高效的即插即用模块,通过学习多模态类嵌入来增强 VLM 对稀有物体的识别和推理能力:在视觉端用 cross-attention 适配器精化视觉 token,在文本端注入物体检测提示,无需微调 VLM 即可在 CODA-LM 上获得 72.8→75.4 的显著提升。
- SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design
-
构建SldprtNet——含242K+工业CAD零件的大规模多模态数据集,每个样本包含.sldprt/.step模型、7视角合成图、参数化建模脚本(13种命令无损编解码)和Qwen2.5-VL生成的自然语言描述,baseline实验验证多模态输入(图+文)在CAD生成上优于纯文本输入。
- SoPE: Spherical Coordinate-Based Positional Embedding for 3D LVLMs
-
揭示RoPE在3D LMM中的空间感知偏差——1D光栅索引无法保持3D结构且忽略方向变化,提出球面坐标位置编码SoPE(\(t,r,\theta,\phi\)四维索引+多维频率分配+多尺度混合),显著提升3D布局估计和物体检测。
- SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
-
提出SpatiaLQA基准(9605个QA对、241个真实室内场景),系统评估41个VLM在空间逻辑推理上的表现,并设计递归场景图辅助推理方法来提升VLM的空间逻辑推理能力。
- SSR2-GCD: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery
-
提出SSR2-GCD框架,通过半监督率缩减(SSR2)损失替代传统对比损失来学习均匀压缩的结构化表示,并发现模态间对齐在多模态GCD中不仅不必要甚至有害,在Stanford Cars和Flowers102上分别领先SOTA 3.1%和6.3%。
- See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles (StaR)
-
揭示现有多模态GUI Agent在开关控制(toggle)任务上的严重失败(GPT-5仅37% O-AMR),提出State-aware Reasoning (StaR)方法通过三步推理链(感知当前状态→分析目标状态→决定是否操作)将执行准确率提升30%+,同时不损害通用Agent能力。
- Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
-
提出TARA框架,通过将LMM的中间表示与生物基础模型(BFM)的分类学感知特征对齐,为大型多模态模型注入分类层次知识,显著提升已知和新颖类别的层次化视觉识别性能。
- Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach
-
提出四模态(场景VideoMAE+人脸EfficientNetB0+音频Wav2Vec2.0+Mamba+文本EmotionDistilRoBERTa)融合管线,通过原型增强Transformer融合模块将模态嵌入投影到共享空间并结合原型分类辅助损失,在BAH测试集上以5模型集成达到71.43% Macro F1。
- Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach
-
提出三模态连续VA估计方法,首次将VLM(Qwen3-VL-4B)生成的情感行为描述嵌入作为独立模态,与GRADA人脸编码器和WavLM音频特征通过两种融合策略(DCMMOE和RAAV)组合,在Aff-Wild2上达到CCC 0.658(dev)/0.62(test)。
- Test-Time Attention Purification for Backdoored Large Vision Language Models
-
发现LVLM后门行为的本质是跨模态注意力窃取(trigger视觉token抢夺文本token的注意力),提出CleanSight——首个无需训练的测试时后门防御框架,通过检测和剪枝高注意力trigger token来消除后门效应。
- Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction
-
提出TOMCap——一种纯文本训练的图像描述方法,通过检索增强+模态差距修正+LoRA微调,在训练时只用文本而推理时处理图像,超越了已有的无训练和纯文本方法。
- Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans (HouseMind)
-
提出 HouseMind,通过层次化 VQ-VAE 将建筑平面图离散化为房间级空间 token,在统一的 MLLM 框架中实现平面图理解、生成和编辑三大任务,在几何有效性和可控性上全面超越扩散模型和通用 VLM 基线。
- Topo-R1: Detecting Topological Anomalies via Vision-Language Models
-
提出Topo-R1——首个赋予VLM拓扑感知能力的框架,通过自动化数据构建管线+SFT+GRPO强化学习(含拓扑感知复合奖励),实现无标注的管状结构拓扑异常检测与分类。
- Towards Calibrating Prompt Tuning of Vision-Language Models
-
针对prompt tuning后CLIP面临的"双重误校准"问题(基类欠自信+新类过自信),提出均值-方差margin正则化和文本矩匹配损失两个互补正则项,作为即插即用模块在7种prompt tuning方法和11个数据集上显著降低ECE。
- Towards Faithful Multimodal Concept Bottleneck Models
-
提出f-CBM——首个忠实的多模态概念瓶颈模型框架,通过可微分泄漏损失减少概念表示中的非预期信息泄漏,同时用Kolmogorov-Arnold Network (KAN) 预测头提升概念检测精度,在任务准确率、概念检测和泄漏减少间取得最优Pareto前沿。
- Towards Multimodal Domain Generalization with Few Labels
-
定义并研究半监督多模态域泛化(SSMDG)新问题,提出融合一致性驱动伪标签、分歧感知正则化和跨模态原型对齐的统一框架,在少量标注下实现多模态模型的跨域泛化。
- UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
-
提出首个统一的任意到任意交错多模态基准 UniM(31K 样本、7 种模态、30 个领域),配套三维评估体系和基于可追溯推理的智能体基线 UniMA,揭示现有 MLLM 在交错多模态范式下的严重不足。
- UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression
-
提出 UniMMAD, 首个统一多模态 (RGB/Depth/IR 等) 多类别异常检测框架, 通过 General-to-Specific 范式: 通用多模态编码器压缩特征, Cross Mixture-of-Experts (C-MoE) 解压为域特定特征, 在 5 个数据集 (含工业/医学/合成场景) 上取得 SOTA, 59 FPS 推理速度.
- Unimmad Unified Multi-Modal And Multi-Class Anomaly Detection Via Moe-Driven Fea
-
提出 UniMMAD,首个用单一参数集同时处理多模态、多类别异常检测的统一框架,核心是基于 MoE 的特征解压缩机制,将通用多模态编码特征自适应分解为领域特定的单模态重建,在 9 个数据集(3 个领域、12 种模态、66 个类别)上达到 SOTA。
- V2Drop: Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
-
首次从token变化量视角出发,发现LLM层间变化小的"懒惰"视觉token对输出影响可忽略,提出V2Drop渐进式剪除低变化token,在图像理解上保留94.0%性能同时减少31.5%生成延迟,视频理解上保留98.6%性能减少74.2%延迟,且完全兼容FlashAttention。
- Variation-Aware Vision Token Dropping for Faster Large Vision-Language Models
-
提出 V2Drop,首次从 token 变化量(variation)视角出发,通过渐进式丢弃 LLM 内部变化量最小的"懒惰"视觉 token,实现无训练、无位置偏差、兼容高效算子的 LVLM 推理加速,在图像和视频理解任务中分别保留 94.0% 和 98.6% 原始性能,同时降低 LLM 生成延迟 31.5% 和 74.2%。
- Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
-
定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注),提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力,再通过CoT推理激活审美裁剪能力,在两个任务上均达到SOTA。
- VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
-
提出VGGDrive框架,通过冻结的3D视觉基础模型VGGT为VLM注入跨视图几何感知能力,设计插拔式CVGE模块分层自适应地将3D特征注入VLM各层的2D视觉嵌入中,在五个自动驾驶基准上实现显著性能提升。
- VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion
-
构建M3SVD大规模红外-可见光视频数据集(220视频/15万帧),并提出VideoFusion框架,通过跨模态差分强化模块(CmDRM)+完整模态引导融合(CMGF)+双向时序共注意力(BiCAM)+变分一致性损失,实现时空协同的多模态视频融合,在融合质量和时序一致性上超越现有图像融合和视频融合方法。
- Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning
-
提出MedCBR框架,通过将临床诊断指南(如BI-RADS)融入概念瓶颈模型的训练和推理过程,利用LVLM生成指南一致性报告增强概念监督,结合多任务CLIP训练和大推理模型生成结构化临床解释,在超声和乳腺X光癌症检测上达到94.2%和84.0%的AUROC。
- VL-RouterBench: A Benchmark for Vision-Language Model Routing
-
提出VL-RouterBench,首个面向视觉-语言模型的系统性路由基准,涵盖14个数据集、17个候选模型和519,180个样本-模型对,评估10种路由方法,并发现当前最优路由器与理想Oracle之间仍存在显著差距。
- VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
-
提出VLM-Loc框架,将3D点云地图转换为BEV图像和场景图供VLM进行结构化空间推理,结合部分节点分配(PNA)机制实现文本-点云精细定位,在自建的CityLoc基准上以Recall@5m提升14.20%大幅超越先前SOTA。
- VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm
-
提出VLM-Pruner,一种免训练的离心式token剪枝方法,通过空间稀疏缓冲(BSS)准则平衡冗余消除与局部细节完整性,在88.9%剪枝率下跨5个VLM一致超越现有方法,同时实现端到端推理加速。
- Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks
-
首次系统研究 VLM 的模型反转(Model Inversion)攻击,提出一套面向 token 生成特性的反转策略(TMI/TMI-C/SMI),以及基于视觉注意力强度动态加权 token 梯度贡献的 SMI-AW 方法,在 4 种 VLM 和 3 个数据集上实现最高 61.21% 的人类评估攻击准确率,揭示了 VLM 严重的训练数据隐私泄露风险。
- What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
-
提出EmbedLens探针工具系统分析MLLM中视觉token的内部结构,发现视觉token分为sink/dead/alive三类(约40%为无用token),alive token已在进入LLM前编码丰富语义("预语言"特性),且LLM内部视觉计算对大多数任务冗余,直接中层注入即可。
- When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs
-
发现VLLM深层中现有token剪枝方法不如随机剪枝的现象,提出基于输出概率变化量化视觉token信息的方法,揭示了"信息地平线"——视觉token信息在某层均匀消散至零的临界层,其位置受任务视觉复杂度和模型能力动态影响,并证明简单集成随机剪枝能有效提升现有方法。
- Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
-
提出Eagle,一个轻量级黑盒归因框架,通过insight score(充分性)和necessity score(不可或缺性)的统一目标函数对MLLM的自回归token生成进行空间归因,并量化每个token依赖语言先验还是感知证据,在忠实度/定位/幻觉诊断上全面超越现有方法且GPU显存需求大幅降低。