📅 2026-03-17 精选笔记¶
共 20 篇
360° Image Perception with MLLMs: A Comprehensive Benchmark and Training-Free Method¶
🧩 多模态/VLM
提出 360Bench(7K分辨率360°图像+7个子任务+人工标注)和 Free360(无训练场景图VQA框架),在投影感知任务上提升14%,揭示最强模型(46.5%)与人类(86.3%)的巨大差距。
BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization¶
🧩 多模态/VLM / 模型压缩
提出 BATQuant,通过块对齐的仿射变换(而非全局旋转)处理 MXFP4 量化中的异常值问题,用 Global-Private Kronecker 分解将参数量降低 79%,在 W4A4KV16 激进配置下恢复多模态基准 96.43% 的全精度性能。
BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection¶
🧩 多模态/VLM
用正则化流+LLM嵌入检测场景图中的异常物体-关系-物体三元组,比基线高10% AUROC且推理快5×,对同义词变化鲁棒。
CIRCLES: Retrieving Counterfactuals Improves Visual In-Context Learning¶
🧩 多模态/VLM
提出 CIRCLES 框架,通过组合图像检索(CIR)主动构造反事实风格的示例集,替代传统基于相似度的被动检索,使 VLM 在视觉上下文学习中学习因果属性关系而非虚假关联,在细粒度分类和 VQA 上一致超越 RICES 等基线。
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models¶
🧩 多模态/VLM
提出 HeBA,一种异构瓶颈适配器框架,为 CLIP 的视觉和文本分支分别设计卷积和线性适配器(压缩而非扩展),配合 Kaiming 初始化替代零初始化,在 11 个 few-shot 基准上以 81.35% 调和平均达到新 SOTA。
Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles¶
🧩 多模态/VLM
揭示 VLM 集成中的家族相关误差(17个模型仅等价于 2.5-3.6 个独立投票者),提出 Hierarchical Family Voting 和 Learned Candidate Scoring 分别在 Misleading 层恢复 +18-26pp 和在 VQAv2 达到 87.83%。
Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot MIE¶
🧩 多模态/VLM
在双曲空间中构建多模态生成表示框架(HMGRL),通过双曲变分信息瓶颈(HVIB)对齐多模态特征并用双曲条件VAE(HMCVAE)生成未见类别的合成样本,实现泛化零样本多模态信息抽取。
IOMM: Rethinking UMM Visual Generation — Masked Modeling for Efficient Image-Only Pre-training¶
🎨 多模态/VLM / 图像生成
提出 IOMM 框架,通过两阶段训练(纯图像自监督预训练 + 混合数据微调)构建统一多模态模型的视觉生成组件,用掩码图像建模防止自条件坍塌,仅 1050 H800 GPU 小时即在 GenEval 上达到 0.89 超越 BAGEL-7B。
MolmoBot: Large-Scale Simulation Enables Zero-Shot Manipulation¶
🤖 机器人
通过 MolmoBot-Engine 生成 180 万仿真操作轨迹训练 VLA 策略,实现完全零样本 sim-to-real 迁移——在桌面抓取上 79.2% 成功率(π0.5 仅 39.2%),同时支持移动操作(开门/开抽屉/移动抓取),全部开源。
Parallel In-context Learning for Large Vision Language Models¶
🧩 多模态/VLM
提出 Parallel-ICL,将长示例上下文分割为并行处理的小块,通过加权 Product-of-Experts 融合,在保持完整上下文ICL性能的同时大幅降低推理延迟。
Cross-modal Learning for Plankton Recognition¶
🧩 多模态/VLM
将 CLIP 式对比学习从文本-图像迁移到显微图像-光学剖面的跨模态浮游生物识别,通过 InfoNCE 对齐双模态到共享空间后用 k-NN 分类,域内达 96% 准确率且仅需 16 个标注样本/类,同时显著超越 DINO 单模态基线。
Proxy-GRM: Learning Transferable Rubrics via Proxy-Guided Critique for VLM Reward Models¶
🧩 多模态/VLM / LLM对齐
提出 Proxy-GRM,通过训练独立的代理评估器验证生成式奖励模型(GRM)产生的评估准则(rubric)的可迁移性,将该验证信号作为 RL 奖励闭环优化 rubric 质量,仅用 ~50K 数据在三个 VLM 奖励基准上达到 SOTA。
RaDAR: Relation-aware Diffusion-Asymmetric Graph Contrastive Learning for Recommendation¶
📋 推荐系统
提出 RaDAR 框架,通过双视图生成(VGAE 全局结构 + 关系感知边去噪)与扩散增强的非对称对比学习,在 3 个二值边和 3 个加权边推荐基准上全面 SOTA,特别在高稀疏和高噪声条件下相比 AdaGCL 提升 3-5%。
SemTok: Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation¶
🎨 图像生成
提出 SemTok,用 MMDiT 编码器将 2D 图像压缩为语义对齐的 1D 离散 token 序列(256 tokens / 256×256),通过 SigLIP 语义约束 + 两阶段生成式训练(扩散预训练 → 精细化微调)在 ImageNet 上 rFID 0.67 刷新 SOTA,其 masked AR 模型以 1.2B 参数达到 gFID 2.34 追平 VAR-d24。
V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models¶
🧩 多模态/VLM
提出 V-DyKnow,一个动态基准用于评估 VLM 的时效性事实知识——通过 Wikidata 在评估时获取最新事实作为标准答案,发现 VLM 频繁输出过时信息(开源模型仅 3-32% 正确),且视觉输入比文本输入的事实召回显著退化。
VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations¶
🧊 3D视觉
构建可扩展 3D 数据引擎生成 2000 个高保真 3D 场景(300万 QA 对),提出 VIEW2SPACE 基准系统评估稀疏多视图推理——SOTA VLM 仅勉强超过随机猜测;提出 Grounded Chain-of-Thought with Visual Evidence 方法在视觉定位任务上提升 +52% mIoU,且可零样本迁移到真实数据集超越专用模型 9%+。
VIGOR: Video Geometry-Oriented Reward for Temporal Generative Alignment¶
🎨 图像生成 / 视频理解
提出基于 VGGT 几何基础模型的逐点重投影误差奖励,通过几何感知采样聚焦关键区域,支持 SFT/DPO 后训练和因果视频模型的测试时缩放(TTS),有效缓解视频生成中的物体变形、空间漂移和深度违规等几何不一致问题。
VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents¶
🧩 多模态/VLM / LLM Agent
提出 VisBrowse-Bench,一个 169 道专家构造的多模态 VQA 基准,要求浏览 Agent 在搜索过程中主动获取和推理视觉信息(而非仅靠反向图像搜索获取实体名后退化为文本搜索),最强模型 Claude-4.6-Opus 仅达 47.6% 准确率。
Visual Distraction Undermines Moral Reasoning in Vision-Language Models¶
🛡️ AI安全
提出 Moral Dilemma Simulation (MDS)——基于道德基础理论的可控多模态道德基准(84K 样本),通过三模态诊断协议(文本/描述/图像)揭示视觉输入系统性地破坏 VLM 的道德推理:压制功利主义敏感度、削弱义务论约束、放大人口统计偏见——文本安全对齐无法迁移到视觉模态。
WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as Unifying Representation¶
🎨 图像生成 / 世界模型
以相机位姿为统一几何表示,在李代数 \(\mathfrak{se}(3)\) 上严格建模用户动作 → 6-DoF 相机位姿,通过 Plücker 嵌入注入视频 DiT + 位姿索引的长期记忆池实现 3D 一致性,配合渐进式自回归推理和 attention sink 支持长序列生成,在 3000 分钟游戏数据上超越 SOTA。